requests로 html 소스 가져오기
import requests
## HTTP GET Request
req = requests.get('https://kaiser1227.github.io/')
## HTML 소스 가져오기
html = req.text
## HTTP Header 가져오기
header = req.headers
## HTTP Status 가져오기 (200: 정상)
status = req.status_code
## HTTP가 정상적으로 되었는지 (True/False)
is_ok = req.ok
html
beautifulSoup로 html 소스 가져오기
import requests
from bs4 import BeautifulSoup
## HTTP GET Request
req = requests.get('https://kaiser1227.github.io/')
## HTML 소스 가져오기
html = req.text
## BeautifulSoup으로 html소스를 python객체로 변환하기
## 첫 인자는 html소스코드, 두 번째 인자는 어떤 parser를 이용할지 명시.
## 이 글에서는 Python 내장 html.parser를 이용했다.
soup = BeautifulSoup(html, 'html.parser')
soup
html 특정 태그 값 조회하기
## parser.py
import requests
from bs4 import BeautifulSoup
req = requests.get('https://kaiser1227.github.io/')
html = req.text
soup = BeautifulSoup(html, 'html.parser')
## CSS Selector를 통해 html요소들을 찾아낸다.
my_titles = soup.select(
'h2'
)
print(my_titles)
## my_titles는 list 객체
for title in my_titles:
## Tag안의 텍스트
print(title.text)
## Tag의 속성을 가져오기(ex: href속성)
print(title.get('h2'))