기타/기타 잡다한 것들

1. BeautifulSoup (스프레이핑) 설치와 기본 사용법

제주도소년 2018. 9. 18. 14:38

BeautifulSoup : 파이썬으로 스크레이핑을 할 수 있게 해주는 라이브러리(HTML,XML 에서 정보를 추출 할 수 있다.)

스크레이핑 : 웹 사이트에 있는 특정 정보를 추출



1. 라이브러리 설치

명렁프롬프트 창에서 다음과 같은 명령어 입력

pip3 install beautifulsoup4 (pip3 가 안될경우 pip)


2. 기본 사용법


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
from bs4 import BeautifulSoup
 
html = """
<html>
<body>
<h1>스크래핑이란..</h1>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>
"""
 
soup = BeautifulSoup(html, 'html.parser')
 
h1 = soup.html.body.h1
p1 = soup.html.body.p
 
print(h1.string)
print(p1.string)
 
cs


맨 처음 라이브러리를 사용하기 위해 라이브러리를 읽었고


html 변수 안의 내용이 분석할 html 입니다.


12행에서는 BeautifulSoup 인스턴스를 선언하는데 여기서 첫번째 매개변수는 분석할 변수명인 html 을 적었고

두번째 매개변수는 분석할 분석기의 종류를 지정했습니다.


h1변수는 <html> -> <body> -> <h1> 요소에 접근 한 것입니다.


17행과 18행에서는 .string  을 통해 글자를 추출해서 출력합니다.


출력은 다음과 같이 나옵니다




출처는 파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문