BeautifulSoup : 파이썬으로 스크레이핑을 할 수 있게 해주는 라이브러리(HTML,XML 에서 정보를 추출 할 수 있다.)
스크레이핑 : 웹 사이트에 있는 특정 정보를 추출
1. 라이브러리 설치
명렁프롬프트 창에서 다음과 같은 명령어 입력
pip3 install beautifulsoup4 (pip3 가 안될경우 pip)
2. 기본 사용법
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | from bs4 import BeautifulSoup html = """ <html> <body> <h1>스크래핑이란..</h1> <p>원하는 부분을 추출하는 것</p> </body> </html> """ soup = BeautifulSoup(html, 'html.parser') h1 = soup.html.body.h1 p1 = soup.html.body.p print(h1.string) print(p1.string) | cs |
맨 처음 라이브러리를 사용하기 위해 라이브러리를 읽었고
html 변수 안의 내용이 분석할 html 입니다.
12행에서는 BeautifulSoup 인스턴스를 선언하는데 여기서 첫번째 매개변수는 분석할 변수명인 html 을 적었고
두번째 매개변수는 분석할 분석기의 종류를 지정했습니다.
h1변수는 <html> -> <body> -> <h1> 요소에 접근 한 것입니다.
17행과 18행에서는 .string 을 통해 글자를 추출해서 출력합니다.
출력은 다음과 같이 나옵니다
출처는 파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문
'기타 > 기타 잡다한 것들' 카테고리의 다른 글
연습예제1) Hello, TensorFlow (0) | 2018.09.21 |
---|---|
2. BeautifulSoup 여러 개의 요소 추출하기 (find_all()) (2) | 2018.09.18 |
[자바스크립트] 회원가입 유효성 검사 2 (0) | 2018.09.15 |
안드로이드 스튜디오에 가상 디바이스 설치하기 (0) | 2018.09.15 |
Configuration 'compile' is obsolete and has been replaced with 'implementation' and 'api'. 에러 해결 (0) | 2018.09.14 |