데이터분석을 위한 거미줄 가져오기 - 사내 도서관에서 빌려읽기

기대가 컸던 탓일까? 조금 많이 아쉬운 책이다. 기본적인 웹 크롤링 기법을 소개하긴 하지만 깊이가 입문에 그친 느낌이다.  하지만 저자의 의도가 정확히 반영된 책이라는 생각이다. 나야 오래전 검색엔진을 개발하면서 크롤링을 C++로 구현했던 경험도 있었고, 그 뒤에도 파이썬과 BS(BeautifulSoup)을 이용하여 크롤러를 구현해 본 적이 있기 때문에 내용이 쉽게  느껴졌다.

 

이 책은 총 3편으로 구성된다. 파이썬을 사용할 줄 안다면 1편은 넘어갈 수 있다. 웹의 동작원리를 안다면 3장은 그냥 넘어가도 된다. 파이썬으로 웹을 크롤링할 때 중요한 모듈이 requests와 BeautifulSoup이다. 이 두 모듈을 이용한 다음 직접 HTTP 호출을 통해 크롤링하는 방법, 동적 웹사이트를 위해 웹드라이버를 이용하여 셀레니엄으로 크롤링하는 방법, 데이터 제공자가 API를 제공해 줄 경우 사용하는 방법을 소개한다.  3편은 데이터 분석이었는데, pandas와 matplotlib의 기본적인 사용법을 다룬다. 사실 mysql 데이터베이스로 저장하는 것은 살짝 애매하다고 생각한다.  매번 데이터베이스로 갱신하는 방법도 좋지만 CSV를 mysql로 직접 importing하는 방법도 좋지 않을까?

 

 

1편은 총 2개 장에 걸쳐 파이썬의 기본적인 문법을 설명한다. 

1장은 파이썬 소개, 아나콘다 설치하고 가상환경 설치하는 내용

2장은 파이썬 자료구조, 연산자, 반복문, 예외처리, 함수, 패키지, 클래스 

 

2편은 웹 크롤링의 기본적인 내용으로 4개의 장으로 구성된다.

3장부터 크롤링, HTML, CSS, BS 소개,셀레니엄 소개, API로 데이터 얻기를 소개한다.

 

3편은 데이터 분석 부분인데, CSV로 만들고, 데이터를 그래프로 그리는 방법 정도를 소개한다.

7장에서 pandas로 CSV와 엑셀 파일 처리, matplotlib으로 데이터 시각화 8장은 mysql 데이터베이스로 수집한 데이터 넣는 내용.

 

웹 크롤링에 파이썬을 사용하기로 했다면 크롤링 관련 프로젝트들이 많다. 예를 들어 scrapy 같은 프레임워크가 이미 잘 나와있는데, 이런 부분에 대한 소개가 약한 느낌이 들었다. 하긴 입문자들에게는 이런 프레임워크를 처음부터 사용하면 프레임워크의 기능 제약사항에 갇히게 될 것이니, 기본 바탕을 익히는 정도로 이 책을 살펴보면 좋을 것 같다.

 

 

 

 

 

반응형

+ Recent posts