본문 바로가기
사는 이야기/책을 읽고

크롤링 핵심 가이드 (Java, Jsoup) 도서 후기

by Mr-후 2019. 1. 4.
반응형

크롤링 핵심 가이드 (Java, Jsoup)


올해 들어 처음 완주한 도서, 크롤링 핵심가이드라는 책이다. 위키북스에서 출간했고 일본 개발자들이 쓴 책이며, 윤인성 님이 옮긴 도서인데 시시콜콜한 이야기에서부터 알아두면 좋은 팁들과 java + jsoup을 활용한 크롤링, 스크래핑 팁들이 수록되어 있다. 

회상에서 크롤링 하는 프로젝트를 작게 시작했고 크롤링된 데이터를 스크래핑해서 서비스하는 모델이 있어 어설프지만 책을 통해 학습을 하면서 하나씩 해결해나가고 있다. 

책은 전반적인 크롤링에 대한 이야기와 크롤링에 대한 예의, 다양한 데이터 형식을 처리하는 방법등을 소개한다. 또 크롤링하면서 유용하게 사용할 수 있는 툴들과 사이트도 소개하고 있다. 

크롤러를 지탱하는 기술을 시작으로 HTTP에 대한 이해, 문자깨짐에 대한 처리 방법과 크롤링된 데이터를 스크래핑하는 테크닉까지 자세하게 소개하고 있으며 인증이 필요한 사이트를 크롤링하는 방법에 대한 설명도 충분히 하고 있다. 물론 예제도 포함되어 있으며 비록 언어는 Java + Jsoup이지만, HTTP의 Form에 대한 이해가 있다면 얼마전지 이해할 수 있고 보는데 무리가 없다. 

그외, 가장 마지막장에서 소개된 자바스크립트 가지고 놀기 파트의 브라우저 조작과 도구 활용하기에서 selenium WebDriver사용해보기는 지금 내가 가장 목말라하는 부분의 팁이 되어준 부부분이다. 

정작 크롤링에 대한 깊이 있는 내용보다는 웹에서 오고 가는 데이터와 구조, 형식 등에 대한 전반적인 이해와 개념을 얻을 수 있는 책이라 할 수 있겠다. 


올해는 최소 한달에 한 권은 전문서적을 읽고 후기를 작성하는 버릇을 들여야겠다. ^^ 





위키북스 / 웹사이트 크롤링을 위한 실전 테크닉 / 크롤링 핵심가이드 


반응형