본문 바로가기
반응형

스크래핑2

크롤링 핵심 가이드 (Java, Jsoup) 도서 후기 크롤링 핵심 가이드 (Java, Jsoup) 올해 들어 처음 완주한 도서, 크롤링 핵심가이드라는 책이다. 위키북스에서 출간했고 일본 개발자들이 쓴 책이며, 윤인성 님이 옮긴 도서인데 시시콜콜한 이야기에서부터 알아두면 좋은 팁들과 java + jsoup을 활용한 크롤링, 스크래핑 팁들이 수록되어 있다. 회상에서 크롤링 하는 프로젝트를 작게 시작했고 크롤링된 데이터를 스크래핑해서 서비스하는 모델이 있어 어설프지만 책을 통해 학습을 하면서 하나씩 해결해나가고 있다. 책은 전반적인 크롤링에 대한 이야기와 크롤링에 대한 예의, 다양한 데이터 형식을 처리하는 방법등을 소개한다. 또 크롤링하면서 유용하게 사용할 수 있는 툴들과 사이트도 소개하고 있다. 크롤러를 지탱하는 기술을 시작으로 HTTP에 대한 이해, 문자깨짐.. 2019. 1. 4.
HTML에서 데이터 추출 크롤링 핵심 가이드라는 책을 읽으면서 크롤링된 데이터에서 필요한 정보를 추출하는 '스크레이핑'에 대해 추출 방법을 정리해 본다. 정규표현식 html내부의 모든 a태그를 추출 하는 표현식 .*? 자바의 java.util.regex.Pattern클래스로 정규 표현식을 사용할 수 있다. String html = .... //a 태그를 추출하기 위한 정규 표현 Pattern regex = Patten.compile(".*?"); //Matcher 객체 생성 Matcher matcher = regex.matcher(html); //정규표현식에 일치하는 부분은 콘솔에 출력 while(matcher.find()) { System.out.println(matcher.group()); } XPath XPath는 XML의.. 2019. 1. 2.
반응형