본문 바로가기
반응형

jsoup3

Jsoup Elements 정렬(Comparator) Jsoup Elements 정렬(Comparator) 오늘 특정 페이지를 크롤링하다 보니 스크래핑 해야할 부분에 노드가 뒤죽박죽 섞여있어 순차적으로 파싱을 하는데 문제가 있다는걸 해가 다 떨어졌을 때 알게 되었다. 헉, 다시 다 짜야하는건가? 하고 고민을 잠시 하다, 스크래핑 시작 전에 Elements로 반환된 Nodes를 정렬을 해서 항목 노드의 이름이 같은것끼리 모아야겠다는 생각을 하게되었고 인터넷에 찾아 보니 예제가 있어서 응용해서 해보니 비교적 쉽게 정렬이 되었다. 어려운 소스는 아니지만 자바에 익숙하지 않아서 ^^ 오늘 포스팅은 짧지만 유용한 자바의 Collections.sort를 이용해서 Elements의 정렬을 바꾸는 소스 코드다. Elements nodes = doc.select("#tab.. 2019. 1. 30.
크롤링 핵심 가이드 (Java, Jsoup) 도서 후기 크롤링 핵심 가이드 (Java, Jsoup) 올해 들어 처음 완주한 도서, 크롤링 핵심가이드라는 책이다. 위키북스에서 출간했고 일본 개발자들이 쓴 책이며, 윤인성 님이 옮긴 도서인데 시시콜콜한 이야기에서부터 알아두면 좋은 팁들과 java + jsoup을 활용한 크롤링, 스크래핑 팁들이 수록되어 있다. 회상에서 크롤링 하는 프로젝트를 작게 시작했고 크롤링된 데이터를 스크래핑해서 서비스하는 모델이 있어 어설프지만 책을 통해 학습을 하면서 하나씩 해결해나가고 있다. 책은 전반적인 크롤링에 대한 이야기와 크롤링에 대한 예의, 다양한 데이터 형식을 처리하는 방법등을 소개한다. 또 크롤링하면서 유용하게 사용할 수 있는 툴들과 사이트도 소개하고 있다. 크롤러를 지탱하는 기술을 시작으로 HTTP에 대한 이해, 문자깨짐.. 2019. 1. 4.
HTML에서 데이터 추출 크롤링 핵심 가이드라는 책을 읽으면서 크롤링된 데이터에서 필요한 정보를 추출하는 '스크레이핑'에 대해 추출 방법을 정리해 본다. 정규표현식 html내부의 모든 a태그를 추출 하는 표현식 .*? 자바의 java.util.regex.Pattern클래스로 정규 표현식을 사용할 수 있다. String html = .... //a 태그를 추출하기 위한 정규 표현 Pattern regex = Patten.compile(".*?"); //Matcher 객체 생성 Matcher matcher = regex.matcher(html); //정규표현식에 일치하는 부분은 콘솔에 출력 while(matcher.find()) { System.out.println(matcher.group()); } XPath XPath는 XML의.. 2019. 1. 2.
반응형