본문 바로가기
java

[Java] Jsoup 이용해서 크롤링하기

by 호랭형님 2021. 10. 26.
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Jsoup_test {

	public static void main(String[] args) {
		String web_url = "https://jin-beginner.tistory.com/";// 크롤링할 페이지 주소

		Document doc = null;
		try {
			doc = Jsoup.connect(web_url).timeout(10000).get();// 바로 주소에 값을 가져오다보면 Read time out 오류가 나올 수 있어서 timeout(시간)을 줘서 잠깐 대기시간

			// 블로그에서 가져올 목록 - 링크, 제목, 내용, 등록일자
			// 현재 doc에는 전체소스가 담겨있다.
			Elements elements = doc.select("article#content > div > div");// id값으로 찾을 수 있음
			for(Element element : elements) {
				System.out.println("링크[절대경로] : " + element.select("a").attr("abs:href"));// 링크값 절대경로
				System.out.println("링크[상대경로] : " + element.select("a").attr("href"));//링크값 상대경로
				System.out.println("제목 : " +  element.select("span").next().first().text());
				System.out.println("일자 : " + element.select("span>span").text());
				System.out.println();
			}

		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}

}

Jsoup을 이용해서 현재 블로그 게시글 목록이랑 링크를 가져와 봤습니다.

https://1minute-before6pm.tistory.com/ - 참조

'java' 카테고리의 다른 글

[Java] JDBC INSERT하기  (0) 2021.10.30
[Java] JDBC로 오라클 연결  (0) 2021.10.27
[Java] scanner 입력받은 값 txt파일에 출력  (0) 2021.10.25
[Java] 폴더 내 파일 수 확인  (0) 2021.10.23
[Java]파일 사이즈  (0) 2021.10.23

댓글