'크롤링' 태그의 글 목록

-->

크롤링 (4)

[파이썬] 네이버 플레이스, 맛집 (JSON 데이터) 크롤링 (2)

leeforest
프로그래밍/파이썬
2020. 6. 13. 23:40

+) 제가 크롤링에 사용한 URL 서비스 자체(store.naver.com)가 중단되고 새롭게 개편된 것으로 확인됩니다. 따라서 아래 코드에 사용된 URL로는 현재 크롤링이 불가하니 JSON 응답값을 주는 사이트의 크롤링 코드 작성 방법, 방식 위주로만 확인 부탁드립니다! 저번 포스팅에서 서울시의 구/동 별로 카테고리를 나누어 크롤링하기 위해 서울시 행정구역 정보를 저장했고, 크롤링 URL을 구성하기 위한 작업을 선행했다. 그리고 해당 URL 요청을 통해 응답을 받았고 응답 코드 500이 나오는 경우에 대한 처리까지 마쳤다. 이번 포스팅에서는 저번 내용에 이어서, 응답으로 받은 값을 파이썬 json 모듈을 사용해 파싱하고 저장하는 코드를 작성해보자. 이전 포스팅에서 내용과 코드가 모두 이어지므로 필요한 ..

[파이썬] 네이버 플레이스, 맛집 (JSON 데이터) 크롤링 (1)

leeforest
프로그래밍/파이썬
2020. 6. 12. 22:21

+) +) 제가 크롤링에 사용한 URL 서비스 자체(store.naver.com)가 중단되고 새롭게 개편된 것으로 확인됩니다. 따라서 아래 코드에 사용된 URL로는 현재 크롤링이 불가하니 JSON 응답값을 주는 사이트의 크롤링 코드 작성 방법, 방식 위주로만 확인 부탁드립니다! 빅데이터 관련 수업을 들은 적이 있는데 뭔가 데이터 처리를 하기 전에 일단 데이터를 크롤링해와야 했던 과제가 있었다. 네이버 플레이스에서 맛집을 크롤링해보기로 해서 약 12만 건? 정도 크롤링했었다. 이번 포스팅에서는 네이버 플레이스에서 서울시 맛집을 구/동별로 크롤링하는 코드를 소개해보려 한다. 서울시 구/동 정보, 파일에 저장해놓기 서울시의 구/동 정보를 먼저 탐색하는 이유는 두가지이다. 첫 번째는 크롤링할 때, URL 매개변..

[파이썬] 보안 뉴스 기사 크롤링하기 (제목, 본문 원하는만큼)

leeforest
프로그래밍/파이썬
2020. 2. 7. 17:11

뉴스 기사 크롤링 첫번째 - 보안뉴스 뉴스 기사 크롤링, 뉴스 기사 크롤러 만들기 첫번째 대상은 '보안뉴스' 이다. 왜냐면 내가 보안 종사자이기 때문이다. 어쨌든 보안뉴스 #전체기사 부분에서 기사 제목과 본문, 날짜를 원하는 만큼 크롤링해서 txt 파일에 저장해본다. 파이썬 Selenium webdriver를 사용해 크롤링할 것이기 때문에 Selenium 사용법에 대한 설명은 아래 관련포스팅을 참고해주길 바란다. 관련포스팅 [파이썬] 동적 웹 크롤링 (3) - Selenium 사용법 (tag, class, xpath 등) [파이썬] 동적 웹 크롤링 (3) - Selenium 사용법 (tag, class, xpath 등) 아래의 이전 포스팅에서 Selenium 및 브라우저 드라이버 설치, webdriver..

[파이썬] 동적 웹 크롤링 (4) - Selenium을 이용한 비트코인 거래소 크롤링

leeforest
프로그래밍/파이썬
2020. 2. 1. 13:43

이전 포스팅에서 알아보았던 Selenium(셀레니움) 사용법을 활용해서 비트코인 거래소 중 하나인 고팍스 메인페이지의 암호화폐 테이블 전체를 크롤링해서 엑셀에 저장해보려 한다. 참고로, webdriver를 설치하고 사용하는 방법과, Selenium(셀레니움) 을 사용해 element에 접근하는 방법 등은 페이지 하단의 '이전포스팅' 링크를 확인하길 바란다. 크롤링 대상 페이지 크롤링 대상 페이지는 이전 포스팅에서와 동일하게, 비트코인 거래소 중 하나인 '고팍스'이다. 많은 비트코인 거래소 중 이 페이지를 선택한 이유는 그냥 webdriver로 접근했을때 여기가 반응이 제일 빨랐기 때문이다. 제일 덜 복잡하고 가벼운 페이지 중 하나인 것 같다. 테이블 위치 확인 단순히 BeautifulSoup를 사용할때는..

1

Copyright © Live Your IT All Rights Reserved

Designed by JB FACTORY

티스토리툴바