뉴스 기사 크롤링 첫번째 - 보안뉴스 뉴스 기사 크롤링, 뉴스 기사 크롤러 만들기 첫번째 대상은 '보안뉴스' 이다. 왜냐면 내가 보안 종사자이기 때문이다. 어쨌든 보안뉴스 #전체기사 부분에서 기사 제목과 본문, 날짜를 원하는 만큼 크롤링해서 txt 파일에 저장해본다. 파이썬 Selenium webdriver를 사용해 크롤링할 것이기 때문에 Selenium 사용법에 대한 설명은 아래 관련포스팅을 참고해주길 바란다. 관련포스팅 [파이썬] 동적 웹 크롤링 (3) - Selenium 사용법 (tag, class, xpath 등) [파이썬] 동적 웹 크롤링 (3) - Selenium 사용법 (tag, class, xpath 등) 아래의 이전 포스팅에서 Selenium 및 브라우저 드라이버 설치, webdriver..
개인적으로 하고싶은 것이 있어서 파이썬 Selenium(셀레니움) 모듈을 사용해서 크롤링을 하던 중, alert 창을 마주했다. 간단히 응답 코드를 받아와서 처리해주면 되겠지 했는데 응답이 '200 OK' 이다. 어떻게 해야하나 했는데, 역시 파이썬 역시 Selenium !!! alert 경고창에 관련한 API를 제공하고 있다. 여기에 간단히 정리한다. alert 경고창 객체 얻기 alert 객체는 switch_to_alert()를 써서 간단히 가져올 수 있다. alert 창이 있는지 그 유무를 체크하기 위해 try, excepy 문을 사용했다. from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager u..
이전 포스팅에서 알아보았던 Selenium(셀레니움) 사용법을 활용해서 비트코인 거래소 중 하나인 고팍스 메인페이지의 암호화폐 테이블 전체를 크롤링해서 엑셀에 저장해보려 한다. 참고로, webdriver를 설치하고 사용하는 방법과, Selenium(셀레니움) 을 사용해 element에 접근하는 방법 등은 페이지 하단의 '이전포스팅' 링크를 확인하길 바란다. 크롤링 대상 페이지 크롤링 대상 페이지는 이전 포스팅에서와 동일하게, 비트코인 거래소 중 하나인 '고팍스'이다. 많은 비트코인 거래소 중 이 페이지를 선택한 이유는 그냥 webdriver로 접근했을때 여기가 반응이 제일 빨랐기 때문이다. 제일 덜 복잡하고 가벼운 페이지 중 하나인 것 같다. 테이블 위치 확인 단순히 BeautifulSoup를 사용할때는..
아래의 이전 포스팅에서 Selenium 및 브라우저 드라이버 설치, webdriver 객체 생성방법까지 알아보았다. webdriver 객체가 브라우저 제어권을 얻고 타겟 URL에 접근까지 했기 때문에 오늘은 그 후 작업으로 크롤링하고 싶은 각 Element에 접근하는 방법, Selenium 모듈의 사용법을 알아본다. 함께보면 좋은 포스팅! [파이썬] 동적 웹 크롤링 (1) - Selenium webdriver 설치 및 사용 [파이썬] 동적 웹 크롤링 (2) - Selenium 을 활용해야 하는 이유? 자바스크립트 실행 find_element_by_id 'id'를 통해 Element에 접근하는 방법이다. # 'id' 로 Element에 접근하는 방법 result=driver.find_element_by_i..
파이썬 Selenium(셀레니움) webdriver를 사용해서 웹크롤링을 수행하기 위해 Selenium 모듈 설치, 사용할 브라우저, 브라우저의 드라이버를 설치해보고 사용방법을 간단히 알아본다. 추가적으로 chromedriver 경로 입력시 발생했던 에러에 대한 해결방법도 제시한다. Selenium 설치 selenium 설치는 아래와 같이 pip로 간단히 할 수 있다. pip install selenium 사용할 브라우저 준비 어떤 브라우저를 사용하던 자유이다. 다만, 크롤링할 때 브라우저를 제어하기 위해 사용할 해당 브라우저의 드라이버를 다운받아야 한다. 난 처음에 드라이버를 사용하는지 모르고 계속 브라우저 자체 exe의 경로를 넘겨주어서 계속 에러가 났었다. 각 브라우저 드라이버는 아래 링크에서 다운..