Python/크롤링
-
[Selenium] 진학어플라이 정시 경쟁률 정보 크롤링하기Python/크롤링 2025. 3. 26. 10:37
파이썬으로 진학어플라이 정시 경쟁률 정보 크롤링하기수능 및 입시 시즌이 되면, 많은 분들이 관심을 가지는 정보로 정시 경쟁률을 꼽아볼 수 있습니다. 그래서 수험생들이 경쟁률 정보를 모아 보여주는 진학어플라이 등의 웹사이트에서 대학별 경쟁률 정보를 찾아보는데, 이걸 한번에 모아서 다운로드하거나 자동으로 수집해서 다양한 기능을 위해 활용해볼 수 있겠습니다. 파이썬(Python)을 어느 정도 아는 분들은 셀레니움(selenium)을 활용해 크롤링하면 간편하게 해결할 수 있습니다. 크롤링 대상 살펴보기이번에 데이터를 수집할 대상은 진학사 스마트경쟁률입니다. 여기서는 대학별 입시 경쟁률을 올해 및 지난 연도별로 모아볼 수 있는데요, 저희가 이번에 이용할 데이터는 4년제, 2024년도, 정시 데이터입니다. ..
-
[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기 - 2Python/크롤링 2025. 2. 25. 09:54
네이버페이 증권 종목토론실 데이터 크롤링 - 2이전에 네이버페이 증권 종목토론실 데이터 크롤링 을 통해서 종목토론실 데이터를 판다스 데이터프레임(Pandas DataFrame) 형태로 받아오는 방법을 간단하게 알아보았습니다. 이 데이터를 그대로 사용해도 좋지만, 본문 데이터를 함께 사용하고 싶은 분들이라면 각 게시글의 URL 정보를 함께 크롤링하는게 좋습니다. 그래서, 이번에는 파이썬(Python)과 뷰티풀수프(BeautifulSoup)를 사용하는 것은 같지만, 게시글 URL 및 본문 데이터를 함께 크롤링할 수 있도록 코드를 변경해 보겠습니다. 데이터 크롤링이번에는 URL 정보를 받아오기 위해, html 문서의 a 태그 매개변수를 탐색해야 합니다. 그래서, pandas.read_html() 함수를 사용..
-
[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기Python/크롤링 2025. 2. 24. 13:21
네이버페이 증권 종목토론실 데이터 크롤링파이썬(Python)을 이용한 데이터 분석을 할 때, 흔히들 관심을 가지는 주제로 주가 및 관련 정보 분석이 있습니다. 아무래도 자동 투자 알고리즘 개발 등이 인기있다보니 이를 위한 데이터 수집 및 분석도 관심을 받고 있는 모양입니다. 그래서 많은 사람들이 이용하고 있는 네이버페이 증권의 종목토론실 데이터를 크롤링하고, 이 정보를 감정분석까지 해 보려 합니다. 이번에는 데이터 크롤링 작업만 해 보도록 하며, 해당 페이지는 테이블 태그로 구성되어 있기 때문에 크롤링 난이도가 낮은 편이예요. 패키지 안내해당 작업에 이용되는 파이썬 패키지는 requests, BeautifulSoup, pandas 정도가 있습니다. 만약 설치해 두지 않은 패키지가 있다면 사전에 설치해 ..
-
[Selenium] 파이썬 셀레니움으로 웹사이트 캡쳐하기Python/크롤링 2024. 4. 19. 16:17
셀레니움으로 웹사이트 캡쳐하기 파이썬(Python)의 웹크롤링(Web Crawling) 작업을 위한 패키지 하면 가장 먼저 떠올릴법한 셀레니움(Selenium)은 단순 크롤링 이외에도 웹사이트 테스트, 자동화 업무 등 폭넓게 활용되고 있습니다. 이번에는 셀레니움을 이용해서 웹사이트의 특정 영역을 캡쳐하는 작업을 구현해 보도록 하겠습니다. 해당 기능은 screenshot_as_png 기능을 이용하면 간단합니다. 이번에는 구글 검색창을 png 파일로 저장하는 기능을 만들어보겠습니다. 위 화면에서 빨간색 네모로 표시된 부분을 캡쳐하고 싶다고 가정한다면, 셀레니움에서 흔히 사용하는 find_element 기능을 이용해서 영역을 선택해 주면 됩니다. 해당 영역은 XPATH가 /html/body/div[1]/div..
-
[BeautifunSoup] 파이썬으로 구글 뉴스 크롤링해보기Python/크롤링 2024. 3. 8. 09:29
파이썬으로 구글 뉴스 크롤링해보기단순히 뉴스레터 구독을 위한 시스템을 만들고 싶어도, 뉴스 데이터를 이용해서 분석을 하고 싶을때도 뉴스기사 크롤링은 중요한 테크닉입니다. 그런데, 특정 언론사의 정보만 수집하는게 아니라 다양한 언론사의 정보를 모두 모으고 싶다면 크롤링 난이도가 높아지기 때문에 쉽게 도전하기는 어려운 주제지요. 이번에는 파이썬(Python)에서 이용할 수 있는 셀레니움(Selenium), 뷰티풀수프(BeautifulSoup), 뉴스페이퍼(newspaper3k) 패키지를 이용해 구글 뉴스 정보를 크롤링하도록 하겠습니다. URL 특징 알아보기웹사이트 크롤링을 할 때는 URL의 특징을 알아보면 신경쓸 일이 적어집니다. 구글 뉴스 검색 결과의 URL은 검색어와 페이지, 검색 기간이 나타나는 구..
-
[Selenium] 파이썬 셀레니움을 이용한 네이버 지도 크롤링 프로그램 만들기 - 2Python/크롤링 2024. 3. 5. 18:23
파이썬 셀레니움을 이용한 네이버 지도 크롤링 프로그램 만들기 이전에 파이썬 셀레니움(Python Selenium)을 이용해서 네이버 지도에 등록된 업체 정보를 크롤링해보았습니다. 그런데, 이전에 작성한 코드에는 두 가지 문제가 있어서 완전한 크롤링을 할 수 없다는 단점이 있었지요. 네이버 지도는 한 페이지에 50건의 업체를 보여줍니다만, 스크롤을 내리지 않으면 일부분만 보여줍니다. 업체 세부정보를 보기 위해서는 해당 업체를 클릭해야 합니다. 그래서, 위에 언급된 두 가지 문제를 해결하는 코드를 이용해서 새로운 크롤링 프로그램을 만들어 보도록 하겠습니다. 이번에는 셀레니움을 이용한 동적 크롤링뿐만 아니라 뷰티풀수프(BeautifulSoup)를 이용한 정적 크롤링까지 병행해서 이용해 보겠습니다. # impo..
-
[Selenium] 셀레니움 ActionChains로 스크롤 끝까지 내리는 방법 알아보기Python/크롤링 2024. 2. 28. 14:53
파이썬 셀레니움 ActionChains로 스크롤 끝까지 내리는 방법 알아보기 파이썬(Python)을 이용한 크롤링 작업 중, 셀레니움(Selenium)을 이용한 크롤링은 다양한 상호작용을 지원합니다. 그중에서, 스크롤을 일정 수준 내리면 새로운 콘텐츠가 로드되는 방식의 웹사이트는 단순히 HTML 문서를 파싱하는 방법으로는 크롤링할 수 없기 때문에 셀레니움 사용이 필수지요. 이번에는 원티드(wanted)에서 채용정보를 검색하는 상황을 가정하여 자동으로 스크롤 끝까지 내리는 방법을 구현해 보도록 하겠습니다. [사진 1] 원티드에서 채용정보를 검색했을 때의 화면 원티드에서 플러터(Flutter) 기술 관련 채용정보를 검색한다고 가정해 봅시다. 이 때, 검색창에 flutter라는 키워드를 적은 뒤, 해당 포지션..
-
[BeautifulSoup] 파이썬으로 알라딘 베스트셀러 정적 크롤링하기Python/크롤링 2024. 2. 8. 17:00
BeautifulSoup를 이용한 알라딘 베스트셀러 크롤링하기 파이썬(Python)을 이용한 크롤링에는 크게 두 가지 패키지가 사용됩니다. 동적 크롤링에 주로 사용되는 셀레니움(Selenium)과 정적 크롤링에 사용되는 뷰티풀수프(BeautifulSoup)죠. 전자는 동적 웹페이지(서버에 의해 통제되는 구조)의 경우 효율적으로 데이터를 크롤링할 수 있으며, 후자는 정적 웹페이지(태그가 그대로 표현되는 유형의 구조)의 경우 편리한 크롤링이 가능합니다. 이번에는 뷰티풀수프를 이용해서 알라딘 인터넷서점의 주간 베스트셀러 목록을 크롤링해 보려 합니다. 구조가 간단하고, 단순히 텍스트만 가져오면 되는 작업이라서 초보자 분들도 코드 몇 줄만 이해하면 따라할 수 있을겁니다. 만약 뷰티풀수프가 설치되지 않은 컴퓨터라면..