아리엘의 블로그 코딩시작반

[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기 - 2

Python/크롤링 2025. 2. 25. 09:54

네이버페이 증권 종목토론실 데이터 크롤링 - 2이전에 네이버페이 증권 종목토론실 데이터 크롤링 을 통해서 종목토론실 데이터를 판다스 데이터프레임(Pandas DataFrame) 형태로 받아오는 방법을 간단하게 알아보았습니다. 이 데이터를 그대로 사용해도 좋지만, 본문 데이터를 함께 사용하고 싶은 분들이라면 각 게시글의 URL 정보를 함께 크롤링하는게 좋습니다. 그래서, 이번에는 파이썬(Python)과 뷰티풀수프(BeautifulSoup)를 사용하는 것은 같지만, 게시글 URL 및 본문 데이터를 함께 크롤링할 수 있도록 코드를 변경해 보겠습니다. 데이터 크롤링이번에는 URL 정보를 받아오기 위해, html 문서의 a 태그 매개변수를 탐색해야 합니다. 그래서, pandas.read_html() 함수를 사용..

[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기

Python/크롤링 2025. 2. 24. 13:21

네이버페이 증권 종목토론실 데이터 크롤링파이썬(Python)을 이용한 데이터 분석을 할 때, 흔히들 관심을 가지는 주제로 주가 및 관련 정보 분석이 있습니다. 아무래도 자동 투자 알고리즘 개발 등이 인기있다보니 이를 위한 데이터 수집 및 분석도 관심을 받고 있는 모양입니다. 그래서 많은 사람들이 이용하고 있는 네이버페이 증권의 종목토론실 데이터를 크롤링하고, 이 정보를 감정분석까지 해 보려 합니다. 이번에는 데이터 크롤링 작업만 해 보도록 하며, 해당 페이지는 테이블 태그로 구성되어 있기 때문에 크롤링 난이도가 낮은 편이예요. 패키지 안내해당 작업에 이용되는 파이썬 패키지는 requests, BeautifulSoup, pandas 정도가 있습니다. 만약 설치해 두지 않은 패키지가 있다면 사전에 설치해 ..

[GCP] 구글 API에서 Client ID, Secret Key 값과 JSON Key 파일 확인하기 (클라이언트 ID, 보안 비밀번호)

클라우드 2025. 2. 8. 03:42

구글 API에서 Client ID, Secret Key 값과 JSON Key 파일 확인하기 (클라이언트 ID, 보안 비밀번호)구글 클라우드(Google Cloud)에서 제공하는 각종 API 기능(ex. 구글 소셜 로그인 기능 등)을 활용하려면, 클라우드 콘솔에서 앱 생성 및 클라이언트 ID(Client ID), 보안 비밀번호(Secret Key) 값을 요구하는 경우가 많습니다.경우에 따라서는 JSON 형태로 제공되는 Key 파일을 이용할 때도 있지요. 그래서, 이런 값들을 어디서 확인하는지 알아보도록 하겠습니다. 구글 클라우드 앱 생성하기프로젝트 생성우선은 구글 클라우드 콘솔로 접속해 줍니다. 만약 만들어둔 프로젝트가 있다면 아래의 OAuth 설정으로 이동해 주시기 바랍니다. 클라우드 콘솔 페이지..

IP 주소 확인하는 방법 알아보기. 공인IP와 사설IP 명령어로 모두 가능!

컴퓨터 상식 2024. 12. 31. 23:16

1인 다(多) PC 시대, IP 주소 확인은 필수!요즘은 컴퓨터 한 대만 사용하는 시대는 지났습니다. 저만 해도 컴퓨터 세 대와 스마트폰 한 대, 그리고 태블릿PC까지 하나를 사용 중인데요. 이렇게 1인 다(多)PC 시대가 되면서 장치 간 파일 공유나 네트워크 설정은 필수가 됐습니다. 그 첫걸음이 바로 내 IP 주소를 확인하는 것인데요, 오늘은 그 방법을 쉽고 간단하게 정리해 드리겠습니다. IP 주소란?컴퓨터가 서로 통신하려면 반드시 IP 주소를 알아야 합니다. IP 주소는 컴퓨터의 주소와 같은 역할을 하며, 통신에서는 전화번호처럼 작동합니다. 이를 통해 기기 간 데이터 송수신이 가능해지죠. IP 주소 확인 방법1. 명령 프롬프트(CMD)로 확인하기 윈도우 검색창에 cmd 또는 명령 프롬프트를 검..

[Django] 장고를 이용한 파이썬 API서버 만들기

Python/웹프레임워크 2024. 12. 30. 17:41

장고를 이용한 파이썬 API서버 만들기장고(Django)는 파이썬(Python)의 대표적인 웹프레임워크입니다. 이걸 이용해서 풀스택 웹개발을 할 수 있지만, 파이썬 풀스택 개발자는 입지가 좁은 편이라 좋은 선택이 아니지요. 그래서, 파이썬 개발자는 장고를 이용해서 API 서버를 만든 뒤, 자바스크립트(JavaScript)로 만든 프론트엔드 웹페이지에 연결하는 방식을 선호하는 편입니다. 이번에 살펴볼 개발 예시는 장고를 이용해 파이썬 API 서버를 만드는 작업이예요. API (Application Programming Interface)API는 다양한 설명을 찾아볼 수 있지만, 간단히 말해서 프로그램 사이의 통신에 쓰이는 형식을 정의한 것이라고 알아두시면 됩니다. 일상적인 예시로 들자면, 식당에 들어가서..

[seaborn] 설문조사 데이터로 막대그래프 시각화 해보기

Python/시각화 2024. 11. 7. 17:19

설문조사 데이터를 이용한 막대그래프 시각화 알아보기시각화(visualization)란, 어떤 데이터를 사용해서 눈에 보이는 형태로 도표 등을 만드는 작업을 이르는 말입니다. 시각화가 이용되는 업계는 데이터를 사용하는 모든 업계로 확잗되지만, 특히 설문조사 데이터를 다루는 사람들이 자주 사용하는 편이지요. 이번에는 파이썬(Python)을 활용해서 설문조사 데이터를 시각화하는 방법을 소개해 드리도록 하겠습니다. 많은 사람들이 직관적으로 확인할 수 있는 막대그래프(Barplot)에 한해서만 알아볼게요. 데이터 소개제품 구매자에게 어떤 요소를 중요하게 생각하는지에 대한 설문조사를 했다고 가정해 봅시다. 아래 데이터는 성별, 연령대, 연 소득, 가구 형태, 구매 목적, 구매 형태, 구매시 중요하게 생각하는 요소..

[python-pptx] 파이썬으로 ppt 파일 자동으로 만드는 방법 알아보기

Python/파이썬 기초 2024. 10. 30. 18:29

python-pptx를 이용해서 ppt 파일 자동으로 만들기파이썬(Python)을 이용한 업무 자동화 중 가장 인기가 높은 분야는 자동 문서 생성이라고 생각합니다. 다양한 양식을 손쉽게 생성할 수 있기 때문에, 잘만 한다면 데이터가 생성되는 즉시 보고서나 발표자료를 만들고 발송하는 등의 활용이 가능하거든요. 이번에는 그중에서 python-pptx라는 패키지를 이용해서 ppt 파일 자동 생성하는 방법을 알아보도록 하겠습니다. 프로그램 구성하기python-pptx는 ppt 파일에 대응하는 프레젠테이션 객체 안에, 원하는 슬라이드를 추가하는 방식으로 구성할 수 있습니다. 이 때, 특정한 양식에 맞춰서 줄글을 적으면 자동으로 제목과 본문, 슬라이드 구분을 할 수 있도록 프로그래밍을 할 수 있지요. 이번에는 아..

[머신러닝] 기계학습의 Underfitting, Overfitting 알아보기

Python/기계학습 2024. 10. 23. 17:31

기계학습의 Underfitting, Overfitting 알아보기이 글은 사이킷런 공식 홈페이지의 Underfitting vs. Overfitting 문서를 재구성해서 작성했습니다.기계학습 모델을 만들 때, 흔히 발생하는 문제 중 하나는 과(대)적합(Overfitting)과 과소적합(Underfitting)입니다. 전자의 경우 학습 데이터(Train set)의 사소한 특징까지도 학습하기 때문에 모델이 실제 데이터(Ground truth)와 동떨어진 예측을 하는 문제이며, 후자의 경우에는 실제 데이터를 표현하기에 모델이 턱없이 단순한 경우 발생하는 문제입니다. 이번에는 파이썬(Python)의 대표적인 기계학습 라이브러리인 사이킷런(scikit-learn)을 활용해서 과적합과 과소적합의 사례 및 모델과 실..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

아리엘의 블로그 코딩시작반 아리엘의 블로그 코딩시작반

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역