Python
-
[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기 - 2Python/크롤링 2025. 2. 25. 09:54
네이버페이 증권 종목토론실 데이터 크롤링 - 2이전에 네이버페이 증권 종목토론실 데이터 크롤링 을 통해서 종목토론실 데이터를 판다스 데이터프레임(Pandas DataFrame) 형태로 받아오는 방법을 간단하게 알아보았습니다. 이 데이터를 그대로 사용해도 좋지만, 본문 데이터를 함께 사용하고 싶은 분들이라면 각 게시글의 URL 정보를 함께 크롤링하는게 좋습니다. 그래서, 이번에는 파이썬(Python)과 뷰티풀수프(BeautifulSoup)를 사용하는 것은 같지만, 게시글 URL 및 본문 데이터를 함께 크롤링할 수 있도록 코드를 변경해 보겠습니다. 데이터 크롤링이번에는 URL 정보를 받아오기 위해, html 문서의 a 태그 매개변수를 탐색해야 합니다. 그래서, pandas.read_html() 함수를 사용..
-
[BeautifunSoup] 파이썬으로 네이버페이 증권 종목토론실 데이터 크롤링하기Python/크롤링 2025. 2. 24. 13:21
네이버페이 증권 종목토론실 데이터 크롤링파이썬(Python)을 이용한 데이터 분석을 할 때, 흔히들 관심을 가지는 주제로 주가 및 관련 정보 분석이 있습니다. 아무래도 자동 투자 알고리즘 개발 등이 인기있다보니 이를 위한 데이터 수집 및 분석도 관심을 받고 있는 모양입니다. 그래서 많은 사람들이 이용하고 있는 네이버페이 증권의 종목토론실 데이터를 크롤링하고, 이 정보를 감정분석까지 해 보려 합니다. 이번에는 데이터 크롤링 작업만 해 보도록 하며, 해당 페이지는 테이블 태그로 구성되어 있기 때문에 크롤링 난이도가 낮은 편이예요. 패키지 안내해당 작업에 이용되는 파이썬 패키지는 requests, BeautifulSoup, pandas 정도가 있습니다. 만약 설치해 두지 않은 패키지가 있다면 사전에 설치해 ..
-
[Django] 장고를 이용한 파이썬 API서버 만들기Python/웹프레임워크 2024. 12. 30. 17:41
장고를 이용한 파이썬 API서버 만들기장고(Django)는 파이썬(Python)의 대표적인 웹프레임워크입니다. 이걸 이용해서 풀스택 웹개발을 할 수 있지만, 파이썬 풀스택 개발자는 입지가 좁은 편이라 좋은 선택이 아니지요. 그래서, 파이썬 개발자는 장고를 이용해서 API 서버를 만든 뒤, 자바스크립트(JavaScript)로 만든 프론트엔드 웹페이지에 연결하는 방식을 선호하는 편입니다. 이번에 살펴볼 개발 예시는 장고를 이용해 파이썬 API 서버를 만드는 작업이예요. API (Application Programming Interface)API는 다양한 설명을 찾아볼 수 있지만, 간단히 말해서 프로그램 사이의 통신에 쓰이는 형식을 정의한 것이라고 알아두시면 됩니다. 일상적인 예시로 들자면, 식당에 들어가서..
-
[seaborn] 설문조사 데이터로 막대그래프 시각화 해보기Python/시각화 2024. 11. 7. 17:19
설문조사 데이터를 이용한 막대그래프 시각화 알아보기시각화(visualization)란, 어떤 데이터를 사용해서 눈에 보이는 형태로 도표 등을 만드는 작업을 이르는 말입니다. 시각화가 이용되는 업계는 데이터를 사용하는 모든 업계로 확잗되지만, 특히 설문조사 데이터를 다루는 사람들이 자주 사용하는 편이지요. 이번에는 파이썬(Python)을 활용해서 설문조사 데이터를 시각화하는 방법을 소개해 드리도록 하겠습니다. 많은 사람들이 직관적으로 확인할 수 있는 막대그래프(Barplot)에 한해서만 알아볼게요. 데이터 소개제품 구매자에게 어떤 요소를 중요하게 생각하는지에 대한 설문조사를 했다고 가정해 봅시다. 아래 데이터는 성별, 연령대, 연 소득, 가구 형태, 구매 목적, 구매 형태, 구매시 중요하게 생각하는 요소..
-
[python-pptx] 파이썬으로 ppt 파일 자동으로 만드는 방법 알아보기Python/파이썬 기초 2024. 10. 30. 18:29
python-pptx를 이용해서 ppt 파일 자동으로 만들기파이썬(Python)을 이용한 업무 자동화 중 가장 인기가 높은 분야는 자동 문서 생성이라고 생각합니다. 다양한 양식을 손쉽게 생성할 수 있기 때문에, 잘만 한다면 데이터가 생성되는 즉시 보고서나 발표자료를 만들고 발송하는 등의 활용이 가능하거든요. 이번에는 그중에서 python-pptx라는 패키지를 이용해서 ppt 파일 자동 생성하는 방법을 알아보도록 하겠습니다. 프로그램 구성하기python-pptx는 ppt 파일에 대응하는 프레젠테이션 객체 안에, 원하는 슬라이드를 추가하는 방식으로 구성할 수 있습니다. 이 때, 특정한 양식에 맞춰서 줄글을 적으면 자동으로 제목과 본문, 슬라이드 구분을 할 수 있도록 프로그래밍을 할 수 있지요. 이번에는 아..
-
[머신러닝] 기계학습의 Underfitting, Overfitting 알아보기Python/기계학습 2024. 10. 23. 17:31
기계학습의 Underfitting, Overfitting 알아보기이 글은 사이킷런 공식 홈페이지의 Underfitting vs. Overfitting 문서를 재구성해서 작성했습니다.기계학습 모델을 만들 때, 흔히 발생하는 문제 중 하나는 과(대)적합(Overfitting)과 과소적합(Underfitting)입니다. 전자의 경우 학습 데이터(Train set)의 사소한 특징까지도 학습하기 때문에 모델이 실제 데이터(Ground truth)와 동떨어진 예측을 하는 문제이며, 후자의 경우에는 실제 데이터를 표현하기에 모델이 턱없이 단순한 경우 발생하는 문제입니다. 이번에는 파이썬(Python)의 대표적인 기계학습 라이브러리인 사이킷런(scikit-learn)을 활용해서 과적합과 과소적합의 사례 및 모델과 실..
-
[scikit-learn] 파이썬 다항 회귀(Polynomial Regression) 알아보기Python/기계학습 2024. 10. 17. 08:45
다항 회귀(Polynomial Regression) 알아보기다항 회귀(Polynomial Regression)란, 독립 변수 x 와 종속 변수 y 사이의 관계를 나타낼 때, x 의 n 차 다항식으로 표현되는 회귀 분석입니다. 우리가 흔히 배우는 단순 회귀(Simple Regression)와는 달리, 더욱 복잡한 문제를 해결할 수 있지요. 단순 회귀: y = ax + b 로 나타낼 수 있는 문제를 해결할 수 있습니다.다항 회귀: y = ax^n + bx^(n-1) + ... + cx + d 로 나타낼 수 있는 문제를 해결할 수 있습니다. 이번에는, 파이썬(Python)의 머신러닝 패키지인 사이킷런(scikit-learn)을 활용해 다항 회귀를 구현해 보도록 하겠습니다. 사이킷런에서는 PolynomialFe..
-
[Transformers] 🤗 트랜스포머로 파이썬 텍스트 분석 모델 이용하기Python/자연어처리 2024. 10. 7. 12:49
🤗 트랜스포머를 이용한 텍스트 분석 모델 이용하기파이썬(Python)을 이용한 자연어 처리(NLP, Natural Language Processing) 작업에서 최근 많이들 이용하는 라이브러리로 허깅페이스 트랜스포머(HuggingFace Transformers)를 빼놓을 수 없습니다. 이 라이브러리는 추상화 수준이 아주 높아서 허깅페이스에 올라와 있는 모델, 데이터셋, 토크나이저의 이름만 적으면 코드를 거의 변경하지 않고 비교 분석이 가능하다는 장점이 있지요. 특히, 딥러닝 프레임워크 중 점유율이 아주 높은 파이토치(PyTorch)와 텐서플로우(TensorFlow)를 가리지 않고 지원하기 때문에 더욱 확장성이 좋습니다. 이번에는 🤗 트랜스포머를 활용해서 다양한 텍스트 분석 모델을 이용하는 방법을 소..