전체 글
-
[seaborn] 설문조사 데이터로 막대그래프 시각화 해보기Python/시각화 2024. 11. 7. 17:19
설문조사 데이터를 이용한 막대그래프 시각화 알아보기시각화(visualization)란, 어떤 데이터를 사용해서 눈에 보이는 형태로 도표 등을 만드는 작업을 이르는 말입니다. 시각화가 이용되는 업계는 데이터를 사용하는 모든 업계로 확잗되지만, 특히 설문조사 데이터를 다루는 사람들이 자주 사용하는 편이지요. 이번에는 파이썬(Python)을 활용해서 설문조사 데이터를 시각화하는 방법을 소개해 드리도록 하겠습니다. 많은 사람들이 직관적으로 확인할 수 있는 막대그래프(Barplot)에 한해서만 알아볼게요. 데이터 소개제품 구매자에게 어떤 요소를 중요하게 생각하는지에 대한 설문조사를 했다고 가정해 봅시다. 아래 데이터는 성별, 연령대, 연 소득, 가구 형태, 구매 목적, 구매 형태, 구매시 중요하게 생각하는 요소..
-
[python-pptx] 파이썬으로 ppt 파일 자동으로 만드는 방법 알아보기Python/파이썬 기초 2024. 10. 30. 18:29
python-pptx를 이용해서 ppt 파일 자동으로 만들기파이썬(Python)을 이용한 업무 자동화 중 가장 인기가 높은 분야는 자동 문서 생성이라고 생각합니다. 다양한 양식을 손쉽게 생성할 수 있기 때문에, 잘만 한다면 데이터가 생성되는 즉시 보고서나 발표자료를 만들고 발송하는 등의 활용이 가능하거든요. 이번에는 그중에서 python-pptx라는 패키지를 이용해서 ppt 파일 자동 생성하는 방법을 알아보도록 하겠습니다. 프로그램 구성하기python-pptx는 ppt 파일에 대응하는 프레젠테이션 객체 안에, 원하는 슬라이드를 추가하는 방식으로 구성할 수 있습니다. 이 때, 특정한 양식에 맞춰서 줄글을 적으면 자동으로 제목과 본문, 슬라이드 구분을 할 수 있도록 프로그래밍을 할 수 있지요. 이번에는 아..
-
[머신러닝] 기계학습의 Underfitting, Overfitting 알아보기Python/기계학습 2024. 10. 23. 17:31
기계학습의 Underfitting, Overfitting 알아보기이 글은 사이킷런 공식 홈페이지의 Underfitting vs. Overfitting 문서를 재구성해서 작성했습니다.기계학습 모델을 만들 때, 흔히 발생하는 문제 중 하나는 과(대)적합(Overfitting)과 과소적합(Underfitting)입니다. 전자의 경우 학습 데이터(Train set)의 사소한 특징까지도 학습하기 때문에 모델이 실제 데이터(Ground truth)와 동떨어진 예측을 하는 문제이며, 후자의 경우에는 실제 데이터를 표현하기에 모델이 턱없이 단순한 경우 발생하는 문제입니다. 이번에는 파이썬(Python)의 대표적인 기계학습 라이브러리인 사이킷런(scikit-learn)을 활용해서 과적합과 과소적합의 사례 및 모델과 실..
-
[scikit-learn] 파이썬 다항 회귀(Polynomial Regression) 알아보기Python/기계학습 2024. 10. 17. 08:45
다항 회귀(Polynomial Regression) 알아보기다항 회귀(Polynomial Regression)란, 독립 변수 x 와 종속 변수 y 사이의 관계를 나타낼 때, x 의 n 차 다항식으로 표현되는 회귀 분석입니다. 우리가 흔히 배우는 단순 회귀(Simple Regression)와는 달리, 더욱 복잡한 문제를 해결할 수 있지요. 단순 회귀: y = ax + b 로 나타낼 수 있는 문제를 해결할 수 있습니다.다항 회귀: y = ax^n + bx^(n-1) + ... + cx + d 로 나타낼 수 있는 문제를 해결할 수 있습니다. 이번에는, 파이썬(Python)의 머신러닝 패키지인 사이킷런(scikit-learn)을 활용해 다항 회귀를 구현해 보도록 하겠습니다. 사이킷런에서는 PolynomialFe..
-
[Transformers] 🤗 트랜스포머로 파이썬 텍스트 분석 모델 이용하기Python/자연어처리 2024. 10. 7. 12:49
🤗 트랜스포머를 이용한 텍스트 분석 모델 이용하기파이썬(Python)을 이용한 자연어 처리(NLP, Natural Language Processing) 작업에서 최근 많이들 이용하는 라이브러리로 허깅페이스 트랜스포머(HuggingFace Transformers)를 빼놓을 수 없습니다. 이 라이브러리는 추상화 수준이 아주 높아서 허깅페이스에 올라와 있는 모델, 데이터셋, 토크나이저의 이름만 적으면 코드를 거의 변경하지 않고 비교 분석이 가능하다는 장점이 있지요. 특히, 딥러닝 프레임워크 중 점유율이 아주 높은 파이토치(PyTorch)와 텐서플로우(TensorFlow)를 가리지 않고 지원하기 때문에 더욱 확장성이 좋습니다. 이번에는 🤗 트랜스포머를 활용해서 다양한 텍스트 분석 모델을 이용하는 방법을 소..
-
[customized KoNLPy] 한국어 사용자 지정 품사 태깅 및 N-gram 분석하기Python/자연어처리 2024. 9. 23. 17:19
customized KoNLPy를 이용한 한국어 자연어 분석하기한국어를 이용한 자연어 분석에는 주로 코엔엘파이(KoNLPy)를 이용합니다. 하지만, 이 패키지에서 지원하는 기능이 제한적인 탓에 자연어 분석에 주로 활용되는 몇몇 기능은 사용자가 임의로 만들어서 활용해야 하지요. 이 문제를 손쉽게 해결하는 방법은, KoNLPy와 동일한 방법으로 이용할 수 있으면서 사용자 정의 기능을 지원하는 customized KoNLPy를 이용하는 방법입니다. customized KoNLPy의 기본 이용법customized KoNLPy는 KoNLPy와 거의 동일한 방법으로 이용할 수 있습니다. 아래에 기재된 설치 및 이용에 대한 예제를 참고해 주세요. KoNLPy의 Okt는 customized KoNLPy에서 Twitt..
-
[KoNLPy] 파이썬에서 한국어 토큰화 하는 방법 알아보기Python/자연어처리 2024. 9. 20. 18:27
KoNLPy를 이용한 한국어 토큰화자연어 처리자연어 처리(NLP, Natural Language Processing)는 컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공지능(AI)의 한 분야로 정의되어 있습니다. 만약 자연어 처리를 능수능란하게 할 수 있다면, 인터넷에서 흔히 구할 수 있는 문서 데이터를 모두 데이터 분석에 활용할 수 있기 때문에 활용도 또한 높지요. 파이썬(Python)에는 다양한 자연어 처리 패키지가 있습니다. 다만, 그 다수는 영어 기반인데요, 한국어 자연어 분석을 하기 위해서는 코엔엘파이(KoNLPy)와 같은 전용 패키지를 이용할 필요가 있습니다. 코엔엘파이는 자바를 이용하는 패키지이기 때문에 공식 홈페이지의 설치 안내에 따라, JDK를 설치 후 이용해 주시기 바..
-
[KoNLPy] No JVM shared library file found 문제 해결하기Python/자연어처리 2024. 9. 19. 11:33
KoNLPy 이용시 No JVM shared library file (jvm.dll) found 문제 해결하기파이썬(Python)에서 텍스트 분석을 하기 위해서 흔히 쓰는 패키지로 KoNLPy가 있습니다. 그런데, 이 패키지를 쓸 때는 자바 개발환경 설정에 따라서 다양한 에러가 발생하는데요, 제가 흔히 경험한 에러는 JVMNotFoundExeption: No JVM shared library file (jvm.dll) found... 에러입니다. 에러 메시지를 잘 읽어보면, JAVA_HOME 환경변수 설정이 잘못되었다는 이야기인데요, 자바를 설치하라는대로 잘 설치했음에도 불구하고 에러가 생기는 경우가 있어서 골치 아픈 문제입니다. 이 문제는 다양한 해결 방법이 제시되고 있는데, 아마 개발 환경에 따라 다..