Python
-
[customized KoNLPy] 한국어 사용자 지정 품사 태깅 및 N-gram 분석하기Python/자연어처리 2024. 9. 23. 17:19
customized KoNLPy를 이용한 한국어 자연어 분석하기한국어를 이용한 자연어 분석에는 주로 코엔엘파이(KoNLPy)를 이용합니다. 하지만, 이 패키지에서 지원하는 기능이 제한적인 탓에 자연어 분석에 주로 활용되는 몇몇 기능은 사용자가 임의로 만들어서 활용해야 하지요. 이 문제를 손쉽게 해결하는 방법은, KoNLPy와 동일한 방법으로 이용할 수 있으면서 사용자 정의 기능을 지원하는 customized KoNLPy를 이용하는 방법입니다. customized KoNLPy의 기본 이용법customized KoNLPy는 KoNLPy와 거의 동일한 방법으로 이용할 수 있습니다. 아래에 기재된 설치 및 이용에 대한 예제를 참고해 주세요. KoNLPy의 Okt는 customized KoNLPy에서 Twitt..
-
[KoNLPy] 파이썬에서 한국어 토큰화 하는 방법 알아보기Python/자연어처리 2024. 9. 20. 18:27
KoNLPy를 이용한 한국어 토큰화자연어 처리자연어 처리(NLP, Natural Language Processing)는 컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공지능(AI)의 한 분야로 정의되어 있습니다. 만약 자연어 처리를 능수능란하게 할 수 있다면, 인터넷에서 흔히 구할 수 있는 문서 데이터를 모두 데이터 분석에 활용할 수 있기 때문에 활용도 또한 높지요. 파이썬(Python)에는 다양한 자연어 처리 패키지가 있습니다. 다만, 그 다수는 영어 기반인데요, 한국어 자연어 분석을 하기 위해서는 코엔엘파이(KoNLPy)와 같은 전용 패키지를 이용할 필요가 있습니다. 코엔엘파이는 자바를 이용하는 패키지이기 때문에 공식 홈페이지의 설치 안내에 따라, JDK를 설치 후 이용해 주시기 바..
-
[KoNLPy] No JVM shared library file found 문제 해결하기Python/자연어처리 2024. 9. 19. 11:33
KoNLPy 이용시 No JVM shared library file (jvm.dll) found 문제 해결하기파이썬(Python)에서 텍스트 분석을 하기 위해서 흔히 쓰는 패키지로 KoNLPy가 있습니다. 그런데, 이 패키지를 쓸 때는 자바 개발환경 설정에 따라서 다양한 에러가 발생하는데요, 제가 흔히 경험한 에러는 JVMNotFoundExeption: No JVM shared library file (jvm.dll) found... 에러입니다. 에러 메시지를 잘 읽어보면, JAVA_HOME 환경변수 설정이 잘못되었다는 이야기인데요, 자바를 설치하라는대로 잘 설치했음에도 불구하고 에러가 생기는 경우가 있어서 골치 아픈 문제입니다. 이 문제는 다양한 해결 방법이 제시되고 있는데, 아마 개발 환경에 따라 다..
-
[딥러닝] 비용함수 알아보기Python/딥러닝 2024. 9. 13. 12:59
평균 절대 오차¶MAE라고 표기하는 평균 절대 오차(Mean Absolute Error)는 예측한 값과 실제 값 사이의 차이에 절대값을 취한 뒤, 이를 평균낸 값을 이릅니다. 특별한 값 보정 없이 절대값만 취했기 때문에 직관적으로 오차를 확인할 수 있다는 장점이 있지요. 이 때문에 해석이 쉬워서 종종 이용되지만, 대부분의 기계학습 모델에서는 큰 오차가 더 치명적인 문제를 일으키기 때문에 오차의 크기에 따른 가중치가 없는 MAE는 자주 사용되지 않는 평가 지표입니다. $n$개의 데이터가 있을 때, 예측한 값 $\hat{y}_i$와 실제 값 $y_i$가 있다면, MAE는 아래와 같은 수식으로 표현할 수 있습니다. $\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{..
-
[gTTS] 파이썬을 이용한 음성 합성 프로그램 만들기Python/음성처리 2024. 8. 1. 17:31
gTTS를 이용한 음성 합성 프로그램 만들기음성 합성을 위해서는 TTS(Text to Speech) 프로그램을 사용하는 것이 일반적입니다. 최근에는 딥러닝 기반의 음성 합성 프로그램도 많이 출시되었지만, 자연스러움이 조금 덜해도 단순히 글을 읽어주는 정도면 괜찮다면 요구사항이 낮고 빠르게 생성할 수 있는 TTS만한 선택지가 없지요. 이번에는 gTTS(Google Text-to-Speech)와 파이썬(Python) 및 CLI 명령어를 이용해서 간단한 TTS 프로그램 구현을 해 보겠습니다. gTTS 설치gTTS의 이용을 위해서는, pip를 이용해 해당 패키지 설치를 해 줘야 합니다. 설치 명령어는 pip install gtts 입니다. CLI를 이용한 gTTS 실행패키지 설치 후에는, 파이썬 또는 CLI..
-
[TensorFlow] 파이썬을 이용한 MNIST 분류 모델 만들기Python/딥러닝 2024. 7. 29. 17:43
텐서플로우를 이용한 MNIST 분류 모델 만들기본 내용은 텐서플로 2.0 시작하기: 초보자용 문서를 재구성해 제작했습니다.파이썬(Python)에서 이용할 수 있는 대표적인 딥러닝 플랫폼인 텐서플로우(TensorFlow)를 활용해, MNIST 데이터를 분류할 수 있는 딥러닝(Deep Learning) 모델을 만들어 보는 실습을 진행해 보겠습니다. 분류에 이용할 데이터는 MNIST 데이터셋인데요, 28*28px 크기의 흑백 이미지에 0에서 9까지의 숫자가 기록되어 있지요. 해당 데이터는 텐서플로우에서 기본 제공을 해 주기 때문에, tensorflow.keras.datasets.mnist.load_data() 함수를 이용해 불러올 수 있습니다. 데이터 전처리불러온 MNIST 데이터는 x_train, x_te..
-
[TensorFlow] 단층 퍼셉트론과 MLP 구현해보기Python/딥러닝 2024. 7. 15. 17:11
퍼셉트론 알아보기퍼셉트론(Perceptron)이란, 고전적인 인공 신경망(Artificial Neural Network, ANN) 알고리즘입니다. 여러 입력을 받은 뒤, 하나의 결과를 반환하는 방식으로 동작하지요. 실제 신경세포의 동작(물론 극히 일부만)을 본따서 만들었다는 특징도 있고, 한번 사장되었던 기술을 현대 인공지능의 주류로 만들어 놓았다는 특징도 있는 재미있는 개념입니다. 이번에는 간단한 파이썬(Python) 코드로 퍼셉트론을 이용해서, 논리 회로를 구현하는 작업을 해 보겠습니다. 단층 퍼셉트론 구현하기단층 퍼셉트론(Single Layer Perceptorn)이란, 입력과 출력의 단순한 구조로 구현한 퍼셉트론을 이릅니다. 이는 $y=wx+b$ 형태의 문제를 풀 수 있는 선형 분류기로 표현되지..
-
[pickle] 파이썬에서 객체 내보내기, 직렬화 알아보기Python/파이썬 기초 2024. 7. 5. 10:24
Pickle을 이용한 객체 내보내기파이썬(Python)에는 피클(pickle)이라고 하는 모듈이 있습니다. 이 모듈은 파이썬에서 선언한 객체를 파일로 내보내거나 불러오는데 쓰이지요. 간단히 말해서, 메모리에 있는 정보를 그대로 저장장치에 쓰고 읽을 수 있도록 도와줍니다. 이 개념을 간단하게 정리하자면, 아래와 같습니다. 직렬화(serialization) = 피클링(pickling): 객체가 바이트 스트림으로 변환되는 절차입니다. 이렇게 변환된 바이트 스트림 데이터는 그대로 파일로 내보낼 수 있지요.역직렬화(deserialization) = 언피클링(unpickling): 피클링의 반대 연산입니다. 피클링을 활용할 경우, 데이터의 형태에 상관없이 파이썬에서 호환되는 피클 파일(주로 pkl 확장자를 이용합니..