Python
-
[Matplotlib] 파이썬 Matplotlib에서 한글 또는 마이너스 기호가 깨질 때 처리하는 방법Python/시각화, 이미지 2023. 5. 12. 09:46
Matplotlib에서 한글 또는 마이너스 기호가 깨질 때 처리하는 방법 파이썬(Python)의 대표적인 시각화 패키지인 맷플롯립(Matplotlib)은 파이썬 시각화 패키지의 대부분을 컨트롤할 수 있는 강력한 기능을 보여주고 있습니다. 그런데, 이 패키지를 이용해서 시각화를 할 때 글꼴을 바꾸고 싶을 때 어떤 코드를 써야 하는지 난감한 경우가 있지요. 이런 상황은, 주피터 노트북(Jupyter Notebook) 등의 개발환경(IDE)에서 한국어가 포함된 자료를 시각화할 때 주로 발생합니다. 주피터 노트북은 기본적으로 한국어 글꼴을 지원하지 않기 때문이지요. 붓꽃(iris) 데이터를 시각화하는 것으로 예를 들어 보자면, 이런 문제가 생길 수 있습니다. 아래에 코드를 적어놓았으니 살펴보시기 바랍니다. fr..
-
[ydata-profiling] 파이썬에서 ydata-profiling으로 간편하게 판다스 데이터 분석과 시각화Python/Pandas, Numpy 2023. 5. 11. 11:07
ydata-profiling으로 간편한 데이터 분석과 시각화 파이썬(Python)을 사용할 때 데이터 시각화는 아주 중요하지만, 파이썬과 친하지 않은 사람(비전공자라면 더욱 더)이라면 시각화를 하기까지 어려움이 너무 많습니다. 시각화 패키지는 어느정도의 함수, 클래스, 패키지 사용법을 외우고 있어야 사용이 가능하며, 똑같은 그래프라고 할지라도 입력 데이터를 바꾸려면 그게 또 일이거든요. 그래서, 저는 데이터 분석 초보자분들이 사용하기 너무 좋은 ydata-profiling 패키지를 한번 사용해 보시는걸 권장드리고 있습니다. 초보자들은 고급 대시보드 패키지에서나 사용할 수 있는 전반적인 데이터 개요를 손쉽게 살펴볼 수 있어서 만족스럽고, 코딩을 잘 하는 분들이라도 코드 몇 줄 쓰지 않고 데이터를 대충 훑어..
-
[Matplotlib] 파이썬 Matplotlib으로 이미지 읽고 그리기Python/시각화, 이미지 2023. 5. 10. 11:11
Matplotlib으로 이미지 읽고 그리기 파이썬(Python)의 대표적인 시각화 패키지인 맷플롯립(Matplotlib)은 단순히 그래프를 그리는것 이외에도 사진을 표현할 수 있습니다. 이는 파이썬이 사진 데이터를 표현하는 방식 때문인데요, X축과 Y축의 좌표를 이용해서 픽셀의 위치를 확인하고, RGB의 세 가지 요소를 이용해서 색상을 구현하기 때문이지요. 간단히 말해, 파이썬에서 사진은 3차원 array 형태입니다. 이러한 이미지 데이터의 특징 덕분에 파이썬에서 기계학습을 하거나, 이미지를 그려야 할 때는 배열 데이터를 표현하거나 입력하는 방식을 이용해서 손쉽게 처리할 수 있습니다. 그리고, 이번에 작업해볼 것은 이미지 데이터를 입맛에 맞게 보여주는 작업이죠. 이번 작업에서는 사이킷런(scikit-le..
-
[datetime, dateutil] 파이썬 날짜 차이 계산을 하는 몇 가지 방법Python/파이썬 기초 2023. 5. 9. 14:48
파이썬 날짜 차이 계산을 하는 몇 가지 방법 파이썬(Python)에서 날짜를 다루는 자료형은 하나로 통일되지 않아서 계산에 어려움이 있습니다. 날짜 자료형의 특징을 알아두고 잘 사용한다면 날짜 형식을 숫자처럼 계산할 수 있지만, 그렇지 않다면 이것도 계산이 안되고 저것도 안되는 난감한 상황을 맞닥뜨리게 되지요. 파이썬에서는 크게 두 종류의 날짜 표현 방식을 만나볼 가능성이 높습니다. datetime 패키지의 datetime Pandas 패키지의 Timestamp datetime, timedelta 클래스 datetime 클래스는 파이썬 내장 패키지인 datetime 에서 지원하는 클래스입니다. 연, 월, 일, 시, 분, 초, 마이크로초 정보를 입력하면 이들 사이에 연산이 가능하답니다. 이 클래스는 덧셈 ..
-
[Fastcluster] Fastcluster로 파이썬에서 seaborn clustermap 빨리 그리기Python/시각화, 이미지 2023. 5. 8. 10:10
Fastcluster를 이용해 파이썬에서 clustermap 빨리 그리기 파이썬(Pyhton)에서 속도 문제는 언제나 뜨거운 감자입니다. 못쓸 정도는 아니지만, 그렇다고 해서 쾌적한 속도를 보여주지도 않기 때문에 빅데이터 분석을 할 때는 언제나 속도 최적화 과정과 병렬 처리에 대한 지식을 잘 알아야 하기 때문입니다. 그리고, 이러한 노력은 다양한 프로그래머의 노력으로 더욱 편리한 패키지로 탄생하고 있습니다. 저는 최근에 클러스터맵(Clustermap)을 그릴 일이 생겼는데, 옛날 코드를 쓰려고 보니 특이한 안내메시지가 하나 보이더라고요. Fastcluster를 쓰면 Clustermap을 더 빨리 그릴 수 있다는 말이었습니다. 과연 얼마나 빨라질지 궁금해서, 제가 이전에 사용했던 클러스터맵 코드를 이용해 ..
-
[Pandas] 파이썬 Pandas로 엑셀 파일 읽기와 쓰기Python/Pandas, Numpy 2023. 5. 4. 12:04
Pandas로 엑셀 파일 읽기와 쓰기 판다스(Pandas)는 파이썬(Python)에서 표 형식의 데이터를 다룰 수 있는 강력한 패키지입니다. 그런데, 표 형식의 데이터라고 하면 우리는 흔히 사용하는 엑셀 스프레드시트 파일을 떠올리기 마련이지요. 과연 판다스로 이 파일들을 읽고 쓸 수 있을까요? 결론부터 말하자면 가능합니다. 판다스로 파일 불러오기 표 형식의 데이터는 확장자가 다르더라도 컴퓨터가 거의 비슷한 형식으로 파일을 편집합니다. 그래서, 별도의 프로그램으로 작성한 스프레드시트 파일이라고 해도 판다스에서는 파일 형식에 맞게 코드를 적어주면 손쉽게 불러와 이용할 수 있습니다. 만약에, 같은 폴더에 iris.csv 파일이 있고, 이걸 불러오려면 아래와 같이 쓰면 됩니다. # 패키지 불러오기 import ..
-
[scikit-learn] RandomForest Classifier 기계학습 모델로 유전자 발현 분류하기Python/기계학습 2023. 5. 2. 09:05
RandomForest Classifier 기계학습 모델로 유전자 발현 분류하기 파이썬(Python)을 이용한 기계학습(Machine Learning, ML)은 다양한 분야에서 사용되고 있는데, 특히 생물정보학(Bioinformatics, BI)에서는 유전자를 이용한 연구에 많이 사용되고 있습니다. 그래서, 이번에는 BI 분야에서 흔히 사용하는 유전자(여기서는 RNA) 발현 분류를 테마로 잡아 기계학습 실습을 해 보겠습니다. 여기에서 사용할 모델은 랜덤포레스트 분류기(RandomForest Classifier, RFC) 라는 모델인데, 다양한 의사결정나무(DicisionTree, DT)를 여러개 만들어둔 다음 평균 예측을 통해 분류를 하는 지도학습 모델입니다. 이 분석에 사용한 데이터는 아래 정보를 참고..
-
[Matplotlib] Matplotlib을 이용해 그래프 양식 설정하기Python/시각화, 이미지 2023. 4. 28. 08:42
Matplotlib을 이용해 그래프 양식 설정하기 파이썬(Python)을 이용해서 도표를 그릴 때, 다른 그래픽 프로그램에 비해서 불편하다고 생각하는 사람들이 있습니다. 파이썬 시각화는 코드로 적는 부분이 어색하겠지만 GUI 그래픽 프로그램과는 차원이 다르게 편리한 자동화가 가능하기 때문에, 다양한 그래프 양식을 작성하는 코드를 배워본다면 좋을겁니다. 레이블 및 제목 설정 그래프를 그릴 때, 레이블(라벨, label) 설정을 이용해 더욱 보기 편하게 그래프를 작성할 수 있습니다. 맷플롯립(Matplotlib)에서는 이를 위한 메소드가 준비되어 있습니다. x축 레이블 설정: plt.xlabel() y축 레이블 설정: plt.ylabel() 그래프 제목 설정: plt.title() 위와 같은 메소드를 이용할..