전체 글
-
[Pandas] 판다스 merge 함수로 파이썬 데이터프레임 병합하는 방법Python/Pandas, Numpy 2023. 5. 17. 10:45
판다스 merge 함수로 데이터프레임 병합하는 방법 파이썬(Python)에서 표 형태의 데이터는 판다스 데이터프레임(Pandas DataFrame)이라는 객체를 이용해서 나타냅니다. 이를 이용하면 표 하나는 물론, 둘 이상의 표를 같은 기준을 중심으로 묶어서 확인해볼 수 있습니다. 이번에는 판다스에서 제공하는 병합(merge) 기능을 이용해, 두 데이터프레임을 합치고 이를 시각화하는 작업을 해 보겠습니다. 해당 분석에는 Pandas와 플로틀리(plotly) 패키지가 사용되었으며, 아래 두 파일을 입력했으니 참고해 주세요. # 패키지 불러오기 import pandas as pd import plotly.express as px # 데이터 불러오기 loan = pd.read_excel('./data/Best..
-
[plotly] 파이썬 동적 시각화 패키지 플로틀리로 원그래프 그리기Python/시각화 2023. 5. 15. 10:23
파이썬 동적 시각화 패키지 플로틀리로 원그래프 그리기 이 글은 플로틀리(plotly) 공식 문서 pie-charts를 번역 및 재해석했습니다 파이썬(Python)의 시각화 패키지는 맷플롯립(Matploylib)과 Matplotlib 호환 패키지가 대표적으로 손꼽히지만, 이러한 패키지들은 정적 시각화 패키지라는 한계가 있습니다. 만약 동적 시각화를 사용하고 싶다면, 다른 패키지를 함께 배워야 하지요. 시각화 패키지는 크게 정적과 동적 시각화 기능을 가지고 있는데, 알기 쉽게 설명하자면 아래와 같습니다. 정적 시각화: 움직이지 않는 그래프 동적 시각화: 사용자의 입력에 따라 축을 조절하거나, 요소를 추가/제거하는 조작이 가능한 그래프 그리고, 이번에 살펴볼 패키지인 플로틀리(plotly)가 파이썬에서 이용하..
-
[Matplotlib] 파이썬 Matplotlib에서 한글 또는 마이너스 기호가 깨질 때 처리하는 방법Python/시각화 2023. 5. 12. 09:46
Matplotlib에서 한글 또는 마이너스 기호가 깨질 때 처리하는 방법 파이썬(Python)의 대표적인 시각화 패키지인 맷플롯립(Matplotlib)은 파이썬 시각화 패키지의 대부분을 컨트롤할 수 있는 강력한 기능을 보여주고 있습니다. 그런데, 이 패키지를 이용해서 시각화를 할 때 글꼴을 바꾸고 싶을 때 어떤 코드를 써야 하는지 난감한 경우가 있지요. 이런 상황은, 주피터 노트북(Jupyter Notebook) 등의 개발환경(IDE)에서 한국어가 포함된 자료를 시각화할 때 주로 발생합니다. 주피터 노트북은 기본적으로 한국어 글꼴을 지원하지 않기 때문이지요. 붓꽃(iris) 데이터를 시각화하는 것으로 예를 들어 보자면, 이런 문제가 생길 수 있습니다. 아래에 코드를 적어놓았으니 살펴보시기 바랍니다. fr..
-
[ydata-profiling] 파이썬에서 ydata-profiling으로 간편하게 판다스 데이터 분석과 시각화Python/Pandas, Numpy 2023. 5. 11. 11:07
ydata-profiling으로 간편한 데이터 분석과 시각화 파이썬(Python)을 사용할 때 데이터 시각화는 아주 중요하지만, 파이썬과 친하지 않은 사람(비전공자라면 더욱 더)이라면 시각화를 하기까지 어려움이 너무 많습니다. 시각화 패키지는 어느정도의 함수, 클래스, 패키지 사용법을 외우고 있어야 사용이 가능하며, 똑같은 그래프라고 할지라도 입력 데이터를 바꾸려면 그게 또 일이거든요. 그래서, 저는 데이터 분석 초보자분들이 사용하기 너무 좋은 ydata-profiling 패키지를 한번 사용해 보시는걸 권장드리고 있습니다. 초보자들은 고급 대시보드 패키지에서나 사용할 수 있는 전반적인 데이터 개요를 손쉽게 살펴볼 수 있어서 만족스럽고, 코딩을 잘 하는 분들이라도 코드 몇 줄 쓰지 않고 데이터를 대충 훑어..
-
[Matplotlib] 파이썬 Matplotlib으로 이미지 읽고 그리기Python/시각화 2023. 5. 10. 11:11
Matplotlib으로 이미지 읽고 그리기 파이썬(Python)의 대표적인 시각화 패키지인 맷플롯립(Matplotlib)은 단순히 그래프를 그리는것 이외에도 사진을 표현할 수 있습니다. 이는 파이썬이 사진 데이터를 표현하는 방식 때문인데요, X축과 Y축의 좌표를 이용해서 픽셀의 위치를 확인하고, RGB의 세 가지 요소를 이용해서 색상을 구현하기 때문이지요. 간단히 말해, 파이썬에서 사진은 3차원 array 형태입니다. 이러한 이미지 데이터의 특징 덕분에 파이썬에서 기계학습을 하거나, 이미지를 그려야 할 때는 배열 데이터를 표현하거나 입력하는 방식을 이용해서 손쉽게 처리할 수 있습니다. 그리고, 이번에 작업해볼 것은 이미지 데이터를 입맛에 맞게 보여주는 작업이죠. 이번 작업에서는 사이킷런(scikit-le..
-
[datetime, dateutil] 파이썬 날짜 차이 계산을 하는 몇 가지 방법Python/파이썬 기초 2023. 5. 9. 14:48
파이썬 날짜 차이 계산을 하는 몇 가지 방법 파이썬(Python)에서 날짜를 다루는 자료형은 하나로 통일되지 않아서 계산에 어려움이 있습니다. 날짜 자료형의 특징을 알아두고 잘 사용한다면 날짜 형식을 숫자처럼 계산할 수 있지만, 그렇지 않다면 이것도 계산이 안되고 저것도 안되는 난감한 상황을 맞닥뜨리게 되지요. 파이썬에서는 크게 두 종류의 날짜 표현 방식을 만나볼 가능성이 높습니다. datetime 패키지의 datetime Pandas 패키지의 Timestamp datetime, timedelta 클래스 datetime 클래스는 파이썬 내장 패키지인 datetime 에서 지원하는 클래스입니다. 연, 월, 일, 시, 분, 초, 마이크로초 정보를 입력하면 이들 사이에 연산이 가능하답니다. 이 클래스는 덧셈 ..
-
[Fastcluster] Fastcluster로 파이썬에서 seaborn clustermap 빨리 그리기Python/시각화 2023. 5. 8. 10:10
Fastcluster를 이용해 파이썬에서 clustermap 빨리 그리기 파이썬(Pyhton)에서 속도 문제는 언제나 뜨거운 감자입니다. 못쓸 정도는 아니지만, 그렇다고 해서 쾌적한 속도를 보여주지도 않기 때문에 빅데이터 분석을 할 때는 언제나 속도 최적화 과정과 병렬 처리에 대한 지식을 잘 알아야 하기 때문입니다. 그리고, 이러한 노력은 다양한 프로그래머의 노력으로 더욱 편리한 패키지로 탄생하고 있습니다. 저는 최근에 클러스터맵(Clustermap)을 그릴 일이 생겼는데, 옛날 코드를 쓰려고 보니 특이한 안내메시지가 하나 보이더라고요. Fastcluster를 쓰면 Clustermap을 더 빨리 그릴 수 있다는 말이었습니다. 과연 얼마나 빨라질지 궁금해서, 제가 이전에 사용했던 클러스터맵 코드를 이용해 ..
-
[Pandas] 파이썬 Pandas로 엑셀 파일 읽기와 쓰기Python/Pandas, Numpy 2023. 5. 4. 12:04
Pandas로 엑셀 파일 읽기와 쓰기 판다스(Pandas)는 파이썬(Python)에서 표 형식의 데이터를 다룰 수 있는 강력한 패키지입니다. 그런데, 표 형식의 데이터라고 하면 우리는 흔히 사용하는 엑셀 스프레드시트 파일을 떠올리기 마련이지요. 과연 판다스로 이 파일들을 읽고 쓸 수 있을까요? 결론부터 말하자면 가능합니다. 판다스로 파일 불러오기 표 형식의 데이터는 확장자가 다르더라도 컴퓨터가 거의 비슷한 형식으로 파일을 편집합니다. 그래서, 별도의 프로그램으로 작성한 스프레드시트 파일이라고 해도 판다스에서는 파일 형식에 맞게 코드를 적어주면 손쉽게 불러와 이용할 수 있습니다. 만약에, 같은 폴더에 iris.csv 파일이 있고, 이걸 불러오려면 아래와 같이 쓰면 됩니다. # 패키지 불러오기 import ..