Python/Pandas, Numpy
-
[ydata-profiling] 판다스 프로파일링 사용시 파이썬 한글 깨짐 문제 해결하기Python/Pandas, Numpy 2023. 8. 28. 09:27
ydata-profiling (판다스 프로파일링) 사용시 한글 깨짐 문제 해결하기 파이썬 (Python) 으로 EDA (Exploratory Data Analysis, 탐색적 데이터 분석) 을 하기 위해서는 주로 표 형식의 데이터를 조회할 수 있는 판다스 (Pandas) 와 시각화 패키지를 사용해 이것저것 시각화를 해 보는 것부터 시작합니다. 그런데, ydata-profiling (구 판다스 프로파일링) 이라는 패키지를 사용하면, 최대한 다양한 시각화 자료를 한번에 도출할 수 있어서 데이터 분석가들에게 추천드리고 있어요. 한글 깨짐 문제 확인 하지만, ydata-profiling을 사용할 때 주의할 점이 하나 있습니다. 바로, 한글이 포함된 데이터를 시각화할 때 한글이 깨지는 문제점이 발생한다는 점이지요..
-
[Pandas] 데이터프레임에서 값 검색 후 항목 위치 찾아보는법Python/Pandas, Numpy 2023. 7. 21. 15:22
판다스 데이터프레임에서 특정 값과 일치하는 항목의 위치 찾아보는법 파이썬(Python)의 대표적인 표 형태의 데이터를 편집할 수 있는 패키지 판다스(Pandas)에서는 엑셀에서 가능한 거의 모든 작업을 할 수 있습니다. 그중에서는 강력한 색인 기능도 빼놓을 수 없는데요, 특정한 조건을 만족하는 값들을 찾는것부터 시작해, 어떤 표의 정보를 이용해서 다른 표를 색인할 수 있는 정도의 인덱싱과 데이터베이스(Database) 뺨치는 병햡 기능까지도 있습니다. 그런데, 판다스에서는 유독 특정 값을 기준으로 위치를 검색하는 기능은 찾아보기 어려운데요, 이번에는 판다스 데이터프레임에서 특정한 값을 기준으로 이와 일치하는 열(또는 행)이 어디있는지 위치를 찾아보는 방법을 살펴보도록 하겠습니다. 이 작업에 사용된 데이터..
-
[Pandas] 파이썬 판다스에서 apply 함수 써보기Python/Pandas, Numpy 2023. 7. 6. 17:09
판다스 데이터프레임에서 apply 함수 써보기 파이썬(Python)을 이용한 데이터 분석, 그중에서도 특히 판다스(Pandas)를 이용한 데이터프레임(DataFrame) 자료 처리에서는 데이터의 일괄 변환을 할 일이 많습니다. 붓꽃 데이터(Iris dataset)을 예로 들어보자면, 이파리 길이가 평균보다 클 경우 '크다', 아니면 '작다' 로 입력하는 간단한 작업부터 시작해서, 몇 가지 조건을 복합적으로 고려하는 분류 등이 있습니다. 이 때, 파이썬에서 제공하는 람다(lambda) 함수와 판다스에서 지원하는 apply 함수를 적절하게 이용하면 일괄 변환 등의 작업이 편리하게 이루어질 수 있습니다. 판다스의 apply 함수 판다스에서는 데이터프레임 객체에 대해서 apply 라는 함수를 제공하고 있습니다...
-
[Pandas] 판다스 데이터프레임을 읽을 때, thousands 패러미터로 숫자 구분자 콤마를 빼보자Python/Pandas, Numpy 2023. 5. 18. 10:15
판다스 데이터프레임을 읽을 때, thousands 패러미터로 숫자 구분자 콤마를 빼보자 파이썬(Python)에서 데이터를 읽을 때, 가끔씩 숫자인줄 알고 처리했던 데이터가 알고 보니 문자였던 경험이 있을겁니다. 이번에는 그런 상황 중 하나인 숫자 구분자를 처리하는 방법에 대해 알아볼텐데요, 흔히 천 단위로 숫자에 표기하는 구분자 콤마(comma, 반점, ',')를 판다스 데이터프레임(Pandas DataFrame)에서 제거하는 방법을 한번 살펴보겠습니다. 숫자를 표기할 때, 우리는 흔히 천 단위로 콤마를 찍습니다. 1만을 아라비아 숫자로 적는다고 하면, 대개 10,000 으로 표기하는 방식이죠. 외국에도 온점('.')을 찍느냐 반점(',')을 찍느냐 하는 문화적 차이는 있지만 대개 구분자를 찍어 표기합니..
-
[Pandas] 판다스 merge 함수로 파이썬 데이터프레임 병합하는 방법Python/Pandas, Numpy 2023. 5. 17. 10:45
판다스 merge 함수로 데이터프레임 병합하는 방법 파이썬(Python)에서 표 형태의 데이터는 판다스 데이터프레임(Pandas DataFrame)이라는 객체를 이용해서 나타냅니다. 이를 이용하면 표 하나는 물론, 둘 이상의 표를 같은 기준을 중심으로 묶어서 확인해볼 수 있습니다. 이번에는 판다스에서 제공하는 병합(merge) 기능을 이용해, 두 데이터프레임을 합치고 이를 시각화하는 작업을 해 보겠습니다. 해당 분석에는 Pandas와 플로틀리(plotly) 패키지가 사용되었으며, 아래 두 파일을 입력했으니 참고해 주세요. # 패키지 불러오기 import pandas as pd import plotly.express as px # 데이터 불러오기 loan = pd.read_excel('./data/Best..
-
[ydata-profiling] 파이썬에서 ydata-profiling으로 간편하게 판다스 데이터 분석과 시각화Python/Pandas, Numpy 2023. 5. 11. 11:07
ydata-profiling으로 간편한 데이터 분석과 시각화 파이썬(Python)을 사용할 때 데이터 시각화는 아주 중요하지만, 파이썬과 친하지 않은 사람(비전공자라면 더욱 더)이라면 시각화를 하기까지 어려움이 너무 많습니다. 시각화 패키지는 어느정도의 함수, 클래스, 패키지 사용법을 외우고 있어야 사용이 가능하며, 똑같은 그래프라고 할지라도 입력 데이터를 바꾸려면 그게 또 일이거든요. 그래서, 저는 데이터 분석 초보자분들이 사용하기 너무 좋은 ydata-profiling 패키지를 한번 사용해 보시는걸 권장드리고 있습니다. 초보자들은 고급 대시보드 패키지에서나 사용할 수 있는 전반적인 데이터 개요를 손쉽게 살펴볼 수 있어서 만족스럽고, 코딩을 잘 하는 분들이라도 코드 몇 줄 쓰지 않고 데이터를 대충 훑어..
-
[Pandas] 파이썬 Pandas로 엑셀 파일 읽기와 쓰기Python/Pandas, Numpy 2023. 5. 4. 12:04
Pandas로 엑셀 파일 읽기와 쓰기 판다스(Pandas)는 파이썬(Python)에서 표 형식의 데이터를 다룰 수 있는 강력한 패키지입니다. 그런데, 표 형식의 데이터라고 하면 우리는 흔히 사용하는 엑셀 스프레드시트 파일을 떠올리기 마련이지요. 과연 판다스로 이 파일들을 읽고 쓸 수 있을까요? 결론부터 말하자면 가능합니다. 판다스로 파일 불러오기 표 형식의 데이터는 확장자가 다르더라도 컴퓨터가 거의 비슷한 형식으로 파일을 편집합니다. 그래서, 별도의 프로그램으로 작성한 스프레드시트 파일이라고 해도 판다스에서는 파일 형식에 맞게 코드를 적어주면 손쉽게 불러와 이용할 수 있습니다. 만약에, 같은 폴더에 iris.csv 파일이 있고, 이걸 불러오려면 아래와 같이 쓰면 됩니다. # 패키지 불러오기 import ..
-
[Pandas] 판다스 마스킹과 쿼리 함수 이용하기Python/Pandas, Numpy 2023. 4. 25. 10:34
판다스 마스킹과 쿼리 함수 이용하기 판다스의 마스킹 파이썬(Python)에서 판다스(Pandas) 를 이용할 때, 특정 조건에 맞는 데이터만 골라서 추출하고 싶을 때가 있습니다. 그럴 때는 일반적으로 마스킹(masking)이라는 기법을 이용합니다. 예를 들어, 아래의 df 데이터프레임에서 pandas 라는 row만 추출하고 싶다면 이렇게 합니다. import pandas as pd data = {'A': [1,2,3,3,3], 'B': ['hello','world','python','pandas','query']} df = pd.DataFrame(data) df A B 0 1 hello 1 2 world 2 3 python 3 3 pandas 4 3 query m = df['B'] == 'pandas' ..