요약통계 = df.describe(include='all')

데이터분석 공부/함수 정리

요약통계 = df.describe(include='all')

sedin2 2025. 2. 24. 14:53

pandas의 DataFrame에서 기본적으로 describe() 함수는 숫자 데이터에 대한 통계 정보를 보여주지만, include 옵션을 all로 설정하면 문자나 범주형 데이터도 함께 요약해줘요. 초등학생도 쉽게 이해할 수 있도록 자세히 설명해볼게요!

1. 기본 describe() 함수와 숫자 데이터 요약

기본 동작:
그냥 describe()를 쓰면 숫자로 이루어진 열(예를 들어, 나이, 키 등)에 대해 count, mean, std, min, 25%, 50%, 75%, max 등의 정보를 보여줘요.

2. include='all' 옵션의 역할

범주형 데이터도 요약:
include 옵션을 all로 설정하면, 숫자뿐만 아니라 문자열이나 범주형 데이터(예: 이름, 성별 등)에 대해서도 요약 통계 정보를 계산해요.
범주형 데이터의 통계 정보:
범주형 데이터에 대해 describe() 함수가 보여주는 정보는 다음과 같아요:
- count: 데이터가 몇 개 있는지 (결측치 제외)
- unique: 중복되지 않는 고유한 값이 몇 개인지
- top: 가장 많이 등장한 값 (최빈값)
- freq: 최빈값이 몇 번 등장했는지

이렇게 하면 숫자 데이터뿐만 아니라 범주형 데이터의 분포와 특성을 한눈에 볼 수 있어요!

3. 예제 코드

다음은 숫자와 범주형 데이터가 함께 있는 DataFrame을 만들고, include='all' 옵션을 사용하여 모든 데이터를 요약하는 예제예요.

import pandas as pd

# 예시 데이터를 만듭니다.
data = {
    '이름': ['철수', '영희', '민수', '지영', '지훈'],
    '나이': [10, 11, 10, 12, 11],
    '성별': ['남', '여', '남', '여', '남']
}

# DataFrame으로 변환합니다.
df = pd.DataFrame(data)

# 숫자와 범주형 데이터 모두에 대한 요약 통계를 계산합니다.
요약통계 = df.describe(include='all')
print(요약통계)

코드 설명:

data: 학생들의 이름(문자열), 나이(숫자), 성별(문자열)을 담은 딕셔너리예요.
pd.DataFrame(data): 딕셔너리를 DataFrame으로 변환해서 표 형태로 만듭니다.
df.describe(include='all'): include 옵션을 'all'로 설정하여 모든 열(숫자형, 문자열, 범주형)을 요약해요.
print(요약통계): 각 열에 대한 통계 정보를 출력해 줍니다.

출력 결과는 예를 들어, '이름' 열의 경우 전체 개수, 고유값 개수, 가장 많이 등장한 이름과 그 빈도 등을 보여주게 됩니다.

4. 요약 정리

숫자 데이터: count, mean, std, min, 25%, 50%, 75%, max 등의 통계 정보를 보여줘요.
범주형 데이터: count, unique, top, freq 정보를 통해 데이터의 분포를 확인할 수 있어요.
include='all' 옵션: 숫자뿐만 아니라 모든 타입의 데이터를 요약하여 한 번에 확인할 수 있게 도와줘요.

이렇게 include 옵션을 활용하면 다양한 종류의 데이터에 대해 한 번에 요약 통계를 확인할 수 있어 데이터 분석을 더욱 쉽게 진행할 수 있답니다!

'데이터분석 공부 > 함수 정리' 카테고리의 다른 글

describe 함수 (0)	2025.02.24
.items() (0)	2025.02.21
if-else 문 (0)	2025.02.21
range() 함수 (0)	2025.02.21
plt.xticks() 함수 (0)	2025.02.20

현재글요약통계 = df.describe(include='all')

sedin2 님의 블로그

sedin2 님의 블로그 입니다.

range함수, describe(), include옵션, dataframe, 파이썬range, numpy, elif함수, 코딩, Pandas, 데이터분석, describe함수, 파이썬, 데이터분석tool, if else 함수, Python, python함수, 데이터요약통계,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sedin2 님의 블로그