pandas의 DataFrame에서 기본적으로 describe() 함수는 숫자 데이터에 대한 통계 정보를 보여주지만, include 옵션을 all로 설정하면 문자나 범주형 데이터도 함께 요약해줘요. 초등학생도 쉽게 이해할 수 있도록 자세히 설명해볼게요!
1. 기본 describe() 함수와 숫자 데이터 요약
- 기본 동작:
그냥 describe()를 쓰면 숫자로 이루어진 열(예를 들어, 나이, 키 등)에 대해 count, mean, std, min, 25%, 50%, 75%, max 등의 정보를 보여줘요.
2. include='all' 옵션의 역할
- 범주형 데이터도 요약:
include 옵션을 all로 설정하면, 숫자뿐만 아니라 문자열이나 범주형 데이터(예: 이름, 성별 등)에 대해서도 요약 통계 정보를 계산해요. - 범주형 데이터의 통계 정보:
범주형 데이터에 대해 describe() 함수가 보여주는 정보는 다음과 같아요:- count: 데이터가 몇 개 있는지 (결측치 제외)
- unique: 중복되지 않는 고유한 값이 몇 개인지
- top: 가장 많이 등장한 값 (최빈값)
- freq: 최빈값이 몇 번 등장했는지
이렇게 하면 숫자 데이터뿐만 아니라 범주형 데이터의 분포와 특성을 한눈에 볼 수 있어요!
3. 예제 코드
다음은 숫자와 범주형 데이터가 함께 있는 DataFrame을 만들고, include='all' 옵션을 사용하여 모든 데이터를 요약하는 예제예요.
import pandas as pd
# 예시 데이터를 만듭니다.
data = {
'이름': ['철수', '영희', '민수', '지영', '지훈'],
'나이': [10, 11, 10, 12, 11],
'성별': ['남', '여', '남', '여', '남']
}
# DataFrame으로 변환합니다.
df = pd.DataFrame(data)
# 숫자와 범주형 데이터 모두에 대한 요약 통계를 계산합니다.
요약통계 = df.describe(include='all')
print(요약통계)
코드 설명:
- data: 학생들의 이름(문자열), 나이(숫자), 성별(문자열)을 담은 딕셔너리예요.
- pd.DataFrame(data): 딕셔너리를 DataFrame으로 변환해서 표 형태로 만듭니다.
- df.describe(include='all'): include 옵션을 'all'로 설정하여 모든 열(숫자형, 문자열, 범주형)을 요약해요.
- print(요약통계): 각 열에 대한 통계 정보를 출력해 줍니다.
출력 결과는 예를 들어, '이름' 열의 경우 전체 개수, 고유값 개수, 가장 많이 등장한 이름과 그 빈도 등을 보여주게 됩니다.
4. 요약 정리
- 숫자 데이터: count, mean, std, min, 25%, 50%, 75%, max 등의 통계 정보를 보여줘요.
- 범주형 데이터: count, unique, top, freq 정보를 통해 데이터의 분포를 확인할 수 있어요.
- include='all' 옵션: 숫자뿐만 아니라 모든 타입의 데이터를 요약하여 한 번에 확인할 수 있게 도와줘요.
이렇게 include 옵션을 활용하면 다양한 종류의 데이터에 대해 한 번에 요약 통계를 확인할 수 있어 데이터 분석을 더욱 쉽게 진행할 수 있답니다!
'데이터분석 공부 > 함수 정리' 카테고리의 다른 글
describe 함수 (0) | 2025.02.24 |
---|---|
.items() (0) | 2025.02.21 |
if-else 문 (0) | 2025.02.21 |
range() 함수 (0) | 2025.02.21 |
plt.xticks() 함수 (0) | 2025.02.20 |