데이터분석 공부 13

분산, 표준편차, 공분산, 피어슨 상관계수

1. 분산▶️ 개념데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값이야.쉽게 말해서, 데이터들이 평균 근처에 모여 있는지, 아니면 멀리 흩어져 있는지를 숫자로 나타낸 거야.▶️ 표본과 모집단▶️ 분산 구하는 공식💡 왜 n−1을 쓰는 걸까?표본을 사용해서 모집단을 추정하는 경우, 표본만으로 모집단의 분산을 완벽히 알기 어렵기 때문에 "불편 추정량"을 사용해서 n−1n-1n−1로 나누는 거야.2. 표준편차▶️ 개념분산은 "제곱"을 해서 원래 데이터와 단위가 달라지는데, 표준편차는 분산의 제곱근을 씌워 원래 데이터 단위로 변환한 값이야.즉, 표준편차가 크면 데이터가 평균에서 많이 흩어져 있다는 뜻이야.▶️ 표준편차 구하는 공식▶️ 예제👉 표준편차가 10이므로, 학생들의 점수가 평균 80점에서 ±1..

요약통계 = df.describe(include='all')

pandas의 DataFrame에서 기본적으로 describe() 함수는 숫자 데이터에 대한 통계 정보를 보여주지만, include 옵션을 all로 설정하면 문자나 범주형 데이터도 함께 요약해줘요. 초등학생도 쉽게 이해할 수 있도록 자세히 설명해볼게요!1. 기본 describe() 함수와 숫자 데이터 요약기본 동작:그냥 describe()를 쓰면 숫자로 이루어진 열(예를 들어, 나이, 키 등)에 대해 count, mean, std, min, 25%, 50%, 75%, max 등의 정보를 보여줘요.2. include='all' 옵션의 역할범주형 데이터도 요약:include 옵션을 all로 설정하면, 숫자뿐만 아니라 문자열이나 범주형 데이터(예: 이름, 성별 등)에 대해서도 요약 통계 정보를 계산해요.범주형..

describe 함수

1. pandas의 describe 함수 기본 개념pandas의 DataFrame에서 describe() 함수를 사용하면, 데이터의 여러 통계치를 자동으로 계산해서 표 형태로 보여줘요. 예를 들어, 숫자로 이루어진 데이터에 대해 아래와 같은 정보들을 제공해요.count: 데이터의 개수 (숫자가 몇 개 있는지)mean: 평균값 (모든 숫자를 더해서 개수로 나눈 값)std: 표준편차 (데이터가 평균값 주위에서 얼마나 퍼져 있는지)min: 가장 작은 값25%: 1사분위수 (전체 데이터를 4등분했을 때, 첫 번째 부분의 끝 값)50%: 중앙값 (전체 데이터를 반으로 나눈 중간값)75%: 3사분위수 (전체 데이터를 4등분했을 때, 세 번째 부분의 끝 값)max: 가장 큰 값 예제 코드import pandas as..

df["___"].value_counts()

"__"컬럼에 있는 각 항목의 횟수를 세어서 값으로 하는 series를 만드는 함수 1. 예시(프리미어리그 데이터)players_df["선수"].value_counts() #선수 컬럼에 있는 각 선수들의 등장 횟수를 세어서 선수 이름을 인덱스, 등장 횟수 값으로 하는 Series를 만들어줌#예를 들어 A선수가 5번, B선수가 3번 등장한 경우# A 5 B 3 과 같이 나타내줌 #더 나아가 가장 큰 값을 반환할 수도 있음#가장 많이 참여한 선수를 구하려면?#idxmax()를 사용하면 됨most_played = players_df["선수"].value_counts().idxmax()print("가장 많이 참여한 선수:", most_played)