분산, 표준편차, 공분산, 피어슨 상관계수

분산, 표준편차, 공분산, 피어슨 상관계수

sedin2 2025. 2. 25. 10:25

1. 분산

▶️ 개념

데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값이야.
쉽게 말해서, 데이터들이 평균 근처에 모여 있는지, 아니면 멀리 흩어져 있는지를 숫자로 나타낸 거야.

▶️ 표본과 모집단

▶️ 분산 구하는 공식

💡 왜 n−1을 쓰는 걸까?
표본을 사용해서 모집단을 추정하는 경우, 표본만으로 모집단의 분산을 완벽히 알기 어렵기 때문에 "불편 추정량"을 사용해서 n−1n-1로 나누는 거야.

2. 표준편차

▶️ 개념

분산은 "제곱"을 해서 원래 데이터와 단위가 달라지는데, 표준편차는 분산의 제곱근을 씌워 원래 데이터 단위로 변환한 값이야.
즉, 표준편차가 크면 데이터가 평균에서 많이 흩어져 있다는 뜻이야.

▶️ 표준편차 구하는 공식

▶️ 예제

👉 표준편차가 10이므로, 학생들의 점수가 평균 80점에서 ±10 정도의 차이를 가진다고 볼 수 있어!

3. 공분산

▶️ 개념

공분산은 두 변수가 함께 어떻게 변하는지를 나타내는 값이야.

▶️ 공분산 구하는 공식

📌 문제점: 공분산은 값이 크면 관계가 강한 것 같아 보이지만, 데이터의 단위에 따라 값이 달라져 해석이 어려워.
그래서 상관계수를 사용해!

4. 피어슨 상관계수

▶️ 개념

피어슨 상관계수는 공분산을 표준화한 값으로, 두 변수 간의 "선형 관계" 강도를 -1에서 1 사이의 값으로 나타내.

▶️ 피어슨 상관계수 공식

▶️ 해석

▶️ 예제

💡 예를 들어, 학생들의 공부 시간과 시험 점수를 조사했더니

📌 요약