데이터분석 공부/통계 정리

분산, 표준편차, 공분산, 피어슨 상관계수

sedin2 2025. 2. 25. 10:25

1. 분산

▶️ 개념

데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값이야.
쉽게 말해서, 데이터들이 평균 근처에 모여 있는지, 아니면 멀리 흩어져 있는지를 숫자로 나타낸 거야.

▶️ 표본과 모집단

▶️ 분산 구하는 공식

💡 왜 n−1을 쓰는 걸까?
표본을 사용해서 모집단을 추정하는 경우, 표본만으로 모집단의 분산을 완벽히 알기 어렵기 때문에 "불편 추정량"을 사용해서 n−1n-1로 나누는 거야.


2. 표준편차

▶️ 개념

분산은 "제곱"을 해서 원래 데이터와 단위가 달라지는데, 표준편차는 분산의 제곱근을 씌워 원래 데이터 단위로 변환한 값이야.
즉, 표준편차가 크면 데이터가 평균에서 많이 흩어져 있다는 뜻이야.

▶️ 표준편차 구하는 공식

▶️ 예제

👉 표준편차가 10이므로, 학생들의 점수가 평균 80점에서 ±10 정도의 차이를 가진다고 볼 수 있어!


3. 공분산

▶️ 개념

공분산은 두 변수가 함께 어떻게 변하는지를 나타내는 값이야.

  • 양수 → 두 변수가 함께 증가하거나 감소하는 경향이 있음. (예: 키가 클수록 몸무게도 증가)
  • 음수 → 한 변수가 증가하면 다른 변수는 감소하는 경향이 있음. (예: 운동 시간 증가 → 체중 감소)
  • 0에 가까움 → 두 변수 사이에 관계가 거의 없음.

▶️ 공분산 구하는 공식

📌 문제점: 공분산은 값이 크면 관계가 강한 것 같아 보이지만, 데이터의 단위에 따라 값이 달라져 해석이 어려워.
그래서 상관계수를 사용해!


4. 피어슨 상관계수

▶️ 개념

피어슨 상관계수는 공분산을 표준화한 값으로, 두 변수 간의 "선형 관계" 강도를 -1에서 1 사이의 값으로 나타내.

▶️ 피어슨 상관계수 공식

▶️ 해석

  • r = 1 → 완벽한 양의 상관관계 (정비례, XX 증가 → YY 증가)
  • r = − 1 → 완벽한 음의 상관관계 (반비례, XX 증가 → YY 감소)
  • r = 0→ 상관관계 없음 (두 변수는 무관)
  • r 값이 1 또는 -1에 가까울수록 선형 관계가 강함

▶️ 예제

💡 예를 들어, 학생들의 공부 시간과 시험 점수를 조사했더니

  • 공부 시간이 많을수록 점수도 높아지는 경향이 있었다면 r 값은 0.8~1 사이
  • 공부 시간과 점수 사이에 거의 관계가 없다면 r값은 0에 가까움
  • 공부 시간이 많을수록 오히려 점수가 낮아진다면 값은 -0.8~-1 사이

📌 요약