통계/통계학입문 & 통계방법론

통계학 입문 & 통계 방법론 #1 - 기초 개념 정리

PM스터 2023. 1. 17. 12:16
반응형

1. 통계학이란?

모집단에서 표본추출하고,
그 표본에서 얻은 추정량으로 모수추정하는 학문이다.

통계학입문 교재 정의:

" 통계학은 추론 과정에서 필연적으로 수반되는 오차의 크기를 계산하고, 그것을 줄이는 방법을 찾는 학문이다"

 

2. 통계학 기초 개념

(1) 모집단과 표본 

  1. 모집단(母집단/ Population): 우리가 조사하고자 하는, 관심 있는 집단 전체 
    1. 모집단 전체를 대상으로 하는 조사를 '전수조사'라 한다.
    2. 전수조사는 시간적, 비용적인 이유로 사실상 시행이 불가능한 경우가 많다. 
      1. Ex) 조사를 시행하는 도중에 돌아가시는 분들의 발생
      2. Ex) 조사를 시행하는 도중 출생하는 인원의 발생 
      3. Ex) 조사를 시행하는 도중 상태가 변화하는 경우 등
  2. 표본(Sample): 모집단의 특성을 알아내기 위해 뽑은 모집단의 일부분 
    1. 전체 집단의 특성을 파악하고 싶지만 집단 전체를 대상으로 조사하는 것이 불가능하기 때문에 사용
    2. 모집단의 일부에만 접근하면서도, 최대한 정확하게 모집단의 특성을 알아내는 것이 통계학의 목적
  3. 추출(Sampling): 표본(Sample)을 뽑는 과정, 절차, 과정
    1. 어떤 식으로 표본을 추출할 것인지를 다룬다. 
      1. Ex) Random Sampling /Filtering etc.. 

(2) 모수, 추정, 추정량, 오차 

  1. 모수(Parameter): 모집단의 성질을 나타내는 특정한 값
    1. '실제 현상' → '확률변수' → '확률분포' → '모수'
      1. '확률변수'는 '실제현상'을 나타내고
      2. '확률변수'는 특정 '확률분포'를 따르며,
      3. '확률분포'를 설명하는 수가 '모수'이다. 
    2. 때문에, 모집단을 특정 확률분포를 따르는 확률변수로 표현할 수 있다면, 해당 확률변수가 따르는 확률분포의 모수를 알아내는 것이 곧 모집단의성질을 설명하는 것과 동등한(equivalent)한 문제가 된다.
      1. Equivalent: 다르게 표현되지만 같은 의미를 나타내는 경우를 표현  
    3. Why? 모수를 알아내는 것이 통계학의 목적과 맞닿아 있기 때문
  2. 추정(Estimation): 하나의 값으로 다른 값을 유추하는 것 (추정량을 통해 모수를 유추하는 것)
  3. 추정량(Estimator): 모수를 추정하기 위해 계산하는 값
    1.  통계학에서는 추정량을 이용해 모수를 추정하는통계적 추정(Statistical estimation)을 사용한다. 
  4. 오차(Error): 모수와 추정량의 차이. 
    1. 작을 수록 추정의 정확도가 높다. 
    2. P.S. 오차의 존재에 대한 인정 
      1. Ex. "신도 주사위 놀이를 한다"
        1. 이전에는 신(神)에 의해 모든 것이 완벽하게 결정되어 있다고 믿었다. 
        2. 과학의 발전으로 이전에 해석이 안되는 현상들이 해석되면서, 결정되어 있는 세상의 규칙들을 모두 해석할 수 있을 것이라 믿었다. 
        3. 하지만 이에 대한 반박으로 모든 사건에는 '오차'가 존재한다는 주장이 나오기 시작했으며, 통계학이 발전하기 시작했다.
        4. 또한, 결정론의 한계는  하이젠베르크의 '불확정성의 원리'에서도 확인할 수 있다. 
          1. Ex. 입자의 '위치'와 '운동량'은 일정 수준의 정확도 이상으로는 동시에 측정되지 않는다. 
          2. '위치'가 정확하게 측정될수록 운동량의 분산도는 커지게 되고 반대로 운동량이 정확하게 측정될 수록 위치의 분산도는 커지게 된다. 
          3. 즉, 한 쪽의 값을 예측하여 상수로 표현하게 되면 반대 값은 변수가 되어 두 변수 값을 모두 상수로 나타낼 수 없어 결정적인 답을 낼 수 없다는 의미이다. 
            1. 관련 수식: $$ σ_p ​≥ {ℏ \over 2σ_x}$$ 
        5. 다른 예시는 정규분포에서도 확인할 수 있다.
          1. 실제로 현실 세계에서 측정을 해보면 정규 분포를 따르는 사건들이 많다. 
          2. 정규분포는 오차의 존재를 전제하고 만든 분포인데, 이러한 분포가 현실 세계에서 설명력이 높다는 사실이 오차의 존재를 설명할 수 있는 근거가 된다. 

(3) 대푯값

  1. 대푯값(Representative value): 모집단을 단 하나의 값으로 요약하는 값 
    1. 가장 대중적인 대푯값으로는 평균(Mean), 중위수/중간값(Median), 최빈값(Mode)이 있다. 
  2. 평균(Mean): 모든 값을 더해서 표본수로 나눈 값 
    1. 보통 평균이 가장 많이 사용된다. 
    2. 평균은 기댓값(Expectation)이라고도 표현할 수 있다.
      1. Expectation: E[x]
      2. 관련 수식: $$ {{\bar{X} ​= \sum_{i=1} ^n x_i} \over n}$$ 
    3. 한계: 평균은 이상치의 영향을 크게 받기 때문에 Robust하지 않다는 특징이 있다. 
  3. 중위수/중간값(Median): 모든 값을 크기 순서대로 나열했을 때, 정확히 가운데에 위치하는 값 
  4. 최빈값(Mode): 전체 값 중에서 가장 자주 출현한 값

평균, 중간값, 최빈값의 관계

출처: https://www.quora.com/How-is-the-gender-pay-gap-calculated-in-the-US

(4) 산포도

  1. 산포도(dispersion): 산포도는 데이터가 얼마나 흩어져 있는지를 나타낸 값이다.
    1. 통계학입문 & 통계방법론에서 중점적으로 다루는 산포도는 분산과 표준편차 정도이다. 
  2. 분산(Variance): 편차(Deviance)의 제곱의 평균 
    1. 편차는 '변량(데이터) - 평균'으로 정의된다. 
      1. 관련 수식: $$ V[X] =E[(X- \mu)^2] =  E[X^2] - E[X]^2$$
    2. 편차를 제곱하지 않고 더하면 항상 0이 되기 때문에 무의미하다.  
  3. 표준편차(Standard Deviation): 분산의 양의 제곱근 
    1. 편차를 제곱하면서 단위가 달라지기 때문에 단위를 원상복구하기 위해 표준편차를 사용한다. 
    2. 관련 수식: $$ σ[X] ​≥ \sqrt{V[X]}$$
반응형