반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Kubernetes
- 자연어처리
- 데이터분석준전문가
- SQL
- 머신러닝
- 언어모델
- LLM
- bigquery
- ADsP
- SQLP
- ML Ops
- 통계방법론
- 포아송분포
- 코딩테스트
- CS224W
- SQLD
- MLOps
- RNN
- MYSQL
- 통계학입문
- level 1
- 인공지능
- docker
- nlp
- 프레임워크
- 프로그래머스
- Level 2
- 데이터분석전문가
- gnn
- Ai
Archives
- Today
- Total
코드 깎는 PM
통계학 입문 & 통계 방법론 #1 - 기초 개념 정리 본문
반응형
1. 통계학이란?
모집단에서 표본을 추출하고,
그 표본에서 얻은 추정량으로 모수를 추정하는 학문이다.
통계학입문 교재 정의:
" 통계학은 추론 과정에서 필연적으로 수반되는 오차의 크기를 계산하고, 그것을 줄이는 방법을 찾는 학문이다"
2. 통계학 기초 개념
(1) 모집단과 표본
- 모집단(母집단/ Population): 우리가 조사하고자 하는, 관심 있는 집단 전체
- 모집단 전체를 대상으로 하는 조사를 '전수조사'라 한다.
- 전수조사는 시간적, 비용적인 이유로 사실상 시행이 불가능한 경우가 많다.
- Ex) 조사를 시행하는 도중에 돌아가시는 분들의 발생
- Ex) 조사를 시행하는 도중 출생하는 인원의 발생
- Ex) 조사를 시행하는 도중 상태가 변화하는 경우 등
- 표본(Sample): 모집단의 특성을 알아내기 위해 뽑은 모집단의 일부분
- 전체 집단의 특성을 파악하고 싶지만 집단 전체를 대상으로 조사하는 것이 불가능하기 때문에 사용
- 모집단의 일부에만 접근하면서도, 최대한 정확하게 모집단의 특성을 알아내는 것이 통계학의 목적
- 추출(Sampling): 표본(Sample)을 뽑는 과정, 절차, 과정
- 어떤 식으로 표본을 추출할 것인지를 다룬다.
- Ex) Random Sampling /Filtering etc..
- 어떤 식으로 표본을 추출할 것인지를 다룬다.
(2) 모수, 추정, 추정량, 오차
- 모수(Parameter): 모집단의 성질을 나타내는 특정한 값
- '실제 현상' → '확률변수' → '확률분포' → '모수'
- '확률변수'는 '실제현상'을 나타내고
- '확률변수'는 특정 '확률분포'를 따르며,
- '확률분포'를 설명하는 수가 '모수'이다.
- 때문에, 모집단을 특정 확률분포를 따르는 확률변수로 표현할 수 있다면, 해당 확률변수가 따르는 확률분포의 모수를 알아내는 것이 곧 모집단의성질을 설명하는 것과 동등한(equivalent)한 문제가 된다.
- Equivalent: 다르게 표현되지만 같은 의미를 나타내는 경우를 표현
- Why? 모수를 알아내는 것이 통계학의 목적과 맞닿아 있기 때문
- '실제 현상' → '확률변수' → '확률분포' → '모수'
- 추정(Estimation): 하나의 값으로 다른 값을 유추하는 것 (추정량을 통해 모수를 유추하는 것)
- 추정량(Estimator): 모수를 추정하기 위해 계산하는 값
- 통계학에서는 추정량을 이용해 모수를 추정하는통계적 추정(Statistical estimation)을 사용한다.
- 오차(Error): 모수와 추정량의 차이.
- 작을 수록 추정의 정확도가 높다.
- P.S. 오차의 존재에 대한 인정
- Ex. "신도 주사위 놀이를 한다"
- 이전에는 신(神)에 의해 모든 것이 완벽하게 결정되어 있다고 믿었다.
- 과학의 발전으로 이전에 해석이 안되는 현상들이 해석되면서, 결정되어 있는 세상의 규칙들을 모두 해석할 수 있을 것이라 믿었다.
- 하지만 이에 대한 반박으로 모든 사건에는 '오차'가 존재한다는 주장이 나오기 시작했으며, 통계학이 발전하기 시작했다.
- 또한, 결정론의 한계는 하이젠베르크의 '불확정성의 원리'에서도 확인할 수 있다.
- Ex. 입자의 '위치'와 '운동량'은 일정 수준의 정확도 이상으로는 동시에 측정되지 않는다.
- '위치'가 정확하게 측정될수록 운동량의 분산도는 커지게 되고 반대로 운동량이 정확하게 측정될 수록 위치의 분산도는 커지게 된다.
- 즉, 한 쪽의 값을 예측하여 상수로 표현하게 되면 반대 값은 변수가 되어 두 변수 값을 모두 상수로 나타낼 수 없어 결정적인 답을 낼 수 없다는 의미이다.
- 관련 수식: $$ σ_p ≥ {ℏ \over 2σ_x}$$
- 다른 예시는 정규분포에서도 확인할 수 있다.
- 실제로 현실 세계에서 측정을 해보면 정규 분포를 따르는 사건들이 많다.
- 정규분포는 오차의 존재를 전제하고 만든 분포인데, 이러한 분포가 현실 세계에서 설명력이 높다는 사실이 오차의 존재를 설명할 수 있는 근거가 된다.
- Ex. "신도 주사위 놀이를 한다"
(3) 대푯값
- 대푯값(Representative value): 모집단을 단 하나의 값으로 요약하는 값
- 가장 대중적인 대푯값으로는 평균(Mean), 중위수/중간값(Median), 최빈값(Mode)이 있다.
- 평균(Mean): 모든 값을 더해서 표본수로 나눈 값
- 보통 평균이 가장 많이 사용된다.
- 평균은 기댓값(Expectation)이라고도 표현할 수 있다.
- Expectation: E[x]
- 관련 수식: $$ {{\bar{X} = \sum_{i=1} ^n x_i} \over n}$$
- 한계: 평균은 이상치의 영향을 크게 받기 때문에 Robust하지 않다는 특징이 있다.
- 중위수/중간값(Median): 모든 값을 크기 순서대로 나열했을 때, 정확히 가운데에 위치하는 값
- 최빈값(Mode): 전체 값 중에서 가장 자주 출현한 값
출처: https://www.quora.com/How-is-the-gender-pay-gap-calculated-in-the-US
(4) 산포도
- 산포도(dispersion): 산포도는 데이터가 얼마나 흩어져 있는지를 나타낸 값이다.
- 통계학입문 & 통계방법론에서 중점적으로 다루는 산포도는 분산과 표준편차 정도이다.
- 분산(Variance): 편차(Deviance)의 제곱의 평균
- 편차는 '변량(데이터) - 평균'으로 정의된다.
- 관련 수식: $$ V[X] =E[(X- \mu)^2] = E[X^2] - E[X]^2$$
- 편차를 제곱하지 않고 더하면 항상 0이 되기 때문에 무의미하다.
- 편차는 '변량(데이터) - 평균'으로 정의된다.
- 표준편차(Standard Deviation): 분산의 양의 제곱근
- 편차를 제곱하면서 단위가 달라지기 때문에 단위를 원상복구하기 위해 표준편차를 사용한다.
- 관련 수식: $$ σ[X] ≥ \sqrt{V[X]}$$
반응형
'통계 > 통계학입문 & 통계방법론' 카테고리의 다른 글
통계학 입문 & 통계 방법론 #2 - 확률변수와 확률분포 (0) | 2023.02.15 |
---|---|
통계 분석 기법 1 - 차이 검정 (T-test, ANOVA) (0) | 2022.12.31 |
Comments