반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Ai
- CS224W
- SQLD
- docker
- RNN
- 프로그래머스
- 데이터분석전문가
- gnn
- Level 2
- 자연어처리
- 언어모델
- 데이터분석준전문가
- nlp
- 인공지능
- Kubernetes
- SQLP
- MLOps
- ML Ops
- 통계방법론
- MYSQL
- 프레임워크
- LLM
- level 1
- 머신러닝
- bigquery
- 코딩테스트
- ADsP
- 포아송분포
- SQL
- 통계학입문
Archives
- Today
- Total
코드 깎는 PM
[ADP/ADsP 데이터분석 전문가] 4-1. 통계 분석의 이해 (2) 본문
반응형
본 블로그는 데이터 에듀 출판사의 'ADP 필기 데이터 분석 전문가'를 요약한 글임을 밝힙니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
출처: https://link.coupang.com/a/bqdOtL
ADP 필기 데이터 분석 전문가
COUPANG
www.coupang.com
4. 확률 및 확률분포
- 가. 확률
- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고,전체 확률의 합이 1인 것을 의미한다. 표본공간 Ω의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, 다음과 같이 정의한다
- P(E) = n(E)/n(Ω)
- 1) 표본공간 (Sample Space, Ω)
- 어떤 실험을 실시할 때 나타날 수 있는 모든 결과물의 집합
- 2) 사건(Event)
- 관찰자가 관심이 있는 사건으로 표본공간의 부분집합이다.
- 3) 원소(Element)
- 나타날 수 있는 개별 결과들을 의미함
- 4) 확률변수(Random Variable)
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.
- 정의역(Domain)이 표본공간, 치역(Range)이 실수값인 함수이다.
- 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산행 확률변수(Discrete Random Variable)와
연속형 확률변수(Continuous Random Variable)로 구분된다. - 확률변수의 기대값
- 확률변수 X의 기대값(Expectation, Expected Value)은 다음과 같이 정의한다.
- E(X) = ∑xf(x) : 이산형 변수인 경우
- E(X) = ∫xf(x)dx : 연속형 변수인 경우
- (일반적으로 확률변수 X의 k차 적률(k-th Moment))
- E(X^k) = ∑x^k f(x) : 이산형 변수인 경우
- E(X^k ) = ∫x^k f(x)dx : 연속형 변수인 경우
- (확률변수 X의 k차 중심적률(k-th Cental Moment))
- E(X-μ)^k = ∑ (x-μ)^k f(x) : 이산형 변수인 경우
- E(X-μ) = ∫ (x-μ)^k f(x)dx : 연속형 변수인 경우
- 특히, 2차 중심적률 E[(X−4)²] = ² : 모분산(population variance) 기대값의 선형성을 이용하면
σ² = E[(X - μ)²]
= E[( X² - 2μX + μ² )]
= E(X²)-2μE(X) + μ²
= E(X²)- μ²
- 특히, 2차 중심적률 E[(X−4)²] = ² : 모분산(population variance) 기대값의 선형성을 이용하면
- 확률변수 X의 기대값(Expectation, Expected Value)은 다음과 같이 정의한다.
- 덧셈정리 (배반이 아닐 때) :
- 사건 A와 사건 B가 동시에 일어날 수 있을 때(교집합이 성립할 때), 일어날 확률 P(A 또는 B)는 P(AUB)=P(A)+P(B)-P(ANB)로 표현된다.
- 사건 B가 주어졌을 때 사건 A의 조건부 확률 P(AIB)=P(ANB)/P(B)로 표현된다.
- 덧셈정리 (배반사건일 때) :
- 사건 A와 사건 B가 동시에 일어나지 않을 때, 즉 사건 A 또는 사건 B 중 어느 한 쪽만 일어날 확률 P(AUB)=P(A)+P(B)로 표현된다.
- 곱셈정리 :
- 사건 A와 B가 서로 무관계하게 나타날 때, 즉 독립사건(일때 A와 B가 동시에 나타날 확률 P(A와 B)는P(A|B)=P(A)×P(B)로 표현되고, 사건 B가 주어졌을 때 사건 A의 조건부 확률은 P(AIB)=P(A)로 표현된다.
- 나. 확률분포
- 1) 이산형 확률변수
- 이산점(discrete points)에서 0이 아닌 확률값을 가지는 확률변수이다.
- 이산형 확률변수의 확률은 PCX=x)=P, i=1, 2, .. 으로 표현한다.
- 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수(Probability Mass Function, PMF)라 한다.
- 이산점에서의 확률분포는 아래와 같이 나타난다.
- 이산점에서의 확률분포는 아래와 같이 나타난다.
- 2) 이산형 확률분포 종류
- 가) 베르누이 확률분포(Bernoulli distribution)
- 결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등)
- P(X=x)=p^x *(1-p)^(1-x) (x=1 or 0)
- E(X)=p, Var(X)=p(1-p)
- 예) 메이저리거인 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따른다.(안타를 치는 사건을 x=1이라고 할 때 안타를 칠 확률은 타율로 적용 가능)
- 예) 메이저리거인 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따른다.(안타를 치는 사건을 x=1이라고 할 때 안타를 칠 확률은 타율로 적용 가능)
- 결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등)
- 나) 이항분포(Binomial distribution)
- 베르누이 시행을 번 반복했을 때 k번 성공할 확률
- X~B(n,p), E(X)=np, Var(X)=np(1-p)
- 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률은
이항분포를 따른다. (n=5, k=3, 안타를 칠 확률 P(x)=타율로 적용 가능) - 성공할 확률 p가 0이나 1에 가깝지 않고 이 충분히 크면 이항분포는 정규분포에 가까워
진다. 성공할 확률 p가 1/2에 가까우면 종모양이 된다.이항분포
- 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률은
- X~B(n,p), E(X)=np, Var(X)=np(1-p)
- 베르누이 시행을 번 반복했을 때 k번 성공할 확률
- 다) 기하분포(Geometric distribution)
- 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 번 실패할 확률
- 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타칠 확률은 기하분포를 따른다.
기하분포 이미지
- 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타칠 확률은 기하분포를 따른다.
- 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 번 실패할 확률
- 라) 다항분포(Multinomial distribution)
- 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
다항분포 이미지
- 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
- 마) 포아송분포(Poisson distribution)
- 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
- 예시 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
- λ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값,
- y = 사건이 일어난 수
- 예) 메이저리거인 추신수 선수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때, 오늘 경기에서 홈런을 못 칠 확률은 포아송분포를 따른다.
- 예시 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
- 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
- 가) 베르누이 확률분포(Bernoulli distribution)
- 1) 이산형 확률변수
Reference:
https://thebook.io/080246/0401/
https://cpntools.org/2018/01/18/binomial/
https://en.wikipedia.org/wiki/Geometric_distribution
https://www.sciencedirect.com/topics/agricultural-and-biological-sciences/bernoulli-distribution
https://towardsdatascience.com/understanding-multinomial-distribution-using-python-f48c89e1e29f
반응형
'자격증 > ADP & ADsP' 카테고리의 다른 글
[ADP/ADsP 데이터분석 전문가] 4-1. 통계 분석의 이해 (1) (0) | 2024.02.12 |
---|
Comments