코드 깎는 PM

[ADP/ADsP 데이터분석 전문가] 4-1. 통계 분석의 이해 (2) 본문

자격증/ADP & ADsP

[ADP/ADsP 데이터분석 전문가] 4-1. 통계 분석의 이해 (2)

PM스터 2024. 2. 12. 19:20
반응형

본 블로그는 데이터 에듀 출판사의 'ADP 필기 데이터 분석 전문가'를 요약한 글임을 밝힙니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

출처: https://link.coupang.com/a/bqdOtL

 

ADP 필기 데이터 분석 전문가

COUPANG

www.coupang.com


4. 확률 및 확률분포

  • 가. 확률
    • 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고,전체 확률의 합이 1인 것을 의미한다. 표본공간 Ω의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, 다음과 같이 정의한다
    • P(E) = n(E)/n(Ω)
    • 1) 표본공간 (Sample Space, Ω) 
      • 어떤 실험을 실시할 때 나타날 수 있는 모든 결과물의 집합
    • 2) 사건(Event)
      • 관찰자가 관심이 있는 사건으로 표본공간의 부분집합이다. 
    • 3) 원소(Element) 
      • 나타날 수 있는 개별 결과들을 의미함
    • 4) 확률변수(Random Variable)
      • 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.
      • 정의역(Domain)이 표본공간, 치역(Range)이 실수값인 함수이다.
      • 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산행 확률변수(Discrete Random Variable)와
        연속형 확률변수(Continuous Random Variable)로 구분된다.
      • 확률변수의 기대값
        • 확률변수 X의 기대값(Expectation, Expected Value)은 다음과 같이 정의한다.
          • E(X) =  ∑xf(x) : 이산형 변수인 경우
          • E(X) = ∫xf(x)dx : 연속형 변수인 경우
            • (일반적으로 확률변수 X의 k차 적률(k-th Moment))
          • E(X^k) =  ∑x^k f(x) : 이산형 변수인 경우
          • E(X^k ) = ∫x^k f(x)dx : 연속형 변수인 경우
            • (확률변수 X의 k차 중심적률(k-th Cental Moment))
          • E(X-μ)^k =  ∑ (x-μ)^k f(x) : 이산형 변수인 경우
          • E(X-μ) = ∫ (x-μ)^k f(x)dx : 연속형 변수인 경우
            • 특히, 2차 중심적률 E[(X−4)²] = ² : 모분산(population variance) 기대값의 선형성을 이용하면
              σ² = E[(X - μ)²]
              = E[( X² - 2μX + μ² )]
              = E(X²)-2μE(X) + μ²
              = E(X²)- μ²

(이산/연속)  확률변수 시각화

 

  • 덧셈정리 (배반이 아닐 때) :
    • 사건 A와 사건 B가 동시에 일어날 수 있을 때(교집합이 성립할 때), 일어날 확률 P(A 또는 B)는 P(AUB)=P(A)+P(B)-P(ANB)로 표현된다. 
    • 사건 B가 주어졌을 때 사건 A의 조건부 확률 P(AIB)=P(ANB)/P(B)로 표현된다.
  •  덧셈정리 (배반사건일 때) :
    • 사건 A와 사건 B가 동시에 일어나지 않을 때, 즉 사건 A 또는 사건 B 중 어느 한 쪽만 일어날 확률 P(AUB)=P(A)+P(B)로 표현된다.
  • 곱셈정리 :
    • 사건 A와 B가 서로 무관계하게 나타날 때, 즉 독립사건(일때 A와 B가 동시에 나타날 확률 P(A와 B)는P(A|B)=P(A)×P(B)로 표현되고, 사건 B가 주어졌을 때 사건 A의 조건부 확률은 P(AIB)=P(A)로 표현된다.

  • 나. 확률분포 
    • 1) 이산형 확률변수
      • 이산점(discrete points)에서 0이 아닌 확률값을 가지는 확률변수이다.
      • 이산형 확률변수의 확률은 PCX=x)=P, i=1, 2, .. 으로 표현한다.
      • 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수(Probability Mass Function, PMF)라 한다.
        • 이산점에서의 확률분포는 아래와 같이 나타난다. 
    • 2) 이산형 확률분포 종류
      • 가) 베르누이 확률분포(Bernoulli distribution)
        • 결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등)
          • P(X=x)=p^x *(1-p)^(1-x) (x=1 or 0)
          • E(X)=p, Var(X)=p(1-p)
            • 예) 메이저리거인 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따른다.(안타를 치는 사건을 x=1이라고 할 때 안타를 칠 확률은 타율로 적용 가능)
      • 나) 이항분포(Binomial distribution)
        • 베르누이 시행을 번 반복했을 때 k번 성공할 확률
          • X~B(n,p), E(X)=np, Var(X)=np(1-p)
            • 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번 안타를 칠 확률은
              이항분포를 따른다. (n=5, k=3, 안타를 칠 확률 P(x)=타율로 적용 가능)
            • 성공할 확률 p가 0이나 1에 가깝지 않고 이 충분히 크면 이항분포는 정규분포에 가까워
              진다. 성공할 확률 p가 1/2에 가까우면 종모양이 된다.
              이항분포
      • 다) 기하분포(Geometric distribution)
        • 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 번 실패할 확률
          • 예) 메이저리거인 추신수 선수가 오늘 경기에서 5번 타석에 들어와서 3번째 타석에서 안타칠 확률은 기하분포를 따른다.
            기하분포 이미지

      • 라) 다항분포(Multinomial distribution)
        • 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
          다항분포 이미지

      • 마) 포아송분포(Poisson distribution)
        • 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
          • 예시 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
            • λ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값,
            • y = 사건이 일어난 수
            • 예) 메이저리거인 추신수 선수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때, 오늘 경기에서 홈런을 못 칠 확률은 포아송분포를 따른다.

Reference: 

https://thebook.io/080246/0401/

https://cpntools.org/2018/01/18/binomial/

https://en.wikipedia.org/wiki/Geometric_distribution

https://www.sciencedirect.com/topics/agricultural-and-biological-sciences/bernoulli-distribution

https://towardsdatascience.com/understanding-multinomial-distribution-using-python-f48c89e1e29f

반응형
Comments