본문 바로가기

다양한 이야기/MML 정리

[MML] Chap 6. Probability and Distributions

이번 챕터는 확률과 통계 내용입니다. 거의 2년 전쯤 학부연구생 할 때 Statistical Inference라는 책 일부분을 스터디했었는데, 대부분 기억나지는 않지만 6장을 보다보니 아주 조금씩이나마 기억이 나네요. 역시 한 번 해 둔 내용은 나중에 다시 보면 미약하게나마 도움이 되는 것 같습니다.

 

개인적으로 확률과 통계는 배울 때마다 까먹고 힘들어서... 시간이 꽤 걸렸습니다. 책 내용 외에도 다른 레퍼런스들을 보며 공부했는데, 참고한 곳 링크를 걸어둡니다.

확률과 우도 : https://rpubs.com/Statdoc/204928
MLE : https://angeloyeo.github.io/2020/07/17/MLE.html
PRML 한국어 정리 : norman3.github.io/prml

6.1 Construction of a Probability Space

  - 용어: Sample space, Event space, Probability, Probability space, Target space

  -  2 concept

    - probability of output of random variable

    - probability of sample from sample space

 

6.2 Discrete and Continuous Probabilities

  - Joint probability, Marginal probability, Conditional probability

  - Probability Mass/Densify Function(pmf/pdf), Cumulative Mass/Density Function (cmf/cdf)

 

6.3 Sum Rule, Product Rule, and Bayes’ Theorem

  - 2 fundamental rules

    - Sum rule

      - Joint dist.가 2개 이상 random variable 가지고 있으면, marginal dist. of one more variable로 기술 가능

    - Product rule

      - Joint dist. => Conditional dist. 기술 가능

  - Bayes' theorem

    - 어떤 random variable을 관측한 상황 -> unobserved random variable 대한 inference 만들고 싶음

    - Let unobserved random variable x, observed random variable y

        - Prior: x 관찰 전 얻을 수 있는 subject prior knowledge

        - Likelihood: 가정된 분포에서 주어진 데이터가 나올 확률, latent variable x 알았을 때 y 확률

        - Posterior: Bayesian statistics의 목표, y를 알았을 때의 x

 

6.4 Summary Statistics and Independence

  - 평균, 분산, 2 random variable의 independence, inner product

  - Expected value 정의

    - Mean

    - Covariance

      - Correlation

    - Variance

  - Empirical mean/variance

 

6.5 Gaussian Distribution

  - 정규분포!

    - Multivariate Gaussian distribution: mean vector, covariance matrix 사용해서 정의

  - Marginal/Conditional of Gaussian -> Gaussian

    - Ex 6.6) 직접 구해보기

  - 몇 가지 연산

    - Product of Gaussian densities

    - Sums/Linear transformations

      - Mixture of Gaussian densities

 

6.6 Conjugacy and the Exponential Family

  - Gaussian 외 다양한 분포에 대해 보자

    - Bernoulli distribution

      - For a single binary random variable

    - Binominal distribution

      - Bernoulli의 일반화, Bernoulli에서 N번 sample해서 m번 X=1이 나올 확률

    - Beta distribution

      - Distribution over continuous random variable within [0, 1]

      - Bernoulli, Binominal은 sampling 결과에 의존적임

        - 그러니까 MLE 대신 베이지안 방식을 써 보자

  - Conjugacy

    - 베이지안 방식 사용 시 prior, posterior 형태 같은 것이 쉬움 -> 이게 Conjugacy!

    - 최대화하고자 하는 posterior, 그걸 만족하는 prior 모두 알고 있는 형태여야 계산이 쉬움

    - Ex 6.11, 6.12) Beta-Binominal, Beta-Bernoulli conjugacy 직접 구해보기

 

MML Table 6.2 Likelihood, conjugate prior에 따른 posterior

  - Sufficient Statistics

    - Statistic of random variable => Deterministic function of random variable

    - 매 번 전체 data를 다 뽑아서 평균 구하거나 하기에는 힘듦

      - 근데 싹 다 안 뽑고, 일부만 가지고도 모수의 정보를 모두 포함할 수 있다면...?

    - Fisher-Neyman Theorem

      - 자세하게 보려면 다른 article이 필요..

  - Exponential Family

    - 여기에 속하는 분포는 $p(x|\theta) = h(x)g(\theta)exp(\theta^{T}u(x))$ or $h(x)exp(<\theta,\phi(x)>-A(\theta))$와 같은 form 가짐

      - MML에서는 $<\cdot>$를 dot product로 취급, h 및 A는 의미가 있지만 넘어가면 $p(x|\theta)\propto exp(\theta^{T}\phi(x))$와 같이 정리 가능

        - 이 때 $\theta$가 natural parameter

    - Ex 6.13~6.15) Univarite Gaussian, Bernoulli

      - Bernoulli에서 parameter - natural parameter 관계가 sigmoid!

    - Exponential family는 conjugate distribution 찾기 쉬움

      - $p(x|\theta)$가 위와 같을 때, conjugate prior: $p(\theta|\gamma) = h_{c}(\theta)exp(<\begin{bmatrix}\gamma_{1} \\ \gamma_{2} \end{bmatrix}, \begin{bmatrix}\theta \\ -A(\theta)\end{bmatrix}> - A_{c}(\gamma))$

 

6.7 Change of Variables/Inverse Transform

  - Random variable transformation하면 어떤 distribution 가질까?

    - Chap. 6.4에서 affine transformation 고려해서 구했지만, functional form은 모름

    - 더해서, nonlinear transformation for closed form are not readily available한 경우까지

  - 2가지 접근법 존재

    - 1. cdf 정의 사용

      - cdf 찾고, pdf f(y) 찾기 위해 미분

      - Ex 6.16) 직접 해보기!

      - Probability integral transform theorem

      - 이 방법 쓰기 위해 Y의 cdf를 X의 cdf로 표현 가능해야 하고, cdf가 미분 가능해야 함

    - 2. Chain rule 이용한 change of variable

      - cdf를 pdf의 적분 꼴로 바꾸고, chain rule 통해 change of variable

      - Theorem 6.16) 일반적인 multivariable case

      - Ex 6.17) Bivariate한 경우

      

'다양한 이야기 > MML 정리' 카테고리의 다른 글

선형대수 용어 정리  (0) 2020.10.25
[MML] Chap 5. Vector Calculus  (0) 2020.09.25
[MML] Chap.4 Matrix Decompositions  (0) 2020.09.21
[MML] Chap.3 Analytic Geometry  (0) 2020.09.09
[MML] Chap.2 Linear Algebra  (0) 2020.08.31