네이버 부스트캠프 AI Tech/Deep Learning Basics

[부스트캠프 AI Tech] 통계학 맛보기

중앙백 2022. 1. 22. 18:19
  • 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이지만 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아내는 것은 불가능. 근사적으로 확률분포를 추정할 뿐.
  • 데이터가 특정 확률분포를 따른다고 선험적으로 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론이라 한다.
  • 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수적(nonparametric) 방법론이라 부른다. 기계학습의 많은 방법론은 비모수 방법론에 속함.

출처 : 부스트캠프 AI Tech

  • 예를들어 정규분포를 가정하면 모수는 평균, 분산이고 이를 추정하는 통계량은 아래와 같다.

  • 통계량의 확률분포를 표집분포(sampling distribution)이라 하고 N이 커지면 정규분포를 따른다.

표집분포가 따르는 정규분포

 

최대가능도 추정법(최대우도법, maximum likelihood estimation, MLE)
  • x는 확률변수 X가 취할 수 있는 값, θ는 확률밀도함수의 모수라고 할 때 확률변수 X에 대한 확률질량함수 혹은 확률밀도함수를 f(x ; θ)라고 하자. θ는 이미 알고 있는 상수 벡터이고 x가 변수 벡터가 된다.
  • 반대로 θ를 변수 벡터로 두고 x를 상수 벡터로 생각한다면 가능도함수(likelihood function) L(θ|x)라 한다.
  • 일반적으로 표본의 수 x가 여러개 주어지고 이들은 모두 독립적이므로 아래와 같이 표현된다.
    계산의 편의성을 위해 로그를 취해 로그가능도함수를 이용
  • θ값이 모수의 추정값이 될 때, 위 식의 값이 가장 커진다는 게 최대가능도 추정법이다.
  • 최대값을 찾기 위해 θ에 대한 편미분 값이 0인 지점을 찾는다.
  • 딥러닝 모델의 가중치를 θ로 표현할 때 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수를 모델링한다. 원핫 벡터로 표현한 정답레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도 최적화.

  • 데이터 공간에 두개의 확률분포가 있을 때 두 확률분포 사이의 거리는 다음의 함수를 이용해 계산
    1. 총변동거리(Total Variation Distance, TV)
    2. 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL)
    3. 바슈타인 거리(Wasserstein Distance)

 

 

베이즈 통계학
  • 베이즈 정리 : D라는 새로운 정보가 주어졌을 때 P(θ)로부터 P(θ|D)를 계산하는 방법을 제공.

  • 조건부 확률의 시각화
     - 정밀도(Precision) : P(θ|D) = TP / (TP + FP)

조건부 확률의 시각화

  • 조건부확률은 유용한 통계적 해석을 제공하지만 인과관계 추론에 함부로 사용하면 안된다.
  • 인과관계를 알아내기 위해서는 중첩요인 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
댓글수0