최대우도법(Maximum Likelihood Estimation, MLE)은 파라미터 $ \theta $ 로 구성된 어떠한 확률밀도함수 $ P(x|\theta) $ 에서 관측된 표본의 집합을 $ x = (x_1, ..., x_n) $ 이라고 할 때, 이 표본들을 통해서 파라미터 $ \theta $ 를 추정하는 방법이다. 쉽게 말하면, 데이터를 관찰해서 관찰한 데이터가 추출되었을 것이라고 예상되는 분포에 맞게 현재 분포의 파라미터를 업데이트하는 방법이다.
[그림-1]과 은 분포에 대한 likelihood를 먼저 이야기해보자. Likelihood는 지금 주어진 데이터(-3, -2, -1, 0, 1, 2, 3) 에 대한 확률분포의 값들을 모두 곱한 것이라고 생각할 수 있다. 각 데이터에 대한 확률분포의 값을 곱하는 이유는 각 데이터들의 추출이 독립적으로 일어나는 사건이기 때문이다. 이렇게 말로 풀어서 설명한 likelihood를 수식으로 표현하면 [식-1]과 같이 표현할 수 있다.
각 데이터에 대한 확률분포의 값을 모두 곱했을 때 가장 큰 값이 나와야지 우리가 구하고자 하는 확률분포와 현재 예측한 확률분포가 가장 유사하다고 볼 수 있다. 그러므로, 우리는 현재 가지고 있는 데이터 $ x = (x_1, ..., x_n) $ 에 대해서 [식-1]의 결과가 가장 크도록 파라미터 $ \theta $ 를 구하면 된다. 보통은 [식-1]에 log 를 취한 [식-2]와 같이 표현한다.
결국, 우리가 구하고싶은 최적의 파라미터는 [식-2]의 log-likelihood를 최대화하는 $ \theta $ 를 찾는 것이고, 그러기 위해서는 [식-2]를 $ \theta $ 에 대해서 미분해주면 된다.
사실 더 복잡한 내용들이 있는데, 내가 이해를 못했을 뿐더러 이정도 만으로도 기본적인 내용을 이해하는데 충분할거같다.
많은 내용은 <공돌이의 수학정리노트> 를 참고했습니다.
'대학원 이야기 > 관련 공부' 카테고리의 다른 글
[요즘 보고 있는] Universal Domain Adaptation (0) | 2022.09.04 |
---|---|
DBSCAN 이해해보기 (0) | 2022.07.19 |
정말 간단한 Transformer의 구조/동작 과정 정리 (1) | 2020.12.01 |
Bayes' Rule (베이즈 정리) (수정 중) (0) | 2020.08.26 |
댓글