N-gram Language Model
Language Model 언어 모델 Language Model 이란 단어 시퀀스에 확률을 할당하는 모델이다. (단어 시퀀스는 단어들로 이루어진 시퀀스, 즉 문장을 말한다.) 단어 시퀀스에 확률을 할당하기 위해 사용되는 방법은 ① 이전 단어들이 주어졌을 때 다음에 올 단어를 예측, ② 주변 (양쪽) 단어들로부터 가운데 단어를 예측하는 방법이 주로 사용된다. 이번 포스팅에서는 ① 이전 단어들($w_1, w_2, …, w_{n-1}$)이 주어졌을 때 다음에 올 단어($w_n$)를 예측하는 언어 모델에 대해서 이야기한다. 이 방법을 확률로 표현하면 아래와 같다. $$ P (w_n|w_1, w_2, w_3,..., w_{n-1}) $$ 단어 시퀀스 $W$의 확률은 아래와 같다. $$ P(W) = P(w_1, w..