카테고리 분포에 대한 정리

카테고리 분포

카테고리분포는 시행의 한번의 시행(또는 실험)으로부터 나올 수 있는 사건이 K개인 확률분포를 모델링할때 쓰이며 다음과 같습니다.
\[\begin{aligned} &Cat({\bf{x};\bf{\mu}}) = \begin{cases} \mu_1\, (\text{if } x = (1,0,0,0,\dots,1)) \\ \mu_2\, (\text{if } x = (0,1,0,0,\dots,1)) \\ \mu_3\, (\text{if } x = (0,0,1,0,\dots,1)) \\ \vdots \\ \mu_k\, (\text{if } x = (0,0,0,0,\dots,1)) \\ \end{cases} \\ &\text{where, }x = (x_1,x_2,\dots,x_K),\mu = (\mu_1,\mu_2,\dots,\mu_k) \end{aligned}\]

카테고리분포의 변수\(\bf{X}\)는 K개의 원소를 가지는 원핫인코딩(one-hot encoded)된 벡터이며 각원소는 indicate number(어떤 클래스에 속하는지 나타내는)인 1또는0입니다. 모수(벡터)\(\mu\)도 K개의 원소를 가지며 각각의 원소는 카테고리 확률분포로부터 대응하는 결과값(원핫벡터)에 대한 확률입니다. 즉,각각의 원핫벡터가 표본추출될 가능성(확률)을 알려줍니다.

위와 같은 사실로부터 다음과 같은 4가지의 제약조건이 존재합니다.

\(\mu_i\)는 원핫벡터가 나올 확률입니다.

\[0\leq\mu_i\leq1\]

확률의 합은 1입니다.

\[\sum_{i=1}^{K}\mu_i = 1\]

원핫벡터의 각 원소는 indicate number인 1또는 0입니다.

\[\begin{aligned} x_i = \begin{cases} 0\\ 1 \end{cases} \end{aligned}\]

원핫벡터의 모든 원소의 합은 1입니다. \[\sum_{i=1}^{K}x_i = 1\]