Experiment and trial
가능한 결과들이 미리 정해져있고 무한히 반복가능한 과정을 확률실험(experiment) 또는 시행(trial)이라고 합니다.
sample space & event
어떤 임의의 시행을 가정해본다고 합시다. 시행으로부터 나올 수 있는 모든 결과들의 집합을 우리는 표본공간(sample space)라고 합니다. 사건은 표본공간이라는 집합의 부분집합입니다. 여러개의 원소(결과)들이 모여서 하나의 사건이 될 수 있으며 단 하나의 원소로도 사건이 될 수 있습니다. 시행의 결과가 어떠한 사건(부분집합)에 속하는 경우 우리는 “~인 사건이 발생했다!”라고 표현합니다.
random variable
확률변수는 확률실험 또는 시행으로부터 나올 수 있는 결과를 대신 나타내는 변수입니다. 시행을 하기전까지는 그 값이 정해지지 않고 확률분포만 존재하며 시행을 하면 확률분포에 의해서 결과가 정해지고 실수가 부여됩니다. 수학적으로는 표본공간의 원소를 정의역으로 하여 실수를 대응시키는 “함수”입니다.
probability distribution(function)
확률분포(확률함수)란 확률변수가 취할 수 있는 실수값에 각각의 실수를 취할 가능성인 확률 또는 확률밀도를 대응시키는 함수입니다.
예시
동전을 두번 던지는 시행을 3번 반복하여 크기가 3인 표본을 얻었다고 가정해봅시다. 동전의 앞면을 H(head)라 하고 뒷면을 T(tail)이라고 할 때 표본공간은 다음과 같습니다.
\[\Omega = \{HH,HT,TH,TT\}\]
표본공간에 있는 결과들 중에서 동전의 앞면이 1개라도 있는 경우 사건A 동전의 앞면이 하나도 없는 경우를 사건B라 합시다. 사건A와 B는 다음과 같습니다.
\[A = \{HH,HT,TH\},B=\{TT\}\]
\(X_1,X_2,X_3\)는 각각 첫번째 두번째 세번째 시행의 결과를 나타내는 변수이며 확률분포는 다음과 같다고 합시다.
위의 확률분포를 반영하여 시행의 결과가 결정됩니다. 시행으로부터 얻은 표본은 \((1,1,0)\)이며 \(X_1 = 1 ,X_2 =1 ,X_3 =0\) 입니다. 시행의 결과 얻은 실제로 관찰된 표본은 \((x_1,x_2,x_3)\) 이런식으로 각각의 원소를 소문자인 미지수로 표현할 수도 있습니다.
i.i.d & randomsample & realization
위의 동전던지기 실험에서 각각의 확률변수는 이전에 던진 결과가 이후에 던지는 결과에 영향을 미치지 않고(즉,확률분포에 영향을 미치지 않고) 동일한 분포를 따르는 확률분포였습니다. 이와 여러개의 확률변수가 서로간에 독립이며 동일한 분포를 따르는 확률변수들을 Independent and identically distributed random variables라고 합니다. 위의 분포는 베르누이 분포를 따르므로 다음과 같이 표현할 수 있습니다.
\[X_1,X_2,X_3 \overset{i.i.d}{\sim} \text{Bernoulli(p = 0.7)}\]
randomsample은 i.i.d인 여러개의 확률변수의 모음입니다. \(X1,X2,X3\)를 말합니다.
realization은 관찰된 결과 각각을 말합니다. \(x1\)도 realization \(x2\)도 realization \(x3\)도? 모두 realization입니다. \(x1,x2,x3\)를 모아서 확률변수 \(X_1,X_2,X_3\)의 realizations이라고 합니다.
참고자료
wikipedia - Experiment (probability theory)
StackExchange - What is the difference between random variable and random sample?
wikipedia - i.i.d
정보통신기술용어해설