연속 확률 분포, continuous probability distribution
연속 확률 분포
값들이 연속적이다. 연속 확률 분포의 확률 밀도 함수\(f(x)\)는 연속적인 값, 즉 일반적으로 생각하는 함수로 정의되며 누적 분포 함수는 연속 그래프로 나타난다. \(F(x) = \int_{-\infty}^{x} f(u)\, du\)
연속 확률 분포는 logistic distribution이라고도 한다. 연속 확률 분포의 누적 분포 함수는 logistic function 이 된다. (모양을 생각해보면 S곡선이다.) 이 logistic function이 logistic regression과 feedforward neural network에서 등장하는 그 것이다.
균등 분포 Uniform distribution
주어진 구간에서 발생 확률이 모두 동일할 때. \[f(x) = \begin{cases} \frac{1}{b-a} & (a \leq x \leq b) \ 0 & (x \le a \quad or\quad x \ge b) \end{cases} \] \(E(X) = \frac{a+b}{2}, \qquad Var(X) = \frac{(b-a)^2}{12}\) 어떤 사람이 7시에서 7시 30분 사이의 임의의 시간에 지하철 역에 도착한다고 할 때. 모뎀에 들어오는 신호의 위상이 0~2π에서 균등하게 분포할 때.
지수 분포 Exponential distribution
포아송 분포를 따라 발생하는 사건에 대해 사건이 처음 발생할 때 까지 걸린 시간 \(X\)의 확률 분포. (이산 확률 분포에서는 이게 기하 분포.) \[f(x; \lambda) = \lambda e^{-\lambda x} \qquad , x > 0\] \(x\)는 사건이 발생할 때 까지의 단위 시간, \(\lambda\)는 단위 시간 내 평균 발생 횟수. 포아송 분포를 따라 1분 당 평균 10개의 입자가 발사되면 \(x\)의 단위는 1분이고, \(\lambda = 10\)이다. \(P(X < x) = F(x) = 1 - e^{-\lambda x}\) \(\mu=\frac{1}{\lambda}, \quad \sigma^2=\frac{1}{\lambda^2}\) 지진이 발생할 때 까지의 시간 새로운 전쟁이 발발할 때 까지의 시간 부품이 고장날 때 까지의 시간 기대 시간, 수명 시간 등등.
지수 분포의 무기억성
기하 분포처럼 무기억성을 가지고 있다.
감마 분포 Gamma distribution
포아송 분포를 따라 발생하는 사건에 대해 \(\alpha\)번째 사건이 발생할 때 까지 걸린 시간 \(X\)의 확률 분포. (이산 확률 분포에서는 이게 음이항 분포.) \(\beta(= \frac{1}{\lambda})\)는 단위 시간 당 평균 수행 횟수의 역수. \[f(x) = \frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac{x}{\beta}} \qquad , x > 0\] \(E(X) = \alpha\beta, \quad Var(X) = \alpha\beta^2\)
감마 함수
\[\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha -1}e^{-x}\, dx\] 다항/지수 라서 무조건 수렴하게 되어있다. 풀려면 부분적분. 감마 함수의 성질
\(\Gamma(n) = (n-1)!\) \(\Gamma(1) = 1\) \(\Gamma(1/2) = \sqrt{\pi}\)
지수 분포를 이용해 감마 분포의 평균 구하기
\(\alpha = 1\)이면, \(\lambda = \frac{1}{\beta}\)인 지수 분포가 된다. 즉, 지수 분포는 감마 분포의 특별한 케이스로 볼 수 있다. 이산 확률 분포에서 기하 분포로 음이항 분포의 평균을 구한 것 처럼, 지수 분포를 이용해 감마 분포의 평균을 구할 수 있다. \(X_i\)가 지수 분포를 따른다면 \(E(X) = E(X_1) + E(X_2) + \cdots + E(X_n) = \frac{n}{\lambda}\)
정규 분포 Normal distribution
\[f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\] 확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 정규분포를 따른다고 하며 \(N(\mu, \sigma^2)\)으로 표시한다. \(Z = \frac{X-\mu}{\sigma}\)로 치환하면 표준 정규 분포가 된다. \(N(0, 1)\)로 표시한다. 간단한 경우 보통 굳이 치환 안하고 그냥 \(+n\sigma\)이면 Z에서는 \(+n\)이라는 점을 이용한다.
68-95-99.7 rule ( three-sigma rule )
항상 그런 것은 아니고, 정규 분포에 적용되는 경험적인 규칙(empirical rule)이다.
표준 정규 분포 표 ( Z 분포 )
https://en.wikipedia.org/wiki/Standard_normal_table
T 분포
\(Z \text{~} N(0, 1), V \text{~} \chi^2(n)\) 일 때, t-분포는 \[T = \frac{Z}{\sqrt{V/n}}\] * \(\chi^2\)(카이제곱분포)는 표본 분산에 대한 분포. * t-분포는 표본 평균에 대한 분포. 모집단의 분포가 근사적인 정규분포이고, 표본의 크기가 30보다 작을 때는 모평균 추정에 t 분포를 사용한다.