엄범


연속 확률 분포

값들이 연속적이다.

연속 확률 분포의 확률 밀도 함수\\(f(x)\\)는 연속적인 값, 즉 일반적으로 생각하는 함수로 정의되며

누적 분포 함수는 연속 그래프로 나타난다.

\\(F(x) = \int_{-\infty}^{x} f(u)\, du\\)

연속 확률 분포는 logistic distribution이라고도 한다. 연속 확률 분포의 누적 분포 함수는 logistic function이 된다.  (모양을 생각해보면 S곡선이다.)

이 logistic function이 logistic regression과 feedforward neural network에서 등장하는 그 것이다.


균등 분포 Uniform distribution

주어진 구간에서 발생 확률이 모두 동일할 때.
\\[f(x) = \begin{cases} \frac{1}{b-a} & (a \leq x \leq b) \\ 0 & (x \le a \quad or\quad  x \ge b) \end{cases} \\]
\\(E(X) = \frac{a+b}{2}, \qquad Var(X) = \frac{(b-a)^2}{12}\\)
어떤 사람이 7시에서 7시 30분 사이의 임의의 시간에 지하철 역에 도착한다고 할 때.
모뎀에 들어오는 신호의 위상이 0~2π에서 균등하게 분포할 때.


지수 분포 Exponential distribution

포아송 분포를 따라 발생하는 사건에 대해 사건이 처음 발생할 때 까지 걸린 시간 \\(X\\)의 확률 분포. 
(이산 확률 분포에서는 이게 기하 분포.)
\\[f(x; \lambda) = \lambda e^{-\lambda x} \qquad , x > 0\\]
\\(x\\)는 사건이 발생할 때 까지의 단위 시간, \\(\lambda\\)는 단위 시간 내 평균 발생 횟수.
포아송 분포를 따라 1분 당 평균 10개의 입자가 발사되면 \\(x\\)의 단위는 1분이고, \\(\lambda = 10\\)이다.

\\(P(X < x) = F(x) = 1 - e^{-\lambda x}\\)
\\(\mu=\frac{1}{\lambda}, \quad \sigma^2=\frac{1}{\lambda^2}\\)
지진이 발생할 때 까지의 시간
새로운 전쟁이 발발할 때 까지의 시간
부품이 고장날 때 까지의 시간
기대 시간, 수명 시간 등등.


지수 분포의 무기억성

기하 분포처럼 무기억성을 가지고 있다. 

감마 분포 Gamma distribution

포아송 분포를 따라 발생하는 사건에 대해 \\(\alpha\\)번째 사건이 발생할 때 까지 걸린 시간 \\(X\\)의 확률 분포. 
(이산 확률 분포에서는 이게 음이항 분포.)
\\(\beta(= \frac{1}{\lambda})\\)는 단위 시간 당 평균 수행 횟수의 역수.
\\[f(x) = \frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac{x}{\beta}} \qquad , x > 0\\]
\\(E(X) = \alpha\beta, \quad Var(X) = \alpha\beta^2\\)

감마 함수

\\[\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha -1}e^{-x}\, dx\\]
다항/지수 라서 무조건 수렴하게 되어있다. 풀려면 부분적분.

감마 함수의 성질

\\(\Gamma(n) = (n-1)!\\)

\\(\Gamma(1) = 1\\)
\\(\Gamma(1/2) = \sqrt{\pi}\\)

지수 분포를 이용해 감마 분포의 평균 구하기

\\(\alpha = 1\\)이면, \\(\lambda = \frac{1}{\beta}\\)인 지수 분포가 된다. 즉, 지수 분포는 감마 분포의 특별한 케이스로 볼 수 있다.
이산 확률 분포에서 기하 분포로 음이항 분포의 평균을 구한 것 처럼, 지수 분포를 이용해 감마 분포의 평균을 구할 수 있다. \\(X_i\\)가 지수 분포를 따른다면
\\(E(X) = E(X_1) + E(X_2) + \cdots + E(X_n) = \frac{n}{\lambda}\\)

정규 분포 Normal distribution

\\[f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\]
확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 정규분포를 따른다고 하며 \\(N(\mu, \sigma^2)\\)으로 표시한다.
\\(Z = \frac{X-\mu}{\sigma}\\)로 치환하면 표준 정규 분포가 된다. \\(N(0, 1)\\)로 표시한다.
간단한 경우 보통 굳이 치환 안하고 그냥 \\(+n\sigma\\)이면 Z에서는 \\(+n\\)이라는 점을 이용한다.

68-95-99.7 rule ( three-sigma rule )

항상 그런 것은 아니고, 정규 분포에 적용되는 경험적인 규칙(empirical rule)이다.


표준 정규 분포 표 ( Z 분포 )


T 분포

\\(Z \text{~} N(0, 1), V \text{~} \chi^2(n)\\) 일 때, t-분포는
\\[T = \frac{Z}{\sqrt{V/n}}\\]

* \\(\chi^2\\)(카이제곱분포)는 표본 분산에 대한 분포.

* t-분포는 표본 평균에 대한 분포.

모집단의 분포가 근사적인 정규분포이고, 표본의 크기가 30보다 작을 때는 모평균 추정에 t 분포를 사용한다.