이산 확률 분포, discrete probability distribution
결합 확률 분포
\[P(X = x, Y = y) = f(x, y)\] 두 개 이상의 확률변수가 동시에 발생할 때의 확률 분포. 당연히 이산 확률 분포, 연속 확률 분포 모두 결합 확률 분포로 나타낼 수 있다. 어느 지역에 내린 비의 양과 오염도 콜레스테롤의 양과 비만도
음주운전 건수와 사망자수
기댓값
\(E(X) = \Sigma{xf(x)}\) 흔히 구하는 산술 평균을 생각해 보면, 위 식에 \(f(x) = 1/n\)를 대입하면 되는 균등 분포라는 것을 알 수 있다.
이산확률분포
값들이 따로따로 떨어져 있음. 즉 이산적이다. 이산 확률 분포의 확률 질량 함수\(f(x)\)는 이산 값으로 정의되며 따라서 누적 분포 함수\(F(x)\)는 우측 연속인 불연속 그래프로 나타난다. \(F(x)\)가 불연속이기 때문에 미분한다고 \(f(x)\)가 나오는게 아니다. \(F(x) = \Sigma{f(x)}\)
이항분포 Binomial distribution
\[B(n, p) = f(x) = _{n}\mathrm{C}_{x} p^x (1-p)^{n-x}\] \(E(X) = np, \quad Var(X) = npq\) 독립 시행 사건일 때, 전체 중에 몇 번 사건이 발생할 지. 각 직접회로가 불량품일 가능성은 독립적으로 0.05일 때, 집적회로 10개에 포함된 불량품의 수. 예방 주사를 맞은 쥐들 중 60%가 면역이 생길 때, 예방 주사를 맞은 5마리 쥐가 모두 질병에 걸리지 않을 확률
이항 분포의 정규 분포 근사
\(p\)의 값이 0 또는 1에 가깝지 않으면서, \(n \ge 25\) 정도인 이항분포는 정규분포로 근사할 수 있다. 이 때 이항분포는 이산형이고, 정규분포는 연속형이기 때문에 정규분포로 변경하면서 값(또는 구간)에 \(\pm 0.5\) 해준다. \(P(X = b) \to P(b - 0.5 \le X \le b + 0.5)\) * 초과/미만은 이항분포 상태에서 이상/이하로 변경해서 확장해준다.
어떤 약의 5%가 효과가 없다고 할 때, 200개의 약 중에서 10개 미만이 효과가 없을 확률. → n이 너무 커서 이항 분포로 계산하기 곤란할 때는 정규 분포로 근사.
다항분포 Multinomial distribution
각 시행에서 가능한 결과가 두 개 이상이 되면 다항분포. success로 만들 수 있는 문자열 조합의 수. (* 확률 안쓰고 그냥 경우의 수만 쓰는 경우.) \[\frac{7!}{3!\ 1!\ 2!\ 1!}\]
초기하 분포 Hypergeometric distribution
\[h(x; N, n, k) = \frac{_{k}\mathrm{C}_{x}\ \ _{N-k}\mathrm{C}_{n-x}}{_{N}\mathrm{C}_{n}}\] 이 자체가 확률이다. \(p, q\)를 따로 곱하지 않는다. \(N\) 전체 개수 \(k\) 전체 중 성공의 개수 \(n\) 총 뽑는 개수 \(x\) 뽑는 것 중에 성공의 개수 \(E(X) = np, \quad Var(X) = npq \frac{N-n}{N-1} \qquad (p = k/N)\) \(\frac{N-n}{N-1}\)를 유한 모집단 수정계수라 하며, \(N\)이 커질 수록 1에 근사하므로 →\(N\)이 충분히 크면, 초기하분포는 이항분포\(B(n, p)\)로 근사할 수 있다. 5개의 불량품을 포함한 집적회로 100개가 들어 있는 상자에서 집적회로 4개를 선정할 때, 불량품 2개가 포함될 확률.
음이항 분포 Negative binomial distribution
k번 성공할 때 까지 독립적으로 반복 시행한 횟수 \(X\)의 확률분포. k번째는 무조건 성공이니 \(p\)이고, k-1번째까지는 x-1번 성공, 나머지 실패이므로 \[X \sim NB(k, p) = b^*(x;k,p) = {x-1 \choose r-1}p^{k} q^{x-k}\] \(E[X] = \frac{k}{p}, \quad Var(X) = E[X]\frac{q}{p}\)
7선 4승 경기에서 k번만에 승리할 확률.
기하 분포를 이용해 음이항 분포의 평균 구하기
기댓값 공식 이용하는게 아니라, 기하 분포를 이용해도 평균을 구할 수 있다. \(X_i\)가 기하 분포를 따른다면 \(E(X) = E(X_1) + E(X_2) + \cdots + E(X_k) = \frac{k}{p}\) k번째 성공이 일어나기 까지의 수행횟수의 기댓값. k번째 성공까지 평균 몇 번 수행해야 하는가?를 의미한다. 각각의 수행이 독립이므로 1번째 성공까지의 수행과 그 이후부터 2번째 성공까지의 수행도 독립이다. (무기억성 1) 1번째 성공까지의 수행 횟수(\(\frac{1}{p}\)) + 그 이후부터 그 다음 성공까지의 수행횟수(\(\frac{1}{p}\)) + …
기하 분포 Geometric distribution
처음 성공할 때 까지 독립적으로 반복 시행한 횟수 \(X\)의 확률분포. (연속 확률 분포에서는 이게 지수 분포.) x-1번째까지는 모두 실패, x번째에 성공이므로 \[X \sim G(p) = pq^{x-1}\] 누적분포함수는 등비급수 정리해보면, \(P(X \leq k) = 1-q^k\)
\(E[X] = \frac{1}{p}, \quad Var(X) = \frac{q}{p^2}\) 평균적으로 몇 번째에 처음 성공하겠는가? e.g., 주사위에서 1이 나올 때 까지 평균 몇 번 던져야 하겠는가? p=1/6이고 얼핏 생각해보면 6가지 경우의 수이니 3번. 인 것 같지만 실패만 6번 이상 하는 경우도 있다는 것을 생각해 보면 3번은 너무 작은 쪽으로 치우친 값. 평균 6번은 던져야 한다.
x년 이내에 10m를 초과하는 파도가 찾아올 확률.
기하분포의 무기억성
\[P(X>n+m|X>n) = P(X>m)\]
- 처음 성공할 때 까지 반복 시행 횟수와, 그 이후 다시 처음 성공할 때 까지 반복 시행 횟수는 독립이고 항등분포이다.
- 각 시행은 독립이므로, 실패를 많이 했다고 해서 앞으로 성공할 가능성이 달라지지 않는다. 어떤 제품을 이미 n시간 사용한 상태에서 앞으로 그 제품을 m시간 더 사용할 수 있을 확률은 최초 제품을 m시간 사용할 수 있을 확률과 같다는 것이다.
2년 이후로 첫 번째로 10m를 초과하는 파도가 찾아온다고 할 때, 이후 5년째에 다시 10m를 초과하는 파도가 올 확률. = 3년째에 10m를 초과하는 파도가 찾아올 확률.
포아송 분포 Poisson distribution
주어진 영역(e.g., 단위 시간) 내에서 사건이 발생한 횟수에 대한 확률분포. 1시간 동안 걸려온 전화 횟수 어떤 지역의 1일 교통사고 사망자 수 특정 시간 동안 톨게이트를 통과한 자동차 수 하루 동안 고장나는 기계의 수 음료수 1ml 당 박테리아의 수 1초 동안 방출된 방사능 입자의 수 소설책 한 면 당 오탈자의 수. 가 평균 몇 개 일지, 특정 값보다 크거나 작을 확률은 얼마인지.
근사 포아송 과정 Approximate Poisson Process
주어진 연속 구간에서 발생하는 사건이 다음 조건을 만족하면 그 사건은 모수 \(m > 0\)을 갖는 근사 포아송 과정을 따른다.
- 구간의 길이가 \(h\)인 충분히 작은 길이의 구간에서 정확히 하나의 사건이 발생할 확률은 거의 \(mh\)다.
- 각각의 구간에서 발생하는 사건들은 서로 독립이다.
- 충분히 작은 길이의 구간에서 사건이 두 번 이상 발생할 확률은 거의 0이다.
→조건을 만족한다면 각 구간에서 사건이 발생하고, 발생하지 않고를 종합할 수 있다. 길이가 1인 구간에서 발생하는 사건의 수를 확률변수 \(X\)라 하고 이 구간을 \(n\)등분 하면, \(P(X = x)\)는 \(n\)개의 작은 구간 중 \(x\)개의 구간에서 사건이 발생할 확률로 근사할 수 있다. 이 때 각각의 작은 구간에서 사건이 발생할 확률이 \(p = \frac{m}{n}\)이고, 각 작은 구간에서 일어나는 사건은 베르누이 시행이므로 \(B(n, \frac{m}{n})\)인 이항 분포로 생각할 수 있다. \[P(X = x) = {n \choose x} \left( \frac{m}{n} \right)^x \left( 1-\frac{m}{n} \right)^{n-x}\] \(n \to \infty\)로 보내고 식 정리하면 다음과 같은 결과를 얻을 수 있다. ( * 정리하면서 \(\lim (1+\frac{1}{n})^n = e\) 사용해야 한다. )
포아송 분포의 확률질량함수
\[p(x; m) = \frac{m^x}{x!} e^{-m}\] \(m (= \lambda t)\)는 단위 시간 동안 평균 발생 횟수. 확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 포아송 분포를 따른다고 말한다. \(E[X] = m, \quad Var(X) = m\) (* 식 정리해서 Taylor expansion 사용하면 시그마 사라진다.)