Post

이산 확률 분포, discrete probability distribution

결합 확률 분포

\[P(X = x, Y = y) = f(x, y)\] 두 개 이상의 확률변수가 동시에 발생할 때의 확률 분포. 당연히 이산 확률 분포, 연속 확률 분포 모두 결합 확률 분포로 나타낼 수 있다. 어느 지역에 내린 비의 양과 오염도 콜레스테롤의 양과 비만도

음주운전 건수와 사망자수

기댓값

\(E(X) = \Sigma{xf(x)}\) 흔히 구하는 산술 평균을 생각해 보면, 위 식에 \(f(x) = 1/n\)를 대입하면 되는 균등 분포라는 것을 알 수 있다.

이산확률분포

값들이 따로따로 떨어져 있음. 즉 이산적이다. 이산 확률 분포의 확률 질량 함수\(f(x)\)는 이산 값으로 정의되며 따라서 누적 분포 함수\(F(x)\)는 우측 연속인 불연속 그래프로 나타난다. \(F(x)\)가 불연속이기 때문에 미분한다고 \(f(x)\)가 나오는게 아니다. \(F(x) = \Sigma{f(x)}\)

이항분포 Binomial distribution

\[B(n, p) = f(x) = _{n}\mathrm{C}_{x} p^x (1-p)^{n-x}\] \(E(X) = np, \quad Var(X) = npq\) 독립 시행 사건일 때, 전체 중에 몇 번 사건이 발생할 지. 각 직접회로가 불량품일 가능성은 독립적으로 0.05일 때, 집적회로 10개에 포함된 불량품의 수. 예방 주사를 맞은 쥐들 중 60%가 면역이 생길 때, 예방 주사를 맞은 5마리 쥐가 모두 질병에 걸리지 않을 확률

이항 분포의 정규 분포 근사

\(p\)의 값이 0 또는 1에 가깝지 않으면서, \(n \ge 25\) 정도인 이항분포는 정규분포로 근사할 수 있다. 이 때 이항분포는 이산형이고, 정규분포는 연속형이기 때문에 정규분포로 변경하면서 값(또는 구간)에 \(\pm 0.5\) 해준다. \(P(X = b) \to P(b - 0.5 \le X \le b + 0.5)\) * 초과/미만은 이항분포 상태에서 이상/이하로 변경해서 확장해준다.

어떤 약의 5%가 효과가 없다고 할 때, 200개의 약 중에서 10개 미만이 효과가 없을 확률. → n이 너무 커서 이항 분포로 계산하기 곤란할 때는 정규 분포로 근사.

다항분포 Multinomial distribution

각 시행에서 가능한 결과가 두 개 이상이 되면 다항분포. success로 만들 수 있는 문자열 조합의 수. (* 확률 안쓰고 그냥 경우의 수만 쓰는 경우.) \[\frac{7!}{3!\ 1!\ 2!\ 1!}\]

초기하 분포 Hypergeometric distribution

\[h(x; N, n, k) = \frac{_{k}\mathrm{C}_{x}\ \ _{N-k}\mathrm{C}_{n-x}}{_{N}\mathrm{C}_{n}}\] 이 자체가 확률이다. \(p, q\)를 따로 곱하지 않는다. \(N\) 전체 개수 \(k\) 전체 중 성공의 개수 \(n\) 총 뽑는 개수 \(x\) 뽑는 것 중에 성공의 개수 \(E(X) = np, \quad Var(X) = npq \frac{N-n}{N-1} \qquad (p = k/N)\) \(\frac{N-n}{N-1}\)를 유한 모집단 수정계수라 하며, \(N\)이 커질 수록 1에 근사하므로 \(N\)이 충분히 크면, 초기하분포는 이항분포\(B(n, p)\)로 근사할 수 있다. 5개의 불량품을 포함한 집적회로 100개가 들어 있는 상자에서 집적회로 4개를 선정할 때, 불량품 2개가 포함될 확률.

음이항 분포 Negative binomial distribution

k번 성공할 때 까지 독립적으로 반복 시행한 횟수 \(X\)의 확률분포. k번째는 무조건 성공이니 \(p\)이고, k-1번째까지는 x-1번 성공, 나머지 실패이므로 \[X \sim NB(k, p) = b^*(x;k,p) = {x-1 \choose r-1}p^{k} q^{x-k}\] \(E[X] = \frac{k}{p}, \quad Var(X) = E[X]\frac{q}{p}\)

7선 4승 경기에서 k번만에 승리할 확률.

기하 분포를 이용해 음이항 분포의 평균 구하기

기댓값 공식 이용하는게 아니라, 기하 분포를 이용해도 평균을 구할 수 있다. \(X_i\)가 기하 분포를 따른다면 \(E(X) = E(X_1) + E(X_2) + \cdots + E(X_k) = \frac{k}{p}\) k번째 성공이 일어나기 까지의 수행횟수의 기댓값. k번째 성공까지 평균 몇 번 수행해야 하는가?를 의미한다. 각각의 수행이 독립이므로 1번째 성공까지의 수행과 그 이후부터 2번째 성공까지의 수행도 독립이다. (무기억성 1) 1번째 성공까지의 수행 횟수(\(\frac{1}{p}\)) + 그 이후부터 그 다음 성공까지의 수행횟수(\(\frac{1}{p}\)) + …

기하 분포 Geometric distribution

처음 성공할 때 까지 독립적으로 반복 시행한 횟수 \(X\)의 확률분포. (연속 확률 분포에서는 이게 지수 분포.) x-1번째까지는 모두 실패, x번째에 성공이므로 \[X \sim G(p) = pq^{x-1}\] 누적분포함수는 등비급수 정리해보면, \(P(X \leq k) = 1-q^k\)

\(E[X] = \frac{1}{p}, \quad Var(X) = \frac{q}{p^2}\) 평균적으로 몇 번째에 처음 성공하겠는가? e.g., 주사위에서 1이 나올 때 까지 평균 몇 번 던져야 하겠는가? p=1/6이고 얼핏 생각해보면 6가지 경우의 수이니 3번. 인 것 같지만 실패만 6번 이상 하는 경우도 있다는 것을 생각해 보면 3번은 너무 작은 쪽으로 치우친 값. 평균 6번은 던져야 한다.

x년 이내에 10m를 초과하는 파도가 찾아올 확률.

기하분포의 무기억성

\[P(X>n+m|X>n) = P(X>m)\]

  1. 처음 성공할 때 까지 반복 시행 횟수와, 그 이후 다시 처음 성공할 때 까지 반복 시행 횟수는 독립이고 항등분포이다.
  2. 각 시행은 독립이므로, 실패를 많이 했다고 해서 앞으로 성공할 가능성이 달라지지 않는다. 어떤 제품을 이미 n시간 사용한 상태에서 앞으로 그 제품을 m시간 더 사용할 수 있을 확률은 최초 제품을 m시간 사용할 수 있을 확률과 같다는 것이다.

2년 이후로 첫 번째로 10m를 초과하는 파도가 찾아온다고 할 때, 이후 5년째에 다시 10m를 초과하는 파도가 올 확률. = 3년째에 10m를 초과하는 파도가 찾아올 확률.

포아송 분포 Poisson distribution

주어진 영역(e.g., 단위 시간) 내에서 사건이 발생한 횟수에 대한 확률분포. 1시간 동안 걸려온 전화 횟수 어떤 지역의 1일 교통사고 사망자 수 특정 시간 동안 톨게이트를 통과한 자동차 수 하루 동안 고장나는 기계의 수 음료수 1ml 당 박테리아의 수 1초 동안 방출된 방사능 입자의 수 소설책 한 면 당 오탈자의 수. 가 평균 몇 개 일지, 특정 값보다 크거나 작을 확률은 얼마인지.

근사 포아송 과정 Approximate Poisson Process

주어진 연속 구간에서 발생하는 사건이 다음 조건을 만족하면 그 사건은 모수 \(m > 0\)을 갖는 근사 포아송 과정을 따른다.

  1. 구간의 길이가 \(h\)인 충분히 작은 길이의 구간에서 정확히 하나의 사건이 발생할 확률은 거의 \(mh\)다.
  2. 각각의 구간에서 발생하는 사건들은 서로 독립이다.
  3. 충분히 작은 길이의 구간에서 사건이 두 번 이상 발생할 확률은 거의 0이다.

조건을 만족한다면 각 구간에서 사건이 발생하고, 발생하지 않고를 종합할 수 있다. 길이가 1인 구간에서 발생하는 사건의 수를 확률변수 \(X\)라 하고 이 구간을 \(n\)등분 하면, \(P(X = x)\)는 \(n\)개의 작은 구간 중 \(x\)개의 구간에서 사건이 발생할 확률로 근사할 수 있다. 이 때 각각의 작은 구간에서 사건이 발생할 확률이 \(p = \frac{m}{n}\)이고, 각 작은 구간에서 일어나는 사건은 베르누이 시행이므로 \(B(n, \frac{m}{n})\)인 이항 분포로 생각할 수 있다. \[P(X = x) = {n \choose x} \left( \frac{m}{n} \right)^x \left( 1-\frac{m}{n} \right)^{n-x}\] \(n \to \infty\)로 보내고 식 정리하면 다음과 같은 결과를 얻을 수 있다. ( * 정리하면서 \(\lim (1+\frac{1}{n})^n = e\) 사용해야 한다. )

포아송 분포의 확률질량함수

\[p(x; m) = \frac{m^x}{x!} e^{-m}\] \(m (= \lambda t)\)는 단위 시간 동안 평균 발생 횟수. 확률변수 X의 확률밀도함수가 위와 같을 때, 확률변수 X는 포아송 분포를 따른다고 말한다. \(E[X] = m, \quad Var(X) = m\) (* 식 정리해서 Taylor expansion 사용하면 시그마 사라진다.)

This post is licensed under CC BY 4.0 by the author.