Биномиальное распределение

Материал из MachineLearning.

(Различия между версиями)

Версия 12:09, 4 ноября 2009

Содержание

1 Определение
2 Основные свойства
3 Асимптотические приближения при больших n
4 Литература
5 Ссылки

Определение

Биномиальное распределение - дискретное распределение вероятностей случайной величины $X$ , принимающей целочисленные значения $k=0,1,\ldots,n$ с вероятностями:

$P(X=k)=C_n^kp^k(1-p)^{n-k}$ .

Данное распределение характеризуется двумя параметрами: целым числом $n>0$ , называемым числом испытаний, и вещественным числом $p$ , $0\le p\le 1$ , называемом вероятностью успеха в одном испытании. Биномиальное распределение - одно из основных распределений вероятностей, связанных с последовательностью независимых испытаний. Если проводится серия из $n$ независимых испытаний, в каждом из которых может произойти "успех" с вероятностью $p$ , то случайная величина, равная числу успехов во всей серии, имеет указанное распределение. Эта величина также может быть представлена в виде суммы $X=X_1+\cdots+X_n$ независимых слагаемых, имеющих распределение Бернулли.

Основные свойства

Характеристическая функция $\phi(t)=(1+p(e^{it}-1))^n$

Моменты:

Математическое ожидание: $MX=np$
Дисперсия: $DX=np(1-p)$
Асимметрия: $\gamma_1=\frac{1-2p}{\sqrt{np(1-p)}}$ ; при $p=0.5$ распределение симметрично относительно центра $n/2$

Асимптотические приближения при больших n

Если значения $n$ велики, то непосредственное вычисление вероятностей событий, связанных с данной случайной величиной, технически затруднительно. В этих случаях можно использовать приближения биномиального распределения распределением Пуассона и нормальным (приближение Муавра-Лапласа).

Приближение Пуассона

Приближение распределением Пуассона применяется в ситуациях, когда значения $n$ большие, а значения $p$ близки к нулю. При этом биномиальное распределение аппроксимируется распределением Пуассона с параметром $\lambda=np$ .

Строгая формулировка: если $n\to\infty$ и $p\to 0$ таким образом, что $np\to\lambda$ , то

$P(X=k)\to\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\ldots.$

Более того, справедлива следующая оценка. Пусть $Y$ - случайная величина, имеющая распределение Пуассона с параметром $\lambda=np$ . Тогда для произвольного множества $B\subset\{0,1,2,\ldots\}$ справедливо неравенство:

$|P(X\in B) - P(Y\in B)|\le 2np^2.$

Доказательство и обзор более точных результатов, касающихся точности данного приближения, можно найти в [1, гл. III, §12].

Нормальное приближение

Приближение нормальным распределением используется в ситуациях, когда $n\to\infty$ , а $p$ фиксировано. Это приближение можно рассматривать как частный случай центральной предельной теоремы, применение которой основано на представлении $X$ в виде суммы $n$ слагаемых. Приближение основано на том, что при указанных условиях распределение нормированной величины

$X'=\frac{X-MX}{\sqrt{DX}}=\frac{X-np}{\sqrt{npq}$ , где $q=1-p$

близко к стандартному нормальному.

Локальная теорема Муавра-Лапласа

Данная теорема используется для приближенного вычисления вероятностей отдельных значений биномиального распределения. Она утверждает [1, гл. I, §6], что равномерно по всем значениям $k$ , таким что $|k-np|=o(npq)^{2/3}$ , имеет место

$P(X=k)\sim\frac{1}{\sqrt{2\pi npq}}e^{-\frac{(k-np)^2}{2npq}}=\frac{1}{\sqrt{npq}}\varphi\left(\frac{k-np}{\sqrt{npq}}\right),$

где $\varphi$ - плотность стандартного нормального распределения.

Интегральная теорема Муавра-Лапласа

На практике необходимость оценки вероятностей отдельных значений, которую дает локальная теорема Муавра-Лапласа, возникает не часто. Гораздо более важно оценивать вероятности событий, включающих в себя множество значений. Для этого используется интегральная теорема, которую можно сформулировать в следующем виде [1, гл. I, §6]:

$\sup_{-\infty\le a<b\le\infty}\left|P\left(a<\frac{X-np}{\sqrt{npq}}\le b\right) - P(a<Z\le b)\right|\to 0$ при $n\to\infty$ ,

где случайная величина $Y$ имеет стандартное нормальное распределение $\mathcal{N}(0,1)$ , и аппроксимирующая вероятность определяется по формуле

$P(a<Z\le b)=\Phi(b)-\Phi(a)$ ,

где $\Phi(t)$ - функция распределения стандартного нормального закона: $\Phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^t e^{-t^2/2}\,dt$ .

Есть ряд результатов, позволяющих оценить скорость сходимости. В [1, гл. I, §6] приводится следующий результат, являющийся частным случаем теоремы Берри-Эссеена:

Литература

1. Ширяев А.Н. Вероятность. — М.: МЦНМО, 2004.

Ссылки

Биномиальное распределение (Википедия)
Binomial distribution (Wikipedia)

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5»

Категория: Материалы по теории вероятностей

@@ Строка 2: / Строка 2: @@
 ''Биномиальное распределение'' - дискретное распределение вероятностей [[случайная_величина|случайной величины]] <tex>X</tex>, принимающей целочисленные значения <tex>k=0,1,\ldots,n</tex> с вероятностями:
-<tex>P(X=k)=C_n^kp^k(1-p)^{n-k}</tex>.
+<center><tex>P(X=k)=C_n^kp^k(1-p)^{n-k}</tex>.</center>
 Данное распределение характеризуется двумя параметрами: целым числом <tex>n>0</tex>, называемым ''числом испытаний'', и вещественным числом <tex>p</tex>, <tex>0\le p\le 1</tex>, называемом ''вероятностью успеха в одном испытании''. Биномиальное распределение - одно из основных распределений вероятностей, связанных с последовательностью независимых испытаний. Если проводится серия из <tex>n</tex> независимых испытаний, в каждом из которых может произойти "успех" с вероятностью <tex>p</tex>, то случайная величина, равная числу успехов во всей серии, имеет указанное распределение. Эта величина также может быть представлена в виде суммы <tex>X=X_1+\cdots+X_n</tex> независимых слагаемых, имеющих [[распределение Бернулли]].
@@ Строка 25: / Строка 25: @@
 Строгая формулировка: если <tex>n\to\infty</tex> и <tex>p\to 0</tex> таким образом, что <tex>np\to\lambda</tex>, то
-<tex>P(X=k)\to\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\ldots.</tex>
+<center><tex>P(X=k)\to\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\ldots.</tex></center>
 Более того, справедлива следующая оценка. Пусть <tex>Y</tex> - случайная величина, имеющая распределение Пуассона с параметром <tex>\lambda=np</tex>.
 Тогда для произвольного множества <tex>B\subset\{0,1,2,\ldots\}</tex> справедливо неравенство:
-<tex>|P(X\in B) - P(Y\in B)|\le 2np^2.</tex>
+<center><tex>|P(X\in B) - P(Y\in B)|\le 2np^2.</tex></center>
 Доказательство и обзор более точных результатов, касающихся точности данного приближения, можно найти в [1, гл. III, §12].
@@ Строка 37: / Строка 37: @@
 Приближение нормальным распределением используется в ситуациях, когда <tex>n\to\infty</tex>, а <tex>p</tex> фиксировано. Это приближение можно рассматривать как частный случай центральной предельной теоремы, применение которой основано на представлении <tex>X</tex> в виде суммы <tex>n</tex> слагаемых. Приближение основано на том, что при указанных условиях распределение нормированной величины
-<tex>X'=\frac{X-MX}{\sqrt{DX}}=\frac{X-np}{\sqrt{npq}</tex>, где <tex>q=1-p</tex>
+<center><tex>X'=\frac{X-MX}{\sqrt{DX}}=\frac{X-np}{\sqrt{npq}</tex>, где <tex>q=1-p</tex></center>
 близко к стандартному нормальному.
@@ Строка 44: / Строка 44: @@
 Данная теорема используется для приближенного вычисления вероятностей отдельных значений биномиального распределения. Она утверждает [1, гл. I, §6], что равномерно по всем значениям <tex>k</tex>, таким что <tex>|k-np|=o(npq)^{2/3}</tex>, имеет место
-<tex>P(X=k)\sim\frac{1}{\sqrt{2\pi npq}}e^{-\frac{(k-np)^2}{2npq}}=\frac{1}{\sqrt{npq}}\varphi\left(\frac{k-np}{\sqrt{npq}}\right),</tex> где <tex>\varphi</tex> - плотность стандартного нормального распределения.
+<center><tex>P(X=k)\sim\frac{1}{\sqrt{2\pi npq}}e^{-\frac{(k-np)^2}{2npq}}=\frac{1}{\sqrt{npq}}\varphi\left(\frac{k-np}{\sqrt{npq}}\right),</tex></center>
+где <tex>\varphi</tex> - плотность стандартного нормального распределения.
 ===Интегральная теорема Муавра-Лапласа===
+На практике необходимость оценки вероятностей отдельных значений, которую дает локальная теорема Муавра-Лапласа, возникает не часто. Гораздо более важно оценивать вероятности событий, включающих в себя множество значений. Для этого используется интегральная теорема, которую можно сформулировать в следующем виде [1, гл. I, §6]:
+<center><tex>\sup_{-\infty\le a<b\le\infty}\left|P\left(a<\frac{X-np}{\sqrt{npq}}\le b\right) - P(a<Z\le b)\right|\to 0</tex> при <tex>n\to\infty</tex>,</center>
+где случайная величина <tex>Y</tex> имеет стандартное нормальное распределение <tex>\mathcal{N}(0,1)</tex>, и аппроксимирующая вероятность определяется по формуле
+<center><tex>P(a<Z\le b)=\Phi(b)-\Phi(a)</tex></center>,
+где <tex>\Phi(t)</tex> - функция распределения стандартного нормального закона: <tex>\Phi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^t e^{-t^2/2}\,dt</tex>.
+Есть ряд результатов, позволяющих оценить скорость сходимости. В [1, гл. I, §6] приводится следующий результат, являющийся частным случаем теоремы Берри-Эссеена:
 ==Литература==