Достаточная статистика
Материал из MachineLearning.
м (Новая: Статистика <tex>T_n=T_n(X_1,\ldots,X_n)</tex> назвается '''достаточной''' для параметра <tex>\theta</tex>, если условное распр...) |
м |
||
Строка 9: | Строка 9: | ||
Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке <tex>X^n</tex>. | Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке <tex>X^n</tex>. | ||
- | + | =Критерий факторизации= | |
Пусть <tex>p(X^n,\theta)</tex> - плотность распределения выборки в абсолютно непрерывном случае или вероятность в дискретном случае. Тогда статистика <tex>T_n(X^n)</tex> является достаточной для параметра <tex>\theta</tex> тогда и только тогда, когда <tex>p</tex> может быть представлена в виде произведения двух сомножителей: | Пусть <tex>p(X^n,\theta)</tex> - плотность распределения выборки в абсолютно непрерывном случае или вероятность в дискретном случае. Тогда статистика <tex>T_n(X^n)</tex> является достаточной для параметра <tex>\theta</tex> тогда и только тогда, когда <tex>p</tex> может быть представлена в виде произведения двух сомножителей: | ||
- | + | ::<tex>p(X^n,\theta)=g(T_n(X^n),\theta)\cdot h(X^n)</tex>, | |
первый из которых зависит от выборки только через значение статистики <tex>T_n</tex>, а второй не зависит от параметра <tex>\theta</tex>. | первый из которых зависит от выборки только через значение статистики <tex>T_n</tex>, а второй не зависит от параметра <tex>\theta</tex>. | ||
- | ==== | + | =Примеры= |
+ | ==Вероятность успеха в последовательности испытаний Бернулли== | ||
+ | Пусть мы имеем дело с последовательностью испытаний Бернулли: испытания проводятся с неизвестной постоянной вероятностью успеха <tex>p</tex>, <tex>X_i=1</tex> означает успех, <tex>X_i=1</tex> --- неудачу. | ||
- | + | Выборка <tex>\left(X_1,X_2,\ldots,X_n\right)</tex> содержит информацию о количестве успехов в серии испытаний и порядке их появления. С точки зрения задачи оценивания параметра <tex>p,</tex> порядок появления не даёт нам никакой информации. Если известно, что число успехов в последовательности испытаний <tex>\sum X_i</tex> равно <tex>t</tex>, то все <tex> {n} \choose {t} </tex> перестановок успехов равновероятны вне зависимости от <tex>p.</tex> | |
- | + | Зная только лишь <tex>\sum X_i</tex> и не имея никакой другой информации о <tex>X_i</tex> и <tex>p,</tex> можно, используя талбицу случайных чисел, сконструировать множество случайных величин <tex>X'_1,X'_2,\ldots,X'_n,</tex> совместное распределение которых будет таким же, как совместное распределение <tex>X_1,X_2,\ldots,X_n.</tex> Таким образом, информация о параметре <tex>p,</tex> содержащаяся в <tex>X_i</tex>, соответствует информации, имеющейся в <tex>\sum X_i</tex> и в таблице случайных чисел. | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | Таким образом, | + | |
- | + | ||
- | + | ||
- | + | ||
- | + |
Версия 12:30, 8 ноября 2010
Статистика назвается достаточной для параметра , если условное распределение выборки при условии того, что , не зависит от параметра для всех .
Важность понятия достаточной статистики обуславливается следующим утверждением. Если - достаточная статистика, а - несмещенная оценка параметра , тогда условное математическое ожидание является также несмещенной оценкой параметра , причем ее дисперсия меньше или равна дисперсии исходной оценки .
Напомним, что условное математическое ожидание есть случайная величина, являющаяся функцией от . Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).
(Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.
Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке .
Критерий факторизации
Пусть - плотность распределения выборки в абсолютно непрерывном случае или вероятность в дискретном случае. Тогда статистика является достаточной для параметра тогда и только тогда, когда может быть представлена в виде произведения двух сомножителей:
- ,
первый из которых зависит от выборки только через значение статистики , а второй не зависит от параметра .
Примеры
Вероятность успеха в последовательности испытаний Бернулли
Пусть мы имеем дело с последовательностью испытаний Бернулли: испытания проводятся с неизвестной постоянной вероятностью успеха , означает успех, --- неудачу.
Выборка содержит информацию о количестве успехов в серии испытаний и порядке их появления. С точки зрения задачи оценивания параметра порядок появления не даёт нам никакой информации. Если известно, что число успехов в последовательности испытаний равно , то все перестановок успехов равновероятны вне зависимости от
Зная только лишь и не имея никакой другой информации о и можно, используя талбицу случайных чисел, сконструировать множество случайных величин совместное распределение которых будет таким же, как совместное распределение Таким образом, информация о параметре содержащаяся в , соответствует информации, имеющейся в и в таблице случайных чисел.