Статистическое оценивание

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Состоятельность: терминология)
(дополнение)
Строка 27: Строка 27:
Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.
Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.
-
====Несмещенность====
+
====Несмещенность и асимптотическая несмещенность====
 +
Оценка <tex>\widehat\theta_n</tex> параметра <tex>\theta</tex> называется '''несмещенной''', если ее математическое ожидание равно истинному значению оцениваемого параметра:
 +
 +
<center><tex>\mathbb{M}\widehat\theta_n=\theta</tex>.</center>
 +
 +
Более слабым условием является '''асимптотическая несмещенность''', которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:
 +
 +
<center><tex>\lim_{n\to\infty}\mathbb{M}\widehat\theta_n=\theta</tex>.</center>
 +
 +
Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако существуют такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим [[распределение Пуассона]] с параметром <tex>\lambda</tex> и поставим задачу оценки параметра <tex>\theta=1/\lambda</tex>. Можно доказать, что для этой задачи не существует несмещенной оценки.
 +
 +
====Сравнение оценок и эффективность====

Версия 08:01, 11 ноября 2009

Содержание

Постановка задачи

Задача статистического оценивания неизвестных параметров - одна из двух основных (наряду с задачей проверки статистических гипотез) задач математической статистики.

Предположим, что имеется параметрическое семейство распределений вероятностей F(t,\theta) (для простоты будем рассматривать распределение случайных величин и случай одного параметра). Здесь \theta\in\mathbb{R} - числовой параметр, значение которого неизвестно. Требуется оценить его по имеющейся выборке X^n=(X_1,\ldots,X_n) значений, порожденной данным распределением.

Различают два основных типа оценок: точечные оценки и доверительные интервалы.

Точечное оценивание

Точечное оценивание - это вид статистического оценивания, при котором значение неизвестного параметра \theta приближается отдельным числом. То есть необходимо указать функцию от выборки (статистику)

\widehat\theta_n=\widehat\theta_n(X^n),

значение которой будет рассматриваться в качестве приближения к неизвестному истинному значению \theta.

Ниже приводятся некоторые свойства, которыми могут обладать или не обладать точечные оценки.

Состоятельность

Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки n. Это означает, что оценка \widehat\theta_n должна сходиться к истинному значению \theta при n\to\infty. Это свойство оценки и называется состоятельностью. Поскольку речь идет о случайных величинах, для которых имеются разные виды сходимости, то и данное свойство может быть точно сформулировано по-разному:

  • если \widehat\theta_n сходится к истинному значению \theta с вероятностью 1 (почти наверное), то тогда оценка называется сильно состоятельной;
  • если имеет место сходимость по вероятности \widehat{\theta}_n\stackrel{P}{\longrightarrow}\theta, то тогда оценка называется слабо состоятельной.

Когда употребляют просто термин состоятельность, то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.

Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.

Несмещенность и асимптотическая несмещенность

Оценка \widehat\theta_n параметра \theta называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра:

\mathbb{M}\widehat\theta_n=\theta.

Более слабым условием является асимптотическая несмещенность, которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:

\lim_{n\to\infty}\mathbb{M}\widehat\theta_n=\theta.

Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако существуют такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим распределение Пуассона с параметром \lambda и поставим задачу оценки параметра \theta=1/\lambda. Можно доказать, что для этой задачи не существует несмещенной оценки.

Сравнение оценок и эффективность

...to be continued...



К точечному оцениванию относятся метод моментов, метод минимального расстояния \chi^2, метод максимального правдоподобия, метод наименьших квадратов.

Свойства точечных оценок

(оценка сходится по вероятности к параметру \theta)

\mathsf{D}\hat{\theta}_n=\min\mathsf{D}\hat{\theta}_n', где \hat{\theta}'_n:\; \mathsf{E}\hat{\theta}'_n=\theta


(эффективная оценка обладает минимальной дисперсией среди всех несмещенных оценок)

F(X^n|T=t,\theta)=F(X^n|T=t)

Критерий факторизации

Теорема
Статистика T(X^n) является достаточной тогда и только тогда, когда

F(X^n,\theta)=g(T,\theta)h(X^n)

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

Ссылки