Статистика (функция выборки)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (категории)
(дополнение, оформление)
Строка 12: Строка 12:
Любой [[статистический критерий]] основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то [[нулевая гипотеза]] данного критерия отвергается.
Любой [[статистический критерий]] основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то [[нулевая гипотеза]] данного критерия отвергается.
-
Ниже приводятся примеры наиболее часто используемых статистик.
+
'''Примеры наиболее часто используемых статистик''' приводятся ниже.
Все они предполагают, что наблюдения являются числовыми, <tex>X = \mathbb{R}</tex>.
Все они предполагают, что наблюдения являются числовыми, <tex>X = \mathbb{R}</tex>.
В&nbsp;последние годы активно развивается также [[статистика объектов нечисловой природы]].
В&nbsp;последние годы активно развивается также [[статистика объектов нечисловой природы]].
Строка 81: Строка 81:
=== Выборочная медиана ===
=== Выборочная медиана ===
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>
 +
 +
== Статистики, связанные с эмпирическим распределением ==
 +
[[Эмпирическое распределение]] случайной величины&nbsp;<tex>x</tex>, построенное по случайной выборке <tex>x^m</tex>, есть функция
 +
:<tex>\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].</tex>
 +
При любом фиксированном <tex>a\in\mathbb{R}</tex> значение <tex>F_m(a)</tex> можно рассматривать как статистику.
== Литература ==
== Литература ==

Версия 18:11, 7 августа 2008

Содержание

Статистика — это измеримая функция выборки.

Также статистика — это область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Определение

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) наблюдений x_i \in X.

Статистикой называется произвольная измеримая функция выборки T:\: X^m \to \mathbb{R}.

Любой статистический критерий основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то нулевая гипотеза данного критерия отвергается.

Примеры наиболее часто используемых статистик приводятся ниже. Все они предполагают, что наблюдения являются числовыми, X = \mathbb{R}. В последние годы активно развивается также статистика объектов нечисловой природы.

Моменты

Выборочное среднее

\bar x = \frac1m \sum_{i=1}^m x_i.

Выборочная дисперсия

s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Несмещённая оценка дисперсии:

s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Выборочный момент k-го порядка

M_k = \frac1m \sum_{i=1}^m x^k_i.

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки центральных моментов:

\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;
\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;
\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.

Выборочный коэффициент асимметрии

\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).

Если плотность распределения симметрична, то \gamma_1 = 0.

Если левый хвост распределения тяжелее, то \gamma_1 > 0.

Если правый хвост распределения тяжелее, то \gamma_1 < 0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).

Нормальное распределение имеет нулевой эксцесс, \gamma_2 = 0.

Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то \gamma_2 > 0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то \gamma_2 < 0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x^m = (x_1,\ldots,x_m) путём упорядочивания её элементов по возрастанию:

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Значение x^{(k)} называется k-й порядковой статистикой.

Выборочная квантиль

Выборочная \lambda-квантиль при 0\leq\lambda < 1 есть

x^{(m\lambda+1)}.

Размах выборки

\Delta = x^{(m)} - x^{(1)}.

Выборочная медиана

\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины x, построенное по случайной выборке x^m, есть функция

\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].

При любом фиксированном a\in\mathbb{R} значение F_m(a) можно рассматривать как статистику.

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты