Статистика (функция выборки)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(уточнение)
м (Статистики, используемые для оценки моментов: уточнение, терминология)
 
(12 промежуточных версий не показаны.)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Статистика''' — это измеримая функция выборки.
+
'''Статистика''' (в узком смысле) — это измеримая числовая функция от [[выборка|выборки]], '''не зависящая от неизвестных параметров распределения'''.
-
Также [[статистика (наука)|статистика]] — это область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
+
В широком смысле термин [[статистика (наука)|(математическая) статистика]] обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
== Определение ==
== Определение ==
-
Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>.
+
Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>. Как правило, поскольку речь идет о задачах [[статистика (наука)|математической статистики]], распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).
''Статистикой'' называется произвольная измеримая функция выборки
''Статистикой'' называется произвольная измеримая функция выборки
-
<tex>T:\: X^m \to \mathbb{R}</tex>.
+
<tex>T:\: X^m \to \mathbb{R}</tex>, которая не зависит от неизвестных параметров распределения.
-
Любой [[статистический критерий]] основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то [[нулевая гипотеза]] данного критерия отвергается.
+
Условие измеримости статистики означает, что эта функция является [[случайная_величина|случайной величиной]], т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.
-
Ниже приводятся примеры наиболее часто используемых статистик.
+
Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении [[статистическое_оценивание|оценки]] и прочие статистические выводы.
-
Все они предполагают, что наблюдения являются числовыми, <tex>X = \mathbb{R}</tex>.
+
-
В&nbsp;последние годы активно развивается также [[статистика объектов нечисловой природы]].
+
-
== Моменты ==
+
===Пример===
 +
 
 +
Предположим, что имеется числовая выборка <tex>x^m = (x_1,\ldots,x_m)</tex>, элементы которой имеют [[нормальное распределение]] <tex>\mathcal{N}(a,\sigma)</tex>. Допустим, что значение параметра <tex>a</tex> (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения <tex>\sigma</tex> неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:
 +
 
 +
<center><tex>T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.</tex></center>
 +
 
 +
Однако если значение параметра <tex>a</tex> также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание <tex>T</tex> равно <tex>\sigma^2</tex>), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра <tex>\sigma</tex> строится другим способом (см. ниже).
 +
 
 +
Ниже приведены примеры некоторых часто используемых статистик.
 +
Все они предполагают, что наблюдения <tex>x_i</tex> являются числовыми, <tex>X = \mathbb{R}</tex>.
 +
 
 +
В последние годы активно развивается также [[статистика объектов нечисловой природы]].
 +
 
 +
== Статистики, используемые для оценки моментов (выборочные моменты) ==
=== Выборочное среднее ===
=== Выборочное среднее ===
Строка 22: Строка 33:
=== Выборочная дисперсия ===
=== Выборочная дисперсия ===
-
::<tex>s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>
+
::<tex>s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>
[[Несмещённая оценка]] дисперсии:
[[Несмещённая оценка]] дисперсии:
-
::<tex>s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>
+
::<tex>s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex>
=== Выборочный момент ''k''-го порядка ===
=== Выборочный момент ''k''-го порядка ===
-
::<tex>M^k = \frac1m \sum_{i=1}^m x^k_i.</tex>
+
::<tex>M_k = \frac1m \sum_{i=1}^m x^k_i.</tex>
Выборочное среднее есть момент первого порядка.
Выборочное среднее есть момент первого порядка.
=== Выборочный центральный момент ''k''-го порядка ===
=== Выборочный центральный момент ''k''-го порядка ===
-
::<tex>\overset{\circ}M^k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.</tex>
+
::<tex>\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.</tex>
Выборочная дисперсия есть центральный момент второго порядка.
Выборочная дисперсия есть центральный момент второго порядка.
-
Несмещённые оценки:
+
[[Несмещённая оценка|Несмещённые оценки]] центральных моментов:
-
::<tex>\overset{\bullet}M^3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M^3.</tex>
+
::<tex>\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;</tex>
-
::<tex>\overset{\bullet}M^4 = \frac{m(m^2-2m+3)\overset{\circ}M^4 + 3m(2m-3)\overset{\circ}(M^2)^2}{(m-1)(m-2)(m-3)}.</tex>
+
::<tex>\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;</tex>
 +
::<tex>\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.</tex>
=== Выборочный [[коэффициент асимметрии]] ===
=== Выборочный [[коэффициент асимметрии]] ===
-
::<tex>\gamma_1 = \overset{\circ}M^3 / s^3.</tex>
+
::<tex>\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).</tex>
Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.
Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.
Строка 47: Строка 59:
Если правый хвост распределения тяжелее, то <tex>\gamma_1 < 0</tex>.
Если правый хвост распределения тяжелее, то <tex>\gamma_1 < 0</tex>.
-
Выборочный коэффициент асимметрии часто используется для предварительной [[Критерии нормальности|проверки выборки на нормальность]].
+
Выборочный коэффициент асимметрии используется для проверки распределения на [[Критерии симметричности|симметричность]], а также для грубой предварительной [[Критерии нормальности|проверки на нормальность]].
 +
Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
=== Выборочный [[коэффициент эксцесса]] ===
=== Выборочный [[коэффициент эксцесса]] ===
-
::<tex>\gamma_2 = \overset{\circ}M^4 / s^4 - 3.</tex>
+
::<tex>\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).</tex>
[[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.
[[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.
-
Если хвосты распределения «легче» (соответственно, пик острее), чем у нормального, то <tex>\gamma_2 < 0</tex>.
+
Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то <tex>\gamma_2 > 0</tex>.
-
Если хвосты распределения «тяжелее» (соответственно, пик более «приплюснутый»), чем у нормального, то <tex>\gamma_2 > 0</tex>.
+
Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то <tex>\gamma_2 < 0</tex>.
-
Выборочный коэффициент эксцесса часто используется для предварительной [[Критерии нормальности|проверки выборки на нормальность]].
+
Выборочный коэффициент эксцесса часто используется для грубой предварительной [[Критерии нормальности|проверки на нормальность]].
 +
Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
 +
 
 +
== Статистики, связанные с эмпирическим распределением ==
 +
[[Эмпирическое распределение]] случайной величины&nbsp;<tex>x</tex>, построенное по случайной выборке <tex>x^m</tex>, есть функция
 +
:<tex>\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].</tex>
 +
При любом фиксированном <tex>a\in\mathbb{R}</tex> значение <tex>F_m(a)</tex> можно рассматривать как статистику.
== Порядковые статистики ==
== Порядковые статистики ==
Строка 69: Строка 88:
Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой.
Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой.
-
=== Выборочная квантиль ===
+
=== Выборочный квантиль ===
-
Выборочная <tex>\lambda</tex>-квантиль при <tex>0\leq\lambda < 1</tex> есть
+
Выборочный <tex>\lambda</tex>-квантиль при <tex>0<\lambda < 1</tex> есть
::<tex>x^{(m\lambda+1)}.</tex>
::<tex>x^{(m\lambda+1)}.</tex>
Строка 78: Строка 97:
=== Выборочная медиана ===
=== Выборочная медиана ===
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>
 +
 +
== Ранговые статистики ==
 +
Значение <tex>r_i</tex> называется [[ранг]]ом элемента выборки <tex>x_i</tex>, если <tex>x_i = x^{(r_i)}</tex>.
 +
 +
Ранговой статистикой называется любая статистика, которая является функцией от [[ранг|рангов]] элементов <tex>r_i</tex>, а не от их значений <tex>x_i</tex>.
 +
Переход от значений к их рангам позволяет строить [[непараметрические статистические тесты]], которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем [[параметрические статистические тесты]].
 +
 +
=== Средний ранг ===
 +
Аналогом выборочного среднего является средний ранг:
 +
::<tex>R = \frac1m \sum_{i=1}^m r_i.</tex>
 +
 +
=== Линейные ранговые статистики ===
 +
Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при <tex>m\to\infty</tex>.
 +
[[Линейная ранговая статистика]] в общем случае имеет вид
 +
::<tex>T = \sum_{i=1}^m a(i,r_i),</tex>
 +
где <tex>a(i,j)</tex> — произвольная заданная числовая матрица размера <tex>m \times m</tex>.
== Литература ==
== Литература ==
Строка 84: Строка 119:
== Ссылки ==
== Ссылки ==
-
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0 Википедия:Статистика]
+
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0 Википедия:Статистика].
 +
* [http://en.wikipedia.org/wiki/Skewness Skewness] — коэффициент асимметрии.
 +
* [http://en.wikipedia.org/wiki/Kurtosis Kurtosis] — коэффициент эксцесса.
 +
 
 +
[[Категория:Математическая статистика]]
 +
[[Категория:Прикладная статистика]]
 +
[[Категория:Популярные и обзорные статьи]]

Текущая версия

Содержание

Статистика (в узком смысле) — это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения.

В широком смысле термин (математическая) статистика обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Определение

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) наблюдений x_i \in X. Как правило, поскольку речь идет о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки T:\: X^m \to \mathbb{R}, которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка x^m = (x_1,\ldots,x_m), элементы которой имеют нормальное распределение \mathcal{N}(a,\sigma). Допустим, что значение параметра a (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения \sigma неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.

Однако если значение параметра a также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание T равно \sigma^2), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра \sigma строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения x_i являются числовыми, X = \mathbb{R}.

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

Выборочное среднее

\bar x = \frac1m \sum_{i=1}^m x_i.

Выборочная дисперсия

s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Несмещённая оценка дисперсии:

s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Выборочный момент k-го порядка

M_k = \frac1m \sum_{i=1}^m x^k_i.

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки центральных моментов:

\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;
\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;
\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.

Выборочный коэффициент асимметрии

\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).

Если плотность распределения симметрична, то \gamma_1 = 0.

Если левый хвост распределения тяжелее, то \gamma_1 > 0.

Если правый хвост распределения тяжелее, то \gamma_1 < 0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).

Нормальное распределение имеет нулевой эксцесс, \gamma_2 = 0.

Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то \gamma_2 > 0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то \gamma_2 < 0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины x, построенное по случайной выборке x^m, есть функция

\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].

При любом фиксированном a\in\mathbb{R} значение F_m(a) можно рассматривать как статистику.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x^m = (x_1,\ldots,x_m) путём упорядочивания её элементов по возрастанию:

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Значение x^{(k)} называется k-й порядковой статистикой.

Выборочный квантиль

Выборочный \lambda-квантиль при 0<\lambda < 1 есть

x^{(m\lambda+1)}.

Размах выборки

\Delta = x^{(m)} - x^{(1)}.

Выборочная медиана

\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}

Ранговые статистики

Значение r_i называется рангом элемента выборки x_i, если x_i = x^{(r_i)}.

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов r_i, а не от их значений x_i. Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты.

Средний ранг

Аналогом выборочного среднего является средний ранг:

R = \frac1m \sum_{i=1}^m r_i.

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при m\to\infty. Линейная ранговая статистика в общем случае имеет вид

T = \sum_{i=1}^m a(i,r_i),

где a(i,j) — произвольная заданная числовая матрица размера m \times m.

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты