Статистика (функция выборки)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(уточнение, формулы, ссылки)
м (категории)
Строка 90: Строка 90:
* [http://en.wikipedia.org/wiki/Skewness Skewness] — коэффициент асимметрии.
* [http://en.wikipedia.org/wiki/Skewness Skewness] — коэффициент асимметрии.
* [http://en.wikipedia.org/wiki/Kurtosis Kurtosis] — коэффициент эксцесса.
* [http://en.wikipedia.org/wiki/Kurtosis Kurtosis] — коэффициент эксцесса.
 +
 +
[[Категория:Математическая статистика]]
 +
[[Категория:Прикладная статистика]]

Версия 19:18, 6 августа 2008

Содержание

Статистика — это измеримая функция выборки.

Также статистика — это область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Определение

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) наблюдений x_i \in X.

Статистикой называется произвольная измеримая функция выборки T:\: X^m \to \mathbb{R}.

Любой статистический критерий основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то нулевая гипотеза данного критерия отвергается.

Ниже приводятся примеры наиболее часто используемых статистик. Все они предполагают, что наблюдения являются числовыми, X = \mathbb{R}. В последние годы активно развивается также статистика объектов нечисловой природы.

Моменты

Выборочное среднее

\bar x = \frac1m \sum_{i=1}^m x_i.

Выборочная дисперсия

s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Несмещённая оценка дисперсии:

s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Выборочный момент k-го порядка

M_k = \frac1m \sum_{i=1}^m x^k_i.

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки центральных моментов:

\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;
\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;
\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.

Выборочный коэффициент асимметрии

\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).

Если плотность распределения симметрична, то \gamma_1 = 0.

Если левый хвост распределения тяжелее, то \gamma_1 > 0.

Если правый хвост распределения тяжелее, то \gamma_1 < 0.

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).

Нормальное распределение имеет нулевой эксцесс, \gamma_2 = 0.

Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то \gamma_2 > 0.

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то \gamma_2 < 0.

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x^m = (x_1,\ldots,x_m) путём упорядочивания её элементов по возрастанию:

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Значение x^{(k)} называется k-й порядковой статистикой.

Выборочная квантиль

Выборочная \lambda-квантиль при 0\leq\lambda < 1 есть

x^{(m\lambda+1)}.

Размах выборки

\Delta = x^{(m)} - x^{(1)}.

Выборочная медиана

\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты