Статистика (функция выборки)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (уточнение)
(уточнение)
Строка 33: Строка 33:
::<tex>\overset{\circ}M^k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.</tex>
::<tex>\overset{\circ}M^k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.</tex>
Выборочная дисперсия есть центральный момент второго порядка.
Выборочная дисперсия есть центральный момент второго порядка.
 +
 +
Несмещённые оценки:
 +
::<tex>\overset{\bullet}M^3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M^3.</tex>
 +
::<tex>\overset{\bullet}M^4 = \frac{m(m^2-2m+3)\overset{\circ}M^4 + 3m(2m-3)\overset{\circ}(M^2)^2}{(m-1)(m-2)(m-3)}.</tex>
=== Выборочный [[коэффициент асимметрии]] ===
=== Выборочный [[коэффициент асимметрии]] ===
::<tex>\gamma_1 = \overset{\circ}M^3 / s^3.</tex>
::<tex>\gamma_1 = \overset{\circ}M^3 / s^3.</tex>
-
Несмещённая оценка:
 
-
::<tex>\gamma_1 = \frac{}{}\overset{\circ}M^3 / s^3.</tex>
 
Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.
Если плотность распределения симметрична, то <tex>\gamma_1 = 0</tex>.
Строка 49: Строка 51:
=== Выборочный [[коэффициент эксцесса]] ===
=== Выборочный [[коэффициент эксцесса]] ===
::<tex>\gamma_2 = \overset{\circ}M^4 / s^4 - 3.</tex>
::<tex>\gamma_2 = \overset{\circ}M^4 / s^4 - 3.</tex>
-
Несмещённая оценка:
+
 
[[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.
[[Нормальное распределение]] имеет нулевой эксцесс, <tex>\gamma_2 = 0</tex>.
-
Если пик распределения острее, чем у нормального, то <tex>\gamma_2 > 0</tex>,
+
Если хвосты распределения «легче» (соответственно, пик острее), чем у нормального, то <tex>\gamma_2 < 0</tex>.
-
иначе <tex>\gamma_2 < 0</tex>.
+
 
 +
Если хвосты распределения «тяжелее» (соответственно, пик более «приплюснутый»), чем у нормального, то <tex>\gamma_2 > 0</tex>.
Выборочный коэффициент эксцесса часто используется для предварительной [[Критерии нормальности|проверки выборки на нормальность]].
Выборочный коэффициент эксцесса часто используется для предварительной [[Критерии нормальности|проверки выборки на нормальность]].
Строка 69: Строка 72:
Выборочная <tex>\lambda</tex>-квантиль при <tex>0\leq\lambda < 1</tex> есть
Выборочная <tex>\lambda</tex>-квантиль при <tex>0\leq\lambda < 1</tex> есть
::<tex>x^{(m\lambda+1)}.</tex>
::<tex>x^{(m\lambda+1)}.</tex>
 +
=== Размах выборки ===
=== Размах выборки ===
::<tex>\Delta = x^{(m)} - x^{(1)}.</tex>
::<tex>\Delta = x^{(m)} - x^{(1)}.</tex>
 +
=== Выборочная медиана ===
=== Выборочная медиана ===
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>
::<tex>\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}</tex>

Версия 10:57, 6 августа 2008

Содержание

Статистика — это измеримая функция выборки.

Также статистика — это область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Определение

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) наблюдений x_i \in X.

Статистикой называется произвольная измеримая функция выборки T:\: X^m \to \mathbb{R}.

Любой статистический критерий основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то нулевая гипотеза данного критерия отвергается.

Ниже приводятся примеры наиболее часто используемых статистик. Все они предполагают, что наблюдения являются числовыми, X = \mathbb{R}. В последние годы активно развивается также статистика объектов нечисловой природы.

Моменты

Выборочное среднее

\bar x = \frac1m \sum_{i=1}^m x_i.

Выборочная дисперсия

s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Несмещённая оценка дисперсии:

s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.

Выборочный момент k-го порядка

M^k = \frac1m \sum_{i=1}^m x^k_i.

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

\overset{\circ}M^k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки:

\overset{\bullet}M^3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M^3.
\overset{\bullet}M^4 = \frac{m(m^2-2m+3)\overset{\circ}M^4 + 3m(2m-3)\overset{\circ}(M^2)^2}{(m-1)(m-2)(m-3)}.

Выборочный коэффициент асимметрии

\gamma_1 = \overset{\circ}M^3 / s^3.

Если плотность распределения симметрична, то \gamma_1 = 0.

Если левый хвост распределения тяжелее, то \gamma_1 > 0.

Если правый хвост распределения тяжелее, то \gamma_1 < 0.

Выборочный коэффициент асимметрии часто используется для предварительной проверки выборки на нормальность.

Выборочный коэффициент эксцесса

\gamma_2 = \overset{\circ}M^4 / s^4 - 3.

Нормальное распределение имеет нулевой эксцесс, \gamma_2 = 0.

Если хвосты распределения «легче» (соответственно, пик острее), чем у нормального, то \gamma_2 < 0.

Если хвосты распределения «тяжелее» (соответственно, пик более «приплюснутый»), чем у нормального, то \gamma_2 > 0.

Выборочный коэффициент эксцесса часто используется для предварительной проверки выборки на нормальность.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x^m = (x_1,\ldots,x_m) путём упорядочивания её элементов по возрастанию:

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Значение x^{(k)} называется k-й порядковой статистикой.

Выборочная квантиль

Выборочная \lambda-квантиль при 0\leq\lambda < 1 есть

x^{(m\lambda+1)}.

Размах выборки

\Delta = x^{(m)} - x^{(1)}.

Выборочная медиана

\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты