Статистика (функция выборки)

Материал из MachineLearning.

Версия от 21:03, 9 ноября 2009; Pavel Vilenkin (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Определение
- 1.1 Пример
2 Статистики, используемые для оценки моментов
3 Статистики, связанные с эмпирическим распределением
4 Порядковые статистики
5 Ранговые статистики
- 5.1 Средний ранг
- 5.2 Линейные ранговые статистики
6 Литература
7 Ссылки

Статистика (в узком смысле) — это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения.

В широком смысле термин (математическая) статистика обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Определение

Пусть задана случайная выборка $x^m = (x_1,\ldots,x_m)$ наблюдений $x_i \in X$ . Как правило, поскольку речь идет о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки $T:\: X^m \to \mathbb{R}$ , которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является случайной величиной, т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка $x^m = (x_1,\ldots,x_m)$ , элементы которой имеют нормальное распределение $\mathcal{N}(a,\sigma)$ . Допустим, что значение параметра $a$ (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения $\sigma$ неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

$T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.$

Однако если значение параметра $a$ также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание $T$ равно $\sigma^2$ ), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра $\sigma$ строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения $x_i$ являются числовыми, $X = \mathbb{R}$ .

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов

Выборочное среднее

$\bar x = \frac1m \sum_{i=1}^m x_i.$

Выборочная дисперсия

$s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.$

Несмещённая оценка дисперсии:

$s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.$

Выборочный момент k-го порядка

$M_k = \frac1m \sum_{i=1}^m x^k_i.$

Выборочное среднее есть момент первого порядка.

Выборочный центральный момент k-го порядка

$\overset{\circ}M_k = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^k.$

Выборочная дисперсия есть центральный момент второго порядка.

Несмещённые оценки центральных моментов:

$\overset{\bullet}M_2 = \frac{m}{m-1} \overset{\circ}M_2;$

$\overset{\bullet}M_3 = \frac{m^2}{(m-1)(m-2)} \overset{\circ}M_3;$

$\overset{\bullet}M_4 = \frac{m(m^2-2m+3)\overset{\circ}M_4 + 3m(2m-3)\overset{\circ}M_2^2}{(m-1)(m-2)(m-3)}.$

Выборочный коэффициент асимметрии

$\gamma_1 = \frac{\overset{\bullet}M_3}{\overset{\bullet}M_2^{3/2}} = \frac{\sqrt{m(m-1)}}{m-2} \left( \frac{\overset{\circ}M_3}{\overset{\circ}M_2^{3/2}} \right).$

Если плотность распределения симметрична, то $\gamma_1 = 0$ .

Если левый хвост распределения тяжелее, то $\gamma_1 > 0$ .

Если правый хвост распределения тяжелее, то $\gamma_1 < 0$ .

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

$\gamma_2 = \frac{\overset{\bullet}M_4}{\overset{\bullet}M_2^2} - 3 = \frac{m^2-1}{(m-2)(m-3)}\left( \frac{\overset{\circ}M_4}{\overset{\circ}M_2^2} - 3 + \frac6{m+1}\right).$

Нормальное распределение имеет нулевой эксцесс, $\gamma_2 = 0$ .

Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то $\gamma_2 > 0$ .

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то $\gamma_2 < 0$ .

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение случайной величины $x$ , построенное по случайной выборке $x^m$ , есть функция

$\displaystyle F_m(x) = \frac1m \sum_{i=1}^m \left[ x_i<x \right].$

При любом фиксированном $a\in\mathbb{R}$ значение $F_m(a)$ можно рассматривать как статистику.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки $x^m = (x_1,\ldots,x_m)$ путём упорядочивания её элементов по возрастанию:

$x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.$

Значение $x^{(k)}$ называется k-й порядковой статистикой.

Выборочный квантиль

Выборочный $\lambda$ -квантиль при $0<\lambda < 1$ есть

$x^{(m\lambda+1)}.$

Размах выборки

$\Delta = x^{(m)} - x^{(1)}.$

Выборочная медиана

$\mu = \begin{cases} \frac12 \left(x^{(k)}+x^{(k+1)}\right),& m=2k;\\ x^{(k+1)},& m=2k+1.\end{cases}$

Ранговые статистики

Значение $r_i$ называется рангом элемента выборки $x_i$ , если $x_i = x^{(r_i)}$ .

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов $r_i$ , а не от их значений $x_i$ . Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты.

Средний ранг

Аналогом выборочного среднего является средний ранг:

$R = \frac1m \sum_{i=1}^m r_i.$

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при $m\to\infty$ . Линейная ранговая статистика в общем случае имеет вид

$T = \sum_{i=1}^m a(i,r_i),$

где $a(i,j)$ — произвольная заданная числовая матрица размера $m \times m$ .

Литература

Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Википедия:Статистика.
Skewness — коэффициент асимметрии.
Kurtosis — коэффициент эксцесса.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%28%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B8%29»

Категории: Математическая статистика | Прикладная статистика | Популярные и обзорные статьи