Статистика (функция выборки)
Материал из MachineLearning.
м |
(про ранговые статистики) |
||
Строка 88: | Строка 88: | ||
== Ранговые статистики == | == Ранговые статистики == | ||
- | { | + | Значение <tex>r_i</tex> называется [[ранг]]ом элемента выборки <tex>x_i</tex>, если <tex>x_i = x^{(r_i)}</tex>. |
+ | |||
+ | Ранговой статистикой называется любая статистика, которая является функцией от [[ранг|рангов]] элементов <tex>r_i</tex>, а не от их значений <tex>x_i</tex>. | ||
+ | Переход от значений к их рангам позволяет строить [[непараметрические статистические тесты]], которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем [[параметрические статистические тесты]]. | ||
+ | |||
+ | === Средний ранг === | ||
+ | Аналогом выборочного среднего является средний ранг: | ||
+ | ::<tex>R = \frac1m \sum_{i=1}^m r_i.</tex> | ||
+ | |||
+ | === Линейные ранговые статистики === | ||
+ | Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при <tex>m\to\infty</tex>. | ||
+ | [[Линейная ранговая статистика]] в общем случае имеет вид | ||
+ | ::<tex>T = \sum_{i=1}^m a(i,r_i),</tex> | ||
+ | где <tex>a(i,j)</tex> — произвольная заданная числовая матрица размера <tex>m \times m</tex>. | ||
== Литература == | == Литература == |
Версия 15:06, 14 августа 2008
|
Статистика — это измеримая функция выборки.
Также статистика — это область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
Определение
Пусть задана случайная выборка наблюдений .
Статистикой называется произвольная измеримая функция выборки .
Любой статистический критерий основан на вычислении некоторой статистики и затем проверке, попадает ли её значение в область наиболее вероятных значений. Если не попадает, то нулевая гипотеза данного критерия отвергается.
Примеры наиболее часто используемых статистик приводятся ниже. Все они предполагают, что наблюдения являются числовыми, . В последние годы активно развивается также статистика объектов нечисловой природы.
Моменты
Выборочное среднее
Выборочная дисперсия
Несмещённая оценка дисперсии:
Выборочный момент k-го порядка
Выборочное среднее есть момент первого порядка.
Выборочный центральный момент k-го порядка
Выборочная дисперсия есть центральный момент второго порядка.
Несмещённые оценки центральных моментов:
Выборочный коэффициент асимметрии
Если плотность распределения симметрична, то .
Если левый хвост распределения тяжелее, то .
Если правый хвост распределения тяжелее, то .
Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Выборочный коэффициент эксцесса
Нормальное распределение имеет нулевой эксцесс, .
Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то .
Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то .
Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Статистики, связанные с эмпирическим распределением
Эмпирическое распределение случайной величины , построенное по случайной выборке , есть функция
При любом фиксированном значение можно рассматривать как статистику.
Порядковые статистики
Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки путём упорядочивания её элементов по возрастанию:
Значение называется k-й порядковой статистикой.
Выборочная квантиль
Выборочная -квантиль при есть
Размах выборки
Выборочная медиана
Ранговые статистики
Значение называется рангом элемента выборки , если .
Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов , а не от их значений . Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты.
Средний ранг
Аналогом выборочного среднего является средний ранг:
Линейные ранговые статистики
Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при . Линейная ранговая статистика в общем случае имеет вид
где — произвольная заданная числовая матрица размера .
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Ссылки
- Википедия:Статистика.
- Skewness — коэффициент асимметрии.
- Kurtosis — коэффициент эксцесса.