Статистика (функция выборки)
Материал из MachineLearning.
м (→Статистики, используемые для оценки моментов: уточнение, терминология) |
|||
(7 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''Статистика''' — это измеримая функция выборки. | + | '''Статистика''' (в узком смысле) — это измеримая числовая функция от [[выборка|выборки]], '''не зависящая от неизвестных параметров распределения'''. |
- | + | В широком смысле термин [[статистика (наука)|(математическая) статистика]] обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных. | |
== Определение == | == Определение == | ||
- | Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>. | + | Пусть задана [[выборка|случайная выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex> наблюдений <tex>x_i \in X</tex>. Как правило, поскольку речь идет о задачах [[статистика (наука)|математической статистики]], распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры). |
''Статистикой'' называется произвольная измеримая функция выборки | ''Статистикой'' называется произвольная измеримая функция выборки | ||
- | <tex>T:\: X^m \to \mathbb{R}</tex>. | + | <tex>T:\: X^m \to \mathbb{R}</tex>, которая не зависит от неизвестных параметров распределения. |
- | + | Условие измеримости статистики означает, что эта функция является [[случайная_величина|случайной величиной]], т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой. | |
- | + | Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении [[статистическое_оценивание|оценки]] и прочие статистические выводы. | |
- | + | ||
- | + | ||
- | == | + | ===Пример=== |
+ | |||
+ | Предположим, что имеется числовая выборка <tex>x^m = (x_1,\ldots,x_m)</tex>, элементы которой имеют [[нормальное распределение]] <tex>\mathcal{N}(a,\sigma)</tex>. Допустим, что значение параметра <tex>a</tex> (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения <tex>\sigma</tex> неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика: | ||
+ | |||
+ | <center><tex>T=\frac{1}{m}\sum_{i=1}^m(x_i-a)^2.</tex></center> | ||
+ | |||
+ | Однако если значение параметра <tex>a</tex> также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание <tex>T</tex> равно <tex>\sigma^2</tex>), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра <tex>\sigma</tex> строится другим способом (см. ниже). | ||
+ | |||
+ | Ниже приведены примеры некоторых часто используемых статистик. | ||
+ | Все они предполагают, что наблюдения <tex>x_i</tex> являются числовыми, <tex>X = \mathbb{R}</tex>. | ||
+ | |||
+ | В последние годы активно развивается также [[статистика объектов нечисловой природы]]. | ||
+ | |||
+ | == Статистики, используемые для оценки моментов (выборочные моменты) == | ||
=== Выборочное среднее === | === Выборочное среднее === | ||
Строка 22: | Строка 33: | ||
=== Выборочная дисперсия === | === Выборочная дисперсия === | ||
- | ::<tex>s^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex> | + | ::<tex>s^2 = s_m^2 = \frac1m \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex> |
[[Несмещённая оценка]] дисперсии: | [[Несмещённая оценка]] дисперсии: | ||
- | ::<tex>s^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex> | + | ::<tex>s^2 = s_m^2 = \frac1{m-1} \sum_{i=1}^m \left( x_i - \bar x \right)^2.</tex> |
=== Выборочный момент ''k''-го порядка === | === Выборочный момент ''k''-го порядка === | ||
Строка 61: | Строка 72: | ||
Выборочный коэффициент эксцесса часто используется для грубой предварительной [[Критерии нормальности|проверки на нормальность]]. | Выборочный коэффициент эксцесса часто используется для грубой предварительной [[Критерии нормальности|проверки на нормальность]]. | ||
- | Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности. | + | Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности. |
== Статистики, связанные с эмпирическим распределением == | == Статистики, связанные с эмпирическим распределением == | ||
Строка 77: | Строка 88: | ||
Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой. | Значение <tex>x^{(k)}</tex> называется ''k''-й порядковой статистикой. | ||
- | === | + | === Выборочный квантиль === |
- | + | Выборочный <tex>\lambda</tex>-квантиль при <tex>0<\lambda < 1</tex> есть | |
::<tex>x^{(m\lambda+1)}.</tex> | ::<tex>x^{(m\lambda+1)}.</tex> | ||
Строка 88: | Строка 99: | ||
== Ранговые статистики == | == Ранговые статистики == | ||
- | { | + | Значение <tex>r_i</tex> называется [[ранг]]ом элемента выборки <tex>x_i</tex>, если <tex>x_i = x^{(r_i)}</tex>. |
+ | |||
+ | Ранговой статистикой называется любая статистика, которая является функцией от [[ранг|рангов]] элементов <tex>r_i</tex>, а не от их значений <tex>x_i</tex>. | ||
+ | Переход от значений к их рангам позволяет строить [[непараметрические статистические тесты]], которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем [[параметрические статистические тесты]]. | ||
+ | |||
+ | === Средний ранг === | ||
+ | Аналогом выборочного среднего является средний ранг: | ||
+ | ::<tex>R = \frac1m \sum_{i=1}^m r_i.</tex> | ||
+ | |||
+ | === Линейные ранговые статистики === | ||
+ | Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при <tex>m\to\infty</tex>. | ||
+ | [[Линейная ранговая статистика]] в общем случае имеет вид | ||
+ | ::<tex>T = \sum_{i=1}^m a(i,r_i),</tex> | ||
+ | где <tex>a(i,j)</tex> — произвольная заданная числовая матрица размера <tex>m \times m</tex>. | ||
== Литература == | == Литература == |
Текущая версия
|
Статистика (в узком смысле) — это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения.
В широком смысле термин (математическая) статистика обозначает область знаний (и соответствующие ей учебные дисциплины), в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.
Определение
Пусть задана случайная выборка наблюдений . Как правило, поскольку речь идет о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).
Статистикой называется произвольная измеримая функция выборки , которая не зависит от неизвестных параметров распределения.
Условие измеримости статистики означает, что эта функция является случайной величиной, т.е. определены вероятности ее попадания в интервалы и другие борелевские множества на прямой.
Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, т.е. исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно - основывать на этом значении оценки и прочие статистические выводы.
Пример
Предположим, что имеется числовая выборка , элементы которой имеют нормальное распределение . Допустим, что значение параметра (математического ожидания) известно, т.е. это некоторое конкретное число, а значение среднеквадратичного отклонения неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:
Однако если значение параметра также неизвестно, то данная функция не является статистикой. В этом случае ее по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание равно ), однако вычислить ее числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра строится другим способом (см. ниже).
Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения являются числовыми, .
В последние годы активно развивается также статистика объектов нечисловой природы.
Статистики, используемые для оценки моментов (выборочные моменты)
Выборочное среднее
Выборочная дисперсия
Несмещённая оценка дисперсии:
Выборочный момент k-го порядка
Выборочное среднее есть момент первого порядка.
Выборочный центральный момент k-го порядка
Выборочная дисперсия есть центральный момент второго порядка.
Несмещённые оценки центральных моментов:
Выборочный коэффициент асимметрии
Если плотность распределения симметрична, то .
Если левый хвост распределения тяжелее, то .
Если правый хвост распределения тяжелее, то .
Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Выборочный коэффициент эксцесса
Нормальное распределение имеет нулевой эксцесс, .
Если хвосты распределения «легче», а пик острее, чем у нормального распределения, то .
Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то .
Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Статистики, связанные с эмпирическим распределением
Эмпирическое распределение случайной величины , построенное по случайной выборке , есть функция
При любом фиксированном значение можно рассматривать как статистику.
Порядковые статистики
Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки путём упорядочивания её элементов по возрастанию:
Значение называется k-й порядковой статистикой.
Выборочный квантиль
Выборочный -квантиль при есть
Размах выборки
Выборочная медиана
Ранговые статистики
Значение называется рангом элемента выборки , если .
Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов , а не от их значений . Переход от значений к их рангам позволяет строить непараметрические статистические тесты, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические тесты.
Средний ранг
Аналогом выборочного среднего является средний ранг:
Линейные ранговые статистики
Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при . Линейная ранговая статистика в общем случае имеет вид
где — произвольная заданная числовая матрица размера .
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Ссылки
- Википедия:Статистика.
- Skewness — коэффициент асимметрии.
- Kurtosis — коэффициент эксцесса.