Квантиль

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(дополнение)
(уточнение ссылок)
Строка 54: Строка 54:
== Применение квантилей в задачах проверки статистических гипотез ==
== Применение квантилей в задачах проверки статистических гипотез ==
-
Часто применяемая схема решения в задаче [[проверка_статистических_гипотез|проверки статистических гипотез]] имеет следующий вид. Стараются найти такую [[статистика_функция|статистику]] <tex>T</tex>, чтобы:
+
Часто применяемая схема решения в задаче [[проверка_статистических_гипотез|проверки статистических гипотез]] имеет следующий вид. Стараются найти такую [[Статистика (функция выборки)|статистику]] <tex>T</tex>, чтобы:
* распределение <tex>T</tex> при нулевой гипотезе <tex>H_0</tex> было бы известно (это позволит вычислить вероятность ошибки I рода);
* распределение <tex>T</tex> при нулевой гипотезе <tex>H_0</tex> было бы известно (это позволит вычислить вероятность ошибки I рода);
* при альтернативной гипотезе <tex>H_1</tex> из общих соображений было бы ясно, что статистика <tex>T</tex> отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.
* при альтернативной гипотезе <tex>H_1</tex> из общих соображений было бы ясно, что статистика <tex>T</tex> отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.
Строка 64: Строка 64:
== Применение квантилей в задачах оценивания параметров ==
== Применение квантилей в задачах оценивания параметров ==
-
Рассмотрим задачу построения [[доверительный_интервал|доверительного интервала]] для неизвестного числового параметра <tex>\theta</tex>. При этом часто применяется следующая схема. Стараются найти такую случайную величину <tex>Z=Z(\theta)</tex>, которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является [[статистика_функция|статистикой]]), чтобы ее закон распределения был бы известен и не зависел бы от <tex>\theta</tex>. Тогда можно для заданного уровня <tex>\alpha</tex> найти двусторонние квантили и записать следующее соотношение:
+
Рассмотрим задачу построения [[доверительный_интервал|доверительного интервала]] для неизвестного числового параметра <tex>\theta</tex>. При этом часто применяется следующая схема. Стараются найти такую случайную величину <tex>Z=Z(\theta)</tex>, которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является [[Статистика (функция выборки)|статистикой]]), чтобы ее закон распределения был бы известен и не зависел бы от <tex>\theta</tex>. Тогда можно для заданного уровня <tex>\alpha</tex> найти двусторонние квантили и записать следующее соотношение:
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center>
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center>
Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:
Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\}</tex>,</center>
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\}</tex>,</center>
-
чтобы величины <tex>\theta^-</tex> и <tex>\theta^+</tex> зависели бы только от выборки, т.е. являлись бы [[статистика_функция|статистиками]]. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.
+
чтобы величины <tex>\theta^-</tex> и <tex>\theta^+</tex> зависели бы только от выборки, т.е. являлись бы [[Статистика (функция выборки)|статистиками]]. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.
== Выборочные квантили; статистическая оценка квантилей ==
== Выборочные квантили; статистическая оценка квантилей ==
Строка 76: Строка 76:
'''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha</tex>, <tex>\alpha \in (0,\,1)</tex>
'''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha</tex>, <tex>\alpha \in (0,\,1)</tex>
-
есть [[статистика (функция выборки)]], равная элементу вариационного ряда с номером <tex>[m\alpha+1]</tex>
+
есть [[Статистика (функция выборки)]], равная элементу вариационного ряда с номером <tex>[m\alpha+1]</tex>
(целая часть от <tex>m\alpha+1</tex>).
(целая часть от <tex>m\alpha+1</tex>).

Версия 08:51, 14 февраля 2010

Содержание

\alpha-кванти́ль (или квантиль порядка \alpha) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей \alpha.

Определение

\alpha-кванти́ль случайной величины \xi с функцией распределения F(x) = \mathbb{P} \{ \xi < x \} — это любое число x_\alpha, удовлетворяющее двум условиям:

1) F(x_\alpha) \leq \alpha;
2) F(x_\alpha+0) \geq \alpha.

Заметим, что данные условия эквивалентны следующим:

\mathbb{P}(\xi<x_\alpha)\le\alpha и \mathbb{P}(\xi>x_\alpha)\le 1- \alpha

Если F(x) — непрерывная строго монотонная функция, то существует единственный квантиль x_\alpha любого порядка \alpha \in (0,\,1), который однозначно определяется из уравнения F(x_\alpha) = \alpha, следовательно, выражается через функцию, обратную к функции распределения:

x_\alpha = F^{-1}(\alpha).

Кроме указанной ситуации, когда уравнение F(x_\alpha) = \alpha имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:

  • если указанное уравнение не имеет решений, то это означает, что существует единственная точка x_\alpha, в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилью порядка \alpha. Для этой точки выполнены соотношения: \mathbb{P}(\xi<x_\alpha)<\alpha и \mathbb{P}(\xi>x_\alpha)\le 1- \alpha (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).
  • если уравнение имеет более одного решения, то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантили порядка \alpha может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины \xi в данный интервал равна нулю.

Часто используемые квантили специальных видов

Проценти́ль x_{p/100}, \; p=1,\ldots,99.

Дециль x_{p/10}, \; p=1,\ldots,9.

Квинтиль x_{p/5}, \; p=1,2,3,4.

Квартиль x_{p/4}, \; p=1,2,3.

Медиана x_{1/2}.

Терминология, принятая в математической статистике

В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология.

Нижняя (односторонняя) квантиль уровня \alpha - это то же, что и обычная квантиль порядка \alpha:

x_\alpha^- = x_\alpha.

Верхняя (односторонняя) квантиль уровня \alpha - это обычная квантиль порядка 1-\alpha:

x_\alpha^+ = x_{1-\alpha}.

Двусторонние квантили уровня \alpha - это пара (нижняя+верхняя) односторонних квантилей уровня \alpha/2. Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью:

\mathbb{P}\left\{ x_{\alpha/2}^- \le \xi \le x_{\alpha/2}^+ \right\} \ge 1-\alpha.

Применение квантилей в задачах проверки статистических гипотез

Часто применяемая схема решения в задаче проверки статистических гипотез имеет следующий вид. Стараются найти такую статистику T, чтобы:

  • распределение T при нулевой гипотезе H_0 было бы известно (это позволит вычислить вероятность ошибки I рода);
  • при альтернативной гипотезе H_1 из общих соображений было бы ясно, что статистика T отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.

Если статистика T с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме.

Если в дополнение к указанным условиям, распределение T будет известно также и при альтернативе H_1, то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы.

Применение квантилей в задачах оценивания параметров

Рассмотрим задачу построения доверительного интервала для неизвестного числового параметра \theta. При этом часто применяется следующая схема. Стараются найти такую случайную величину Z=Z(\theta), которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является статистикой), чтобы ее закон распределения был бы известен и не зависел бы от \theta. Тогда можно для заданного уровня \alpha найти двусторонние квантили и записать следующее соотношение:

\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha.

Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:

\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\},

чтобы величины \theta^- и \theta^+ зависели бы только от выборки, т.е. являлись бы статистиками. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.

Выборочные квантили; статистическая оценка квантилей

Пусть задана простая выборка x^m = (x_1,\ldots,x_m), и её вариационный ряд есть

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Выборочный \alpha-кванти́ль или выборочный квантиль порядка \alpha, \alpha \in (0,\,1) есть Статистика (функция выборки), равная элементу вариационного ряда с номером [m\alpha+1] (целая часть от m\alpha+1).

Пусть f — плотность, F — функция распределения случайной величины x. Тогда выборочные квантили 0 < \alpha_1 \leq \cdots \leq \alpha_k < 1 имеют при m \to \infty асимптотически k-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям x_{\alpha_i},\; i=1,\ldots,k и ковариациями

\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.

Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей.

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.

Ссылки

Личные инструменты