Квантиль

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(уточнение+исправление)
м
 
(9 промежуточных версий не показаны.)
Строка 7: Строка 7:
[[случайная_величина|случайной величины]] <tex>\xi</tex> с [[функция_распределения|функцией распределения]]
[[случайная_величина|случайной величины]] <tex>\xi</tex> с [[функция_распределения|функцией распределения]]
<tex>F(x) = \mathbb{P} \{ \xi < x \}</tex> — это
<tex>F(x) = \mathbb{P} \{ \xi < x \}</tex> — это
-
любое число <tex>x_\alpha</tex>, удовлетворяющее двум условиям:
+
любое число <tex>x_\alpha,</tex> удовлетворяющее двум условиям:
-
::1) <tex>F(x_\alpha) \leq \alpha</tex>;
+
::1) <tex>F(x_\alpha) \leq \alpha;</tex>
-
::2) <tex>F(x_\alpha+0) \geq \alpha</tex>.
+
::2) <tex>F(x_\alpha+0) \geq \alpha.</tex>
Заметим, что данные условия эквивалентны следующим:
Заметим, что данные условия эквивалентны следующим:
-
<center><tex>\mathbb{P}(\xi<x_\alpha)\le\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha</tex></center>
+
<center><tex>\mathbb{P}(\xi<x_\alpha)\le\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha.</tex></center>
Если <tex>F(x)</tex> — непрерывная строго монотонная функция, то
Если <tex>F(x)</tex> — непрерывная строго монотонная функция, то
существует единственный квантиль <tex>x_\alpha</tex>
существует единственный квантиль <tex>x_\alpha</tex>
-
любого порядка <tex>\alpha \in (0,\,1)</tex>, который
+
любого порядка <tex>\alpha \in (0,\,1),</tex> который
-
однозначно определяется из уравнения <tex>F(x_\alpha) = \alpha</tex>,
+
однозначно определяется из уравнения <tex>F(x_\alpha) = \alpha,</tex>
-
следовательно,
+
и, следовательно,
выражается через функцию, обратную к функции распределения:
выражается через функцию, обратную к функции распределения:
::<tex>x_\alpha = F^{-1}(\alpha).</tex>
::<tex>x_\alpha = F^{-1}(\alpha).</tex>
Кроме указанной ситуации, когда уравнение <tex>F(x_\alpha) = \alpha</tex> имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:
Кроме указанной ситуации, когда уравнение <tex>F(x_\alpha) = \alpha</tex> имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:
-
* если указанное уравнение ''не имеет решений'', то это означает, что существует единственная точка <tex>x_\alpha</tex>, в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилью порядка <tex>\alpha</tex>. Для этой точки выполнены соотношения: <tex>\mathbb{P}(\xi<x_\alpha)<\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha</tex> (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).
+
* если указанное уравнение ''не имеет решений'', то это означает, что существует единственная точка <tex>x_\alpha,</tex> в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка <tex>\alpha</tex>. Для этой точки выполнены соотношения: <tex>\mathbb{P}(\xi<x_\alpha)<\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha</tex> (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).
-
* если уравнение имеет ''более одного решения'', то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантили порядка <tex>\alpha</tex> может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины <tex>\xi</tex> в данный интервал равна нулю.
+
* если уравнение имеет ''более одного решения'', то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка <tex>\alpha</tex> может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины <tex>\xi</tex> в данный интервал равна нулю.
-
При построении доверительного интервала для случайной величины <tex>\xi</tex> используется равенство
+
== Часто используемые квантили специальных видов ==
-
::<tex>\mathbb{P}\left\{ x_{(1-\alpha)/2} \le \xi \le x_{(1+\alpha)/2} \right\} = \alpha</tex>.
+
-
 
+
-
== Величины, связанные с квантилями ==
+
''Проценти́ль'' <tex>x_{p/100}, \; p=1,\ldots,99.</tex>
''Проценти́ль'' <tex>x_{p/100}, \; p=1,\ldots,99.</tex>
Строка 42: Строка 39:
''Медиана'' <tex>x_{1/2}.</tex>
''Медиана'' <tex>x_{1/2}.</tex>
-
== Выборочный квантиль ==
+
== Терминология, принятая в математической статистике ==
 +
 
 +
В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология.
 +
 
 +
'''Нижний (односторонний) квантиль уровня''' <tex>\alpha</tex> — то же, что и обычный квантиль порядка <tex>\alpha</tex>:
 +
<center><tex>x_\alpha^- = x_\alpha</tex>.</center>
 +
 
 +
'''Верхний (односторонний) квантиль уровня''' <tex>\alpha</tex> — обычный квантиль порядка <tex>1-\alpha</tex>:
 +
<center><tex>x_\alpha^+ = x_{1-\alpha}</tex>.</center>
 +
 
 +
'''Двусторонние квантили уровня''' <tex>\alpha</tex> — пара (нижний+верхний) односторонних квантилей уровня <tex>\alpha/2</tex>. Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью:
 +
<center><tex>\mathbb{P}\left\{ x_{\alpha/2}^- \le \xi \le x_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center>
 +
 
 +
== Применение квантилей в задачах проверки статистических гипотез ==
 +
 
 +
Часто применяемая схема решения в задаче [[проверка_статистических_гипотез|проверки статистических гипотез]] имеет следующий вид. Стараются найти такую [[Статистика (функция выборки)|статистику]] <tex>T</tex>, чтобы:
 +
* распределение <tex>T</tex> при нулевой гипотезе <tex>H_0</tex> было бы известно (это позволит вычислить вероятность ошибки I рода);
 +
* при альтернативной гипотезе <tex>H_1</tex> из общих соображений было бы ясно, что статистика <tex>T</tex> отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.
 +
 
 +
Если статистика <tex>T</tex> с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме.
 +
 
 +
Если в дополнение к указанным условиям, распределение <tex>T</tex> будет известно также и при альтернативе <tex>H_1</tex>, то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы.
 +
 
 +
== Применение квантилей в задачах оценивания параметров ==
 +
 
 +
Рассмотрим задачу построения [[доверительный_интервал|доверительного интервала]] для неизвестного числового параметра <tex>\theta</tex>. При этом часто применяется следующая схема. Стараются найти такую случайную величину <tex>Z=Z(\theta)</tex>, которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является [[Статистика (функция выборки)|статистикой]]), чтобы ее закон распределения был бы известен и не зависел бы от <tex>\theta</tex>. Тогда можно для заданного уровня <tex>\alpha</tex> найти двусторонние квантили и записать следующее соотношение:
 +
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center>
 +
Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:
 +
<center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\}</tex>,</center>
 +
чтобы величины <tex>\theta^-</tex> и <tex>\theta^+</tex> зависели бы только от выборки, т.е. являлись бы [[Статистика (функция выборки)|статистиками]]. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.
 +
 
 +
== Выборочные квантили; статистическая оценка квантилей ==
Пусть задана [[простая выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex>, и её [[вариационный ряд]] есть
Пусть задана [[простая выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex>, и её [[вариационный ряд]] есть
::<tex>x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.</tex>
::<tex>x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.</tex>
-
'''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha</tex>, <tex>\alpha \in (0,\,1)</tex>
+
'''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha, \: \alpha \in (0,\,1),</tex>
-
есть [[статистика (функция выборки)]], равная элементу вариационного ряда с номером <tex>[m\alpha+1]</tex>
+
есть [[Статистика (функция выборки)|статистика]], равная элементу вариационного ряда с номером <tex>[m\alpha+1]</tex>
(целая часть от <tex>m\alpha+1</tex>).
(целая часть от <tex>m\alpha+1</tex>).
Пусть <tex>f</tex> — плотность, <tex>F</tex> — функция распределения случайной величины <tex>x</tex>.
Пусть <tex>f</tex> — плотность, <tex>F</tex> — функция распределения случайной величины <tex>x</tex>.
-
Тогда выборочные квантили
+
Тогда выборочные квантили порядка
<tex>0 < \alpha_1 \leq \cdots \leq \alpha_k < 1</tex>
<tex>0 < \alpha_1 \leq \cdots \leq \alpha_k < 1</tex>
имеют при
имеют при
<tex>m \to \infty</tex>
<tex>m \to \infty</tex>
асимптотически ''k''-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям
асимптотически ''k''-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям
-
<tex>x_{\alpha_i},\; i=1,\ldots,k</tex>
+
<tex>x_{\alpha_i},\; i=1,\ldots,k,</tex>
и ковариациями
и ковариациями
::<tex>\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.</tex>
::<tex>\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.</tex>
-
Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей.
+
Таким образом, выборочные квантили являются [[статистическое_оценивание|несмещёнными оценками]] обычных (не выборочных) квантилей.
 +
 
 +
Асимптотическая нормальность позволяет также записать <tex>\beta</tex>-процентный [[доверительный интервал]] для квантиля <tex>x_\alpha, \: \alpha \in (0,\,1)</tex>:
 +
:: <tex>x^{([m\alpha+1])}\pm\frac{z_{\beta/2}}{\sqrt{n}} \frac{\sqrt{\alpha\left(1-\alpha\right)}}{f\left(x_\alpha\right)}.</tex>
== Литература ==
== Литература ==

Текущая версия

Содержание

\alpha-кванти́ль (или квантиль порядка \alpha) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей \alpha.

Определение

\alpha-кванти́ль случайной величины \xi с функцией распределения F(x) = \mathbb{P} \{ \xi < x \} — это любое число x_\alpha, удовлетворяющее двум условиям:

1) F(x_\alpha) \leq \alpha;
2) F(x_\alpha+0) \geq \alpha.

Заметим, что данные условия эквивалентны следующим:

\mathbb{P}(\xi<x_\alpha)\le\alpha и \mathbb{P}(\xi>x_\alpha)\le 1- \alpha.

Если F(x) — непрерывная строго монотонная функция, то существует единственный квантиль x_\alpha любого порядка \alpha \in (0,\,1), который однозначно определяется из уравнения F(x_\alpha) = \alpha, и, следовательно, выражается через функцию, обратную к функции распределения:

x_\alpha = F^{-1}(\alpha).

Кроме указанной ситуации, когда уравнение F(x_\alpha) = \alpha имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:

  • если указанное уравнение не имеет решений, то это означает, что существует единственная точка x_\alpha, в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка \alpha. Для этой точки выполнены соотношения: \mathbb{P}(\xi<x_\alpha)<\alpha и \mathbb{P}(\xi>x_\alpha)\le 1- \alpha (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).
  • если уравнение имеет более одного решения, то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка \alpha может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины \xi в данный интервал равна нулю.

Часто используемые квантили специальных видов

Проценти́ль x_{p/100}, \; p=1,\ldots,99.

Дециль x_{p/10}, \; p=1,\ldots,9.

Квинтиль x_{p/5}, \; p=1,2,3,4.

Квартиль x_{p/4}, \; p=1,2,3.

Медиана x_{1/2}.

Терминология, принятая в математической статистике

В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология.

Нижний (односторонний) квантиль уровня \alpha — то же, что и обычный квантиль порядка \alpha:

x_\alpha^- = x_\alpha.

Верхний (односторонний) квантиль уровня \alpha — обычный квантиль порядка 1-\alpha:

x_\alpha^+ = x_{1-\alpha}.

Двусторонние квантили уровня \alpha — пара (нижний+верхний) односторонних квантилей уровня \alpha/2. Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью:

\mathbb{P}\left\{ x_{\alpha/2}^- \le \xi \le x_{\alpha/2}^+ \right\} \ge 1-\alpha.

Применение квантилей в задачах проверки статистических гипотез

Часто применяемая схема решения в задаче проверки статистических гипотез имеет следующий вид. Стараются найти такую статистику T, чтобы:

  • распределение T при нулевой гипотезе H_0 было бы известно (это позволит вычислить вероятность ошибки I рода);
  • при альтернативной гипотезе H_1 из общих соображений было бы ясно, что статистика T отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.

Если статистика T с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме.

Если в дополнение к указанным условиям, распределение T будет известно также и при альтернативе H_1, то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы.

Применение квантилей в задачах оценивания параметров

Рассмотрим задачу построения доверительного интервала для неизвестного числового параметра \theta. При этом часто применяется следующая схема. Стараются найти такую случайную величину Z=Z(\theta), которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является статистикой), чтобы ее закон распределения был бы известен и не зависел бы от \theta. Тогда можно для заданного уровня \alpha найти двусторонние квантили и записать следующее соотношение:

\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha.

Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:

\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\},

чтобы величины \theta^- и \theta^+ зависели бы только от выборки, т.е. являлись бы статистиками. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.

Выборочные квантили; статистическая оценка квантилей

Пусть задана простая выборка x^m = (x_1,\ldots,x_m), и её вариационный ряд есть

x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.

Выборочный \alpha-кванти́ль или выборочный квантиль порядка \alpha, \: \alpha \in (0,\,1), есть статистика, равная элементу вариационного ряда с номером [m\alpha+1] (целая часть от m\alpha+1).

Пусть f — плотность, F — функция распределения случайной величины x. Тогда выборочные квантили порядка 0 < \alpha_1 \leq \cdots \leq \alpha_k < 1 имеют при m \to \infty асимптотически k-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям x_{\alpha_i},\; i=1,\ldots,k, и ковариациями

\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.

Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей.

Асимптотическая нормальность позволяет также записать \beta-процентный доверительный интервал для квантиля x_\alpha, \: \alpha \in (0,\,1):

x^{([m\alpha+1])}\pm\frac{z_{\beta/2}}{\sqrt{n}} \frac{\sqrt{\alpha\left(1-\alpha\right)}}{f\left(x_\alpha\right)}.

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.

Ссылки

Личные инструменты