Квантиль
Материал из MachineLearning.
(уточнение+исправление) |
м |
||
(9 промежуточных версий не показаны.) | |||
Строка 7: | Строка 7: | ||
[[случайная_величина|случайной величины]] <tex>\xi</tex> с [[функция_распределения|функцией распределения]] | [[случайная_величина|случайной величины]] <tex>\xi</tex> с [[функция_распределения|функцией распределения]] | ||
<tex>F(x) = \mathbb{P} \{ \xi < x \}</tex> — это | <tex>F(x) = \mathbb{P} \{ \xi < x \}</tex> — это | ||
- | любое число <tex>x_\alpha</tex> | + | любое число <tex>x_\alpha,</tex> удовлетворяющее двум условиям: |
- | ::1) <tex>F(x_\alpha) \leq \alpha</tex> | + | ::1) <tex>F(x_\alpha) \leq \alpha;</tex> |
- | ::2) <tex>F(x_\alpha+0) \geq \alpha</tex> | + | ::2) <tex>F(x_\alpha+0) \geq \alpha.</tex> |
Заметим, что данные условия эквивалентны следующим: | Заметим, что данные условия эквивалентны следующим: | ||
- | <center><tex>\mathbb{P}(\xi<x_\alpha)\le\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha</tex></center> | + | <center><tex>\mathbb{P}(\xi<x_\alpha)\le\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha.</tex></center> |
Если <tex>F(x)</tex> — непрерывная строго монотонная функция, то | Если <tex>F(x)</tex> — непрерывная строго монотонная функция, то | ||
существует единственный квантиль <tex>x_\alpha</tex> | существует единственный квантиль <tex>x_\alpha</tex> | ||
- | любого порядка <tex>\alpha \in (0,\,1)</tex> | + | любого порядка <tex>\alpha \in (0,\,1),</tex> который |
- | однозначно определяется из уравнения <tex>F(x_\alpha) = \alpha</tex> | + | однозначно определяется из уравнения <tex>F(x_\alpha) = \alpha,</tex> |
- | следовательно, | + | и, следовательно, |
выражается через функцию, обратную к функции распределения: | выражается через функцию, обратную к функции распределения: | ||
::<tex>x_\alpha = F^{-1}(\alpha).</tex> | ::<tex>x_\alpha = F^{-1}(\alpha).</tex> | ||
Кроме указанной ситуации, когда уравнение <tex>F(x_\alpha) = \alpha</tex> имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других: | Кроме указанной ситуации, когда уравнение <tex>F(x_\alpha) = \alpha</tex> имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других: | ||
- | * если указанное уравнение ''не имеет решений'', то это означает, что существует единственная точка <tex>x_\alpha</tex> | + | * если указанное уравнение ''не имеет решений'', то это означает, что существует единственная точка <tex>x_\alpha,</tex> в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка <tex>\alpha</tex>. Для этой точки выполнены соотношения: <tex>\mathbb{P}(\xi<x_\alpha)<\alpha</tex> и <tex>\mathbb{P}(\xi>x_\alpha)\le 1- \alpha</tex> (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство). |
- | * если уравнение имеет ''более одного решения'', то все его решения образуют интервал, на котором функция распределения постоянна. В качестве | + | * если уравнение имеет ''более одного решения'', то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка <tex>\alpha</tex> может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины <tex>\xi</tex> в данный интервал равна нулю. |
- | + | == Часто используемые квантили специальных видов == | |
- | + | ||
- | + | ||
- | = | + | |
''Проценти́ль'' <tex>x_{p/100}, \; p=1,\ldots,99.</tex> | ''Проценти́ль'' <tex>x_{p/100}, \; p=1,\ldots,99.</tex> | ||
Строка 42: | Строка 39: | ||
''Медиана'' <tex>x_{1/2}.</tex> | ''Медиана'' <tex>x_{1/2}.</tex> | ||
- | == | + | == Терминология, принятая в математической статистике == |
+ | |||
+ | В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология. | ||
+ | |||
+ | '''Нижний (односторонний) квантиль уровня''' <tex>\alpha</tex> — то же, что и обычный квантиль порядка <tex>\alpha</tex>: | ||
+ | <center><tex>x_\alpha^- = x_\alpha</tex>.</center> | ||
+ | |||
+ | '''Верхний (односторонний) квантиль уровня''' <tex>\alpha</tex> — обычный квантиль порядка <tex>1-\alpha</tex>: | ||
+ | <center><tex>x_\alpha^+ = x_{1-\alpha}</tex>.</center> | ||
+ | |||
+ | '''Двусторонние квантили уровня''' <tex>\alpha</tex> — пара (нижний+верхний) односторонних квантилей уровня <tex>\alpha/2</tex>. Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью: | ||
+ | <center><tex>\mathbb{P}\left\{ x_{\alpha/2}^- \le \xi \le x_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center> | ||
+ | |||
+ | == Применение квантилей в задачах проверки статистических гипотез == | ||
+ | |||
+ | Часто применяемая схема решения в задаче [[проверка_статистических_гипотез|проверки статистических гипотез]] имеет следующий вид. Стараются найти такую [[Статистика (функция выборки)|статистику]] <tex>T</tex>, чтобы: | ||
+ | * распределение <tex>T</tex> при нулевой гипотезе <tex>H_0</tex> было бы известно (это позволит вычислить вероятность ошибки I рода); | ||
+ | * при альтернативной гипотезе <tex>H_1</tex> из общих соображений было бы ясно, что статистика <tex>T</tex> отклоняется от данного распределения либо в положительную, либо в отрицательную сторону. | ||
+ | |||
+ | Если статистика <tex>T</tex> с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме. | ||
+ | |||
+ | Если в дополнение к указанным условиям, распределение <tex>T</tex> будет известно также и при альтернативе <tex>H_1</tex>, то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы. | ||
+ | |||
+ | == Применение квантилей в задачах оценивания параметров == | ||
+ | |||
+ | Рассмотрим задачу построения [[доверительный_интервал|доверительного интервала]] для неизвестного числового параметра <tex>\theta</tex>. При этом часто применяется следующая схема. Стараются найти такую случайную величину <tex>Z=Z(\theta)</tex>, которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является [[Статистика (функция выборки)|статистикой]]), чтобы ее закон распределения был бы известен и не зависел бы от <tex>\theta</tex>. Тогда можно для заданного уровня <tex>\alpha</tex> найти двусторонние квантили и записать следующее соотношение: | ||
+ | <center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z \le z_{\alpha/2}^+ \right\} \ge 1-\alpha</tex>.</center> | ||
+ | Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде: | ||
+ | <center><tex>\mathbb{P}\left\{ z_{\alpha/2}^- \le Z(\theta) \le z_{\alpha/2}^+ \right\}=\mathbb{P}\left\{ \theta^- \le \theta \le\theta^+ \right\}</tex>,</center> | ||
+ | чтобы величины <tex>\theta^-</tex> и <tex>\theta^+</tex> зависели бы только от выборки, т.е. являлись бы [[Статистика (функция выборки)|статистиками]]. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра. | ||
+ | |||
+ | == Выборочные квантили; статистическая оценка квантилей == | ||
Пусть задана [[простая выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex>, и её [[вариационный ряд]] есть | Пусть задана [[простая выборка]] <tex>x^m = (x_1,\ldots,x_m)</tex>, и её [[вариационный ряд]] есть | ||
::<tex>x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.</tex> | ::<tex>x^{(1)} \leq x^{(2)} \leq \cdots \leq x^{(m)}.</tex> | ||
- | '''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha | + | '''Выборочный <tex>\alpha</tex>-кванти́ль''' или выборочный квантиль порядка <tex>\alpha, \: \alpha \in (0,\,1),</tex> |
- | есть [[ | + | есть [[Статистика (функция выборки)|статистика]], равная элементу вариационного ряда с номером <tex>[m\alpha+1]</tex> |
(целая часть от <tex>m\alpha+1</tex>). | (целая часть от <tex>m\alpha+1</tex>). | ||
Пусть <tex>f</tex> — плотность, <tex>F</tex> — функция распределения случайной величины <tex>x</tex>. | Пусть <tex>f</tex> — плотность, <tex>F</tex> — функция распределения случайной величины <tex>x</tex>. | ||
- | Тогда выборочные квантили | + | Тогда выборочные квантили порядка |
<tex>0 < \alpha_1 \leq \cdots \leq \alpha_k < 1</tex> | <tex>0 < \alpha_1 \leq \cdots \leq \alpha_k < 1</tex> | ||
имеют при | имеют при | ||
<tex>m \to \infty</tex> | <tex>m \to \infty</tex> | ||
асимптотически ''k''-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям | асимптотически ''k''-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям | ||
- | <tex>x_{\alpha_i},\; i=1,\ldots,k</tex> | + | <tex>x_{\alpha_i},\; i=1,\ldots,k,</tex> |
и ковариациями | и ковариациями | ||
::<tex>\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.</tex> | ::<tex>\frac{\alpha_i(1-\alpha_j)}{m f\left(x_{\alpha_i}\right) f\left(x_{\alpha_j}\right) },\;\; i\leq j,\;\; i,j= 1,\ldots,k.</tex> | ||
- | Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей. | + | Таким образом, выборочные квантили являются [[статистическое_оценивание|несмещёнными оценками]] обычных (не выборочных) квантилей. |
+ | |||
+ | Асимптотическая нормальность позволяет также записать <tex>\beta</tex>-процентный [[доверительный интервал]] для квантиля <tex>x_\alpha, \: \alpha \in (0,\,1)</tex>: | ||
+ | :: <tex>x^{([m\alpha+1])}\pm\frac{z_{\beta/2}}{\sqrt{n}} \frac{\sqrt{\alpha\left(1-\alpha\right)}}{f\left(x_\alpha\right)}.</tex> | ||
== Литература == | == Литература == |
Текущая версия
-кванти́ль (или квантиль порядка ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей .
Определение
-кванти́ль случайной величины с функцией распределения — это любое число удовлетворяющее двум условиям:
- 1)
- 2)
Заметим, что данные условия эквивалентны следующим:
Если — непрерывная строго монотонная функция, то существует единственный квантиль любого порядка который однозначно определяется из уравнения и, следовательно, выражается через функцию, обратную к функции распределения:
Кроме указанной ситуации, когда уравнение имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:
- если указанное уравнение не имеет решений, то это означает, что существует единственная точка в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка . Для этой точки выполнены соотношения: и (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).
- если уравнение имеет более одного решения, то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины в данный интервал равна нулю.
Часто используемые квантили специальных видов
Проценти́ль
Дециль
Квинтиль
Квартиль
Медиана
Терминология, принятая в математической статистике
В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология.
Нижний (односторонний) квантиль уровня — то же, что и обычный квантиль порядка :
Верхний (односторонний) квантиль уровня — обычный квантиль порядка :
Двусторонние квантили уровня — пара (нижний+верхний) односторонних квантилей уровня . Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью:
Применение квантилей в задачах проверки статистических гипотез
Часто применяемая схема решения в задаче проверки статистических гипотез имеет следующий вид. Стараются найти такую статистику , чтобы:
- распределение при нулевой гипотезе было бы известно (это позволит вычислить вероятность ошибки I рода);
- при альтернативной гипотезе из общих соображений было бы ясно, что статистика отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.
Если статистика с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме.
Если в дополнение к указанным условиям, распределение будет известно также и при альтернативе , то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы.
Применение квантилей в задачах оценивания параметров
Рассмотрим задачу построения доверительного интервала для неизвестного числового параметра . При этом часто применяется следующая схема. Стараются найти такую случайную величину , которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является статистикой), чтобы ее закон распределения был бы известен и не зависел бы от . Тогда можно для заданного уровня найти двусторонние квантили и записать следующее соотношение:
Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:
чтобы величины и зависели бы только от выборки, т.е. являлись бы статистиками. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.
Выборочные квантили; статистическая оценка квантилей
Пусть задана простая выборка , и её вариационный ряд есть
Выборочный -кванти́ль или выборочный квантиль порядка есть статистика, равная элементу вариационного ряда с номером (целая часть от ).
Пусть — плотность, — функция распределения случайной величины . Тогда выборочные квантили порядка имеют при асимптотически k-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям и ковариациями
Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей.
Асимптотическая нормальность позволяет также записать -процентный доверительный интервал для квантиля :
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
Ссылки
- Quantile, Percentile, Decile — статьи в англоязычной Википедии.
- Квантиль — статья в русской Википедии.