Медиана

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м Медиана (статистика)» переименована в «Медиана»)
(викификация)
 
(2 промежуточные версии не показаны)
Строка 1: Строка 1:
-
{{Задание|Лошкарёв Сергей|Константин Воронцов|8 января 2010}}
+
'''Медиана''' ''(50-й процентиль, квантиль 0,5)'' — возможное значение признака, которое делит ранжированную совокупность ([[Вариационный ряд|вариационный ряд выборки]]) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
-
'''Медиана''' ''(50-й процентиль, квантиль 0,5)'' — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
+
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. ''тяжёлыми хвостами''.
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. ''тяжёлыми хвостами''.
-
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
+
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у [[Распределение Коши|распределения Коши]]).
 +
 
 +
== Медиана вероятностных распределений ==
 +
{| class="standard" align="right"
 +
!Распределение
 +
!Медиана
 +
|-
 +
|Нормальное <tex>\operator{N}\left(\mu,\sigma\right)</tex>
 +
|<center><tex>\mu</tex></center>
 +
|-
 +
|Равномерное <tex>\operator{R}\left(a,b\right)</tex>
 +
|<center><tex>\frac{a+b}{2}</tex></center>
 +
|-
 +
|Логнормальное <tex>\operator{LN}\left(\mu,\sigma\right)</tex>
 +
|<center><tex>e^\mu</tex></center>
 +
|-
 +
|Стьюдента <tex>\operator{St}\left(f\right)</tex>
 +
|<center><tex>0</tex></center>
 +
|-
 +
|Экспоненциальное <tex>\operator{Exp}\left(\lambda\right)</tex>
 +
|<center><tex>\ln 2/\lambda</tex></center>
 +
|-
 +
|Вейбулла <tex>\operator{W}\left(k,\lambda\right)</tex>
 +
|<center><tex>\lambda \ln(2)^{1/k}</tex></center>
 +
|-
 +
|Коши <tex>\operator{C}\left(x_0,\gamma\right)</tex>
 +
|<center><tex>x_0</tex></center>
 +
|}
 +
 
 +
Для любой вещественной случайной величины <tex>X</tex>, распределение которой задано функцией распределения <tex>F</tex>, медиана <tex>m</tex> удовлетворяет следующим неравенствам:
 +
 
 +
:<tex>\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!</tex>
 +
 
 +
или
 +
 
 +
:<tex>\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!</tex>
 +
 
 +
где интеграл понимается в смысле Лебега-Стилтьеса.
 +
 
 +
Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.
== Пример использования ==
== Пример использования ==
Строка 14: Строка 52:
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.
 +
 +
[[Категория:Прикладная статистика]]
 +
[[Категория:Энциклопедия анализа данных]]

Текущая версия

Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.

Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. тяжёлыми хвостами.

Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Медиана вероятностных распределений

Распределение Медиана
Нормальное \operator{N}\left(\mu,\sigma\right)
\mu
Равномерное \operator{R}\left(a,b\right)
\frac{a+b}{2}
Логнормальное \operator{LN}\left(\mu,\sigma\right)
e^\mu
Стьюдента \operator{St}\left(f\right)
0
Экспоненциальное \operator{Exp}\left(\lambda\right)
\ln 2/\lambda
Вейбулла \operator{W}\left(k,\lambda\right)
\lambda \ln(2)^{1/k}
Коши \operator{C}\left(x_0,\gamma\right)
x_0

Для любой вещественной случайной величины X, распределение которой задано функцией распределения F, медиана m удовлетворяет следующим неравенствам:

\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!

или

\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!

где интеграл понимается в смысле Лебега-Стилтьеса.

Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.

Пример использования

Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги из своего кармана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое же совершенно неподходящая характеристика в нашем случае, поскольку выходит, что каждый, будь то бедняк или миллиардер, имел приблизительно $50 000 004,75.

Неуникальность значения

В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.

Личные инструменты