Медиана

Материал из MachineLearning.

Версия от 17:12, 16 мая 2010; Yury Chekhovich (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.

Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. тяжёлыми хвостами.

Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Медиана вероятностных распределений

Распределение Медиана
Нормальное \operator{N}\left(\mu,\sigma\right)
\mu
Равномерное \operator{R}\left(a,b\right)
\frac{a+b}{2}
Логнормальное \operator{LN}\left(\mu,\sigma\right)
e^\mu
Стьюдента \operator{St}\left(f\right)
0
Экспоненциальное \operator{Exp}\left(\lambda\right)
\ln 2/\lambda
Вейбулла \operator{W}\left(k,\lambda\right)
\lambda \ln(2)^{1/k}
Коши \operator{C}\left(x_0,\gamma\right)
x_0

Для любой вещественной случайной величины X, распределение которой задано функцией распределения F, медиана m удовлетворяет следующим неравенствам:

\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!

или

\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!

где интеграл понимается в смысле Лебега-Стилтьеса.

Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.

Пример использования

Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги из своего кармана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое же совершенно неподходящая характеристика в нашем случае, поскольку выходит, что каждый, будь то бедняк или миллиардер, имел приблизительно $50 000 004,75.

Неуникальность значения

В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.

Личные инструменты