Медиана
Материал из MachineLearning.
Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. тяжёлыми хвостами.
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
Медиана вероятностных распределений
Распределение | Медиана |
---|---|
Нормальное | |
Равномерное | |
Логнормальное | |
Стьюдента | |
Экспоненциальное | |
Вейбулла | |
Коши |
Для любой вещественной случайной величины , распределение которой задано функцией распределения , медиана удовлетворяет следующим неравенствам:
или
где интеграл понимается в смысле Лебега-Стилтьеса.
Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.
Пример использования
Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги из своего кармана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.
Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое же совершенно неподходящая характеристика в нашем случае, поскольку выходит, что каждый, будь то бедняк или миллиардер, имел приблизительно $50 000 004,75.
Неуникальность значения
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.