Медиана
Материал из MachineLearning.
м («Медиана (статистика)» переименована в «Медиана») |
(викификация) |
||
(2 промежуточные версии не показаны) | |||
Строка 1: | Строка 1: | ||
- | + | '''Медиана''' ''(50-й процентиль, квантиль 0,5)'' — возможное значение признака, которое делит ранжированную совокупность ([[Вариационный ряд|вариационный ряд выборки]]) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. | |
- | '''Медиана''' ''(50-й процентиль, квантиль 0,5)'' — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. | + | |
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. ''тяжёлыми хвостами''. | Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. ''тяжёлыми хвостами''. | ||
- | Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши). | + | Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у [[Распределение Коши|распределения Коши]]). |
+ | |||
+ | == Медиана вероятностных распределений == | ||
+ | {| class="standard" align="right" | ||
+ | !Распределение | ||
+ | !Медиана | ||
+ | |- | ||
+ | |Нормальное <tex>\operator{N}\left(\mu,\sigma\right)</tex> | ||
+ | |<center><tex>\mu</tex></center> | ||
+ | |- | ||
+ | |Равномерное <tex>\operator{R}\left(a,b\right)</tex> | ||
+ | |<center><tex>\frac{a+b}{2}</tex></center> | ||
+ | |- | ||
+ | |Логнормальное <tex>\operator{LN}\left(\mu,\sigma\right)</tex> | ||
+ | |<center><tex>e^\mu</tex></center> | ||
+ | |- | ||
+ | |Стьюдента <tex>\operator{St}\left(f\right)</tex> | ||
+ | |<center><tex>0</tex></center> | ||
+ | |- | ||
+ | |Экспоненциальное <tex>\operator{Exp}\left(\lambda\right)</tex> | ||
+ | |<center><tex>\ln 2/\lambda</tex></center> | ||
+ | |- | ||
+ | |Вейбулла <tex>\operator{W}\left(k,\lambda\right)</tex> | ||
+ | |<center><tex>\lambda \ln(2)^{1/k}</tex></center> | ||
+ | |- | ||
+ | |Коши <tex>\operator{C}\left(x_0,\gamma\right)</tex> | ||
+ | |<center><tex>x_0</tex></center> | ||
+ | |} | ||
+ | |||
+ | Для любой вещественной случайной величины <tex>X</tex>, распределение которой задано функцией распределения <tex>F</tex>, медиана <tex>m</tex> удовлетворяет следующим неравенствам: | ||
+ | |||
+ | :<tex>\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and }\operatorname{P}(X\geq m) \geq \frac{1}{2}\,\!</tex> | ||
+ | |||
+ | или | ||
+ | |||
+ | :<tex>\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!</tex> | ||
+ | |||
+ | где интеграл понимается в смысле Лебега-Стилтьеса. | ||
+ | |||
+ | Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры. | ||
== Пример использования == | == Пример использования == | ||
Строка 14: | Строка 52: | ||
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений. | В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений. | ||
+ | |||
+ | [[Категория:Прикладная статистика]] | ||
+ | [[Категория:Энциклопедия анализа данных]] |
Текущая версия
Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.
Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительным для распределений с т.н. тяжёлыми хвостами.
Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется, в то время как математическое ожидание может быть не определено (например, у распределения Коши).
Медиана вероятностных распределений
Распределение | Медиана |
---|---|
Нормальное | |
Равномерное | |
Логнормальное | |
Стьюдента | |
Экспоненциальное | |
Вейбулла | |
Коши |
Для любой вещественной случайной величины , распределение которой задано функцией распределения , медиана удовлетворяет следующим неравенствам:
или
где интеграл понимается в смысле Лебега-Стилтьеса.
Для многих вероятностных распределений значение медианы выражается непосредственно через их параметры.
Пример использования
Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги из своего кармана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.
Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое же совершенно неподходящая характеристика в нашем случае, поскольку выходит, что каждый, будь то бедняк или миллиардер, имел приблизительно $50 000 004,75.
Неуникальность значения
В случае, когда имеется чётное количество случаев и два средних значения различаются, медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.