Среднее, взвешенное по расстоянию

Материал из MachineLearning.

Версия от 06:24, 9 марта 2014; Yury Chekhovich (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Среднее, взвешенное по расстоянию — мера центральной тенденции, как частный случай взвешенного среднего. Предложена в качестве альтернативы устойчивым мерам, основанным на усечении данных.

Весовые коэффициенты среднего, взвешенного по расстоянию, рассчитываются как инвертированная сумма расстояний от значения, для которого рассчитывается «вес» до остальных значений распределения.

Важным свойством данной меры центральной тенденции является то, что расчет весовых коэффициентов не предполагает использование каких-либо параметров (среднее, медиана и пр.) оригинального распределения в качестве входящей информации.

Содержание

Общая формула

В случае нестандартизированных весовых коэффициентов общую формулу среднего, взвешенного по расстоянию можно представить как:

\bar{x} = \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i}\;\;\;\text{where}\;\;\;w_i = \frac{k}{\sum_{j=1}^n |x_i-x_j|}.

где k — любое положительное число. Коэффициент k носит чисто технический характер и служит для того, чтобы избежать ошибки, которая может возникнуть при достаточно больших распределениях (очень большая сумма в знаменателе). В большинстве случаев k может быть принят как n (количество значений в распределении) или n-1 . В последнем случае нестандартизированные весовые коэффициенты будут представлять собой средние инвертированные расстояния от значения, для которого рассчитывается «вес» до остальных значений распределения.

Пример расчета

Пусть имеется: x1 = 5, x2 = 6, x3 = 8, x4 = 12. Весовые коэффициенты для xi рассчитываются следующим образом:

w_1 = \frac{1}{\left| {x_1-x_2} \right| + \left| {x_1-x_3} \right| + \left| {x_1-x_4} \right|} = \frac{1}{\left| {5-6} \right| + \left| {5-8} \right| + \left| {5-12} \right|} = \frac{1}{11},
w_2 = \frac{1}{\left| {x_2-x_1} \right| + \left| {x_2-x_3} \right| + \left| {x_2-x_4} \right|} = \frac{1}{\left| {6-5} \right| + \left| {6-8} \right| + \left| {6-12} \right|} = \frac{1}{9},
w_3 = \frac{1}{\left| {x_3-x_1} \right| + \left| {x_3-x_2} \right| + \left| {x_3-x_4} \right|} = \frac{1}{\left| {8-5} \right| + \left| {8-6} \right| + \left| {8-12} \right|} = \frac{1}{9},
w_4 = \frac{1}{\left| {x_4-x_1} \right| + \left| {x_4-x_2} \right| + \left| {x_4-x_3} \right|} = \frac{1}{\left| {12-5} \right| + \left| {12-6} \right| + \left| {12-8} \right|} = \frac{1}{17}.

В соответствии с полученными коэффициентами имеем:

\mathrm{DWM} = \frac{w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4}{w_1 + w_2 + w_3 + w_4} \approx 7,3.

Код для программной среды R

dwm = function(x) { 
y = x[!is.na(x)]; n = length(y) 
if(all(y == y[1])) y[1] else { 
if(n==1) y else { 
w = 1:n 
for (i in 1:n) {w[i] = sum(abs(y-y[i]))} 
w = 1/w/sum(1/w); sum(w*y)}}}

Сравнение с другими мерами центральной тенденции

Среднее, взвешенное по расстоянию менее чувствительно к возможным «выбросам» (аутлайерам) распределения, чем многие другие меры центральной тенденции. Одним из основных преимуществ данной меры является то, что она не предполагает удаления (или замены) части данных распределения, что оказывается немаловажным в тех случаях, когда идентифицировать явные «выбросы» (аутлайеры) не представляется возможным.

См. также

Стандартное отклонение, взвешенное по расстоянию

Z-оценки, взвешенные по расстоянию

Ссылки

Личные инструменты