Взвешенное среднее Тьюки

Материал из MachineLearning.

(Различия между версиями)

Версия 10:41, 24 октября 2011

Один шаг вычисления взвешенного среднего Тьюки

Взвешенное среднее Тьюки — оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:

Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана).
Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.

Часто используют только одну итерацию вычисления оценки.

Одношаговый метод вычисления оценки

Пусть имеется выборка $x=\left\{x_1,\ldots,x_n\right\}.$ По ней рассчитывается медиана $M$ , затем для каждого наблюдения — модуль его отклонения от медианы. Величина $S$ — медиана выборки $\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}$ — называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.

Для каждого элемента выборки $x_i$ вычисляется отклонение от среднего: $u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,$ где $c$ — параметр, от которого зависит чувствительность к отклонениям от среднего, $\eps$ — малая постоянная величина, назначение которой — исключить возможность деления на ноль.

Для взвешивания используется биквадратичная функция: $w\left(u\right)=\left\{ \left(1-u^2\right)^2, \:\: \left|u\right| \leq 1, \\ 0, \:\:\: \left|u\right|>1. \right.$

Итоговое значение среднего вычисляется по следующей формуле:

$T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.$

Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный $(1-\alpha)$ % доверительный интервал даётся формулой

$T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 } } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },$

где $t_{df}^{(1-\alpha/2)}$ — $\left(1-\alpha/2\right)$ -квантиль распределения Стьюдента с числом степеней свободы $df=\max\left(0.7*(n-1),1\right).$

Итерационный метод вычисления оценки

Литература

Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).

Примечания

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%92%D0%B7%D0%B2%D0%B5%D1%88%D0%B5%D0%BD%D0%BD%D0%BE%D0%B5_%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%B5_%D0%A2%D1%8C%D1%8E%D0%BA%D0%B8»

Категории: Незавершённые статьи | Прикладная статистика

@@ Строка 6: / Строка 6: @@
 == Одношаговый метод вычисления оценки==
-Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения — модуль его отклонения от медианы. Величина <tex>S</tex> — медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> — называется абсолютным отклонением среднего (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки.
+Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения — модуль его отклонения от медианы. Величина <tex>S</tex> — медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> — называется [[Абсолютное отклонение среднего|абсолютным отклонением среднего]] (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки.
 Для каждого элемента выборки <tex>x_i</tex> вычисляется отклонение от среднего: <tex>u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,</tex> где <tex>c</tex> — параметр, от которого зависит чувствительность к отклонениям от среднего, <tex>\eps</tex> — малая постоянная величина, назначение которой — исключить возможность деления на ноль.

Взвешенное среднее Тьюки

Материал из MachineLearning.

Версия 10:41, 24 октября 2011

Содержание

Одношаговый метод вычисления оценки

Итерационный метод вычисления оценки

Литература

Примечания

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты