Взвешенное среднее Тьюки

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(/* Одношаговый метод вычисления оценки1. Affymetrix. Statistical Algorithms Description Document, Appendix I. Technical report, Affymetrix. 2002. http://www.affymetrix.com/support/technical/whitepapers/sadd_whitepaper.)
Текущая версия (06:48, 25 октября 2011) (править) (отменить)
м
 
(9 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
[[Изображение:Tukey.PNG|thumb|250px||Один шаг вычисления взвешенного среднего Тьюки]]
+
[[Изображение:Tukey.PNG|thumb|300px||Один шаг вычисления взвешенного среднего Тьюки]]
-
Взвешенное среднее Тьюки - оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
+
Взвешенное среднее Тьюки — [[М-оценка]] среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
-
# Вычисляется оценка среднего значения выборки (в начала работы алгоритма - обычная медиана).
+
# Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана).
# Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
# Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
Часто используют только одну итерацию вычисления оценки.
Часто используют только одну итерацию вычисления оценки.
-
== Одношаговый метод вычисления оценки<ref name="affy2002">1. Affymetrix. Statistical Algorithms Description Document, Appendix I. Technical report, Affymetrix. 2002. http://www.affymetrix.com/support/technical/whitepapers/sadd_whitepaper.pdf</ref>==
 
-
Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения - модуль его отклонения от медианы. Величина <tex>S</tex> - медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> - называется абсолютным отклонением среднего (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки.
 
-
Для каждого элемента выборки <tex>x_i</tex> вычисляется отклонение от среднего: <tex>u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,</tex> где <tex>c</tex> - параметр, от которого зависит чувствительность к отклонениям от среднего, <tex>\eps</tex> - малая постоянная величина, назначение которой - исключить возможность деления на ноль.
+
== Одношаговый метод вычисления оценки==
 +
Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения — модуль его отклонения от медианы. Величина <tex>S</tex> — медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> — называется [[Абсолютное отклонение среднего|абсолютным отклонением среднего]] (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки.
 +
 
 +
Для каждого элемента выборки <tex>x_i</tex> вычисляется отклонение от среднего: <tex>u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,</tex> где <tex>c</tex> — параметр, от которого зависит чувствительность к отклонениям от среднего, <tex>\eps</tex> — малая постоянная величина, назначение которой — исключить возможность деления на ноль.
Для взвешивания используется биквадратичная функция: <tex>w\left(u\right)=\left\{ \left(1-u^2\right)^2, \:\: \left|u\right| \leq 1, \\ 0, \:\:\: \left|u\right|>1. \right.</tex>
Для взвешивания используется биквадратичная функция: <tex>w\left(u\right)=\left\{ \left(1-u^2\right)^2, \:\: \left|u\right| \leq 1, \\ 0, \:\:\: \left|u\right|>1. \right.</tex>
-
Итоговое значение среднего вычисляется по следующей формуле: <br/><tex>T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.</tex>
+
Итоговое значение среднего вычисляется по следующей формуле:
 +
::<tex>T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.</tex>
-
Дополнительное преимущество алгоритма - возможность рассчитать [[доверительный интервал]] для оценки при помощи приближения распределением Стьюдента. Симметричный <tex>(1-\alpha)</tex>% доверительный интервал даётся формулой <br/><tex>T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 } } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },</tex> <br/> где <tex>t_{df}^{(1-\alpha/2)}</tex> - <tex>\left(1-\alpha/2\right)</tex>-квантиль распределения Стьюдента с числом степеней свободы <tex>df=\max\left(0.7*(n-1),1\right).</tex>
+
Дополнительное преимущество алгоритма - возможность рассчитать [[доверительный интервал]] для оценки при помощи приближения распределением Стьюдента. Симметричный <tex>(1-\alpha)</tex>% доверительный интервал даётся формулой
 +
::<tex>T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 } } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },</tex>
 +
где <tex>t_{df}^{(1-\alpha/2)}</tex> — <tex>\left(1-\alpha/2\right)</tex>-квантиль распределения Стьюдента с числом степеней свободы <tex>df=\max\left(0.7*(n-1),1\right).</tex>
== Итерационный метод вычисления оценки==
== Итерационный метод вычисления оценки==
Строка 21: Строка 25:
<references/>
<references/>
{{Stub}}
{{Stub}}
 +
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]

Текущая версия

Один шаг вычисления взвешенного среднего Тьюки
Один шаг вычисления взвешенного среднего Тьюки

Взвешенное среднее Тьюки — М-оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:

  1. Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана).
  2. Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.

Часто используют только одну итерацию вычисления оценки.

Содержание

Одношаговый метод вычисления оценки

Пусть имеется выборка x=\left\{x_1,\ldots,x_n\right\}. По ней рассчитывается медиана M, затем для каждого наблюдения — модуль его отклонения от медианы. Величина S — медиана выборки \left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\} — называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.

Для каждого элемента выборки x_i вычисляется отклонение от среднего: u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n, где c — параметр, от которого зависит чувствительность к отклонениям от среднего, \eps — малая постоянная величина, назначение которой — исключить возможность деления на ноль.

Для взвешивания используется биквадратичная функция: w\left(u\right)=\left\{ \left(1-u^2\right)^2, \:\: \left|u\right| \leq 1, \\ 0, \:\:\: \left|u\right|>1. \right.

Итоговое значение среднего вычисляется по следующей формуле:

T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.

Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный (1-\alpha)% доверительный интервал даётся формулой

T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 }  } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },

где t_{df}^{(1-\alpha/2)} — \left(1-\alpha/2\right)-квантиль распределения Стьюдента с числом степеней свободы df=\max\left(0.7*(n-1),1\right).

Итерационный метод вычисления оценки

Литература

Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).

Примечания

Личные инструменты