Робастное оценивание

Материал из MachineLearning.

(Различия между версиями)

Версия 22:55, 5 января 2010

Содержание

1 Введение
2 Основные типы оценок
3 Вычисление робастных оценок
4 Литература
5 Ссылки
6 См. также

Введение

На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).

Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.

Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.

Основные типы оценок

Введем оценки трех основных типов ( $M,\;\;L,\;\;R$ ),буквы $M,\;\;L,\;\;R$ отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.

Особое значение имеют $M-$ оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.

Оценки типа максимального правдоподобия (M-оценки)

Всякая оценка $T_n$ , определяемая как решение экстремальной задачи на минимум вида

$\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min$

или как решение неявного уравнения

$\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0$ ,

где $\rho$ - произвольная функция, $\psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta)$ , называется $M-$ оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции $\rho(x\,;\,\theta)$ $-\log f(x\,;\,\theta)$ , то мы получим обычную оценку максимального правдоподобия.

В частности, нас будут интересовать оценки сдвига

$\sum_{i=1}^n \rho (x_i - T_n) \rightarrow \min$

или

$\sum_{i=1}^n \psi (x_i - T_n) = 0$ .

Последнее уравнение можно записать в эквивалентном виде

$\sum_{i=1}^n \omega_i (x_i - T_n) = 0$ ,

где

$\omega_i=\frac{\psi (x_i -Y_n)}{x_i - T_n}$

Тогда мы можем представить оценку $T_n$ в форме взвешенного среднего

$T_n=\frac{\sum_{i=1}^n\omega_i x_i}{\sum_{i=1}^n w_i}$

с весовыми коэффициентами $\omega_i$ , зависящими от выборки.

Оценки типа максимального правдоподобия (L-оценки)

Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции $h$ :

$T_n = \sum_{i=1}^n a_{ni}h(x_{(i)})$

Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры $M$ на интервале (0,1):

$a_{ni}=\frac{1}{2} M \left{ \left(\frac{i-n}{n}\,,\,\frac{i}{n}\right)\right} + \frac{1}{2} M \left{ \left[\frac{i-n}{n}\,,\,\frac{i}{n}\right]\right}$

(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. $\sum_{i=1}^n a_{in}=M\{(0,1)\}$ , и обеспечивает симметричность коэффициентов, если мера $M$ симметрична относительно точки $t=1/2$ .)

В рассматриваевом случае оценка $T_n=T(F_n)$ получается при помощи функционала

$T(F)=\int {h(F^{-1}(s))M(ds)}$ .

Здесь под функцией, обратной к ффункции распределения $F$ , понимается функция

$F^{-1}(s)=inf\{x|F(x) \ge s\}\,,\;\; 0<s<1$

Оценки, получаемые в ранговых критериях (R-оценки)

Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть $x_1,\;\;\dots, x_m$ и $y_1,\;\;\dots, y_n$ суть две независимые выборки с распределениями $F(x)$ и $G(x)=F(x-\Delta)$ соответственно.Объединим эти выборку в одну выборку объема $m+n$ .Пусть $R_i$ есть ранг наблюдения $x_i$ в объединенной выборке. Зададим веса $a_i=a(i)\,,\;\; 1 \le i \le m+n$ . Критерий для проверки гипотезы $\Delta=0$ при альтернативе $\Delta > 0$ построим на основе статистики

$S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)$

Как правило, мы полагаем, что весовые коэффициенты $a_i$ получаются при помощи некоторой функции $J$ по формуле

$a_i=J\left(\frac{i}{m+n+i}\right)$

В действительности предпочитают работать со следующим вариантов вычисления

$a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}$ .

Для упрощения с этого момента полагаем, что $m=n$ . Запишем статистику $S$ в виде функционала

$S(F\,,\,G)=\int J\left[\frac12F(x)+\frac12G(x)\right]F(dx)$ ,

который при подстановке $F(x)=s$ примет вид

$S(F\,,\,G)=\int J\left[\frac12s+\frac12G(F^{-1}(s))\right]ds$ .

На практике работают с последним. Кроме того, работаем с условием того, что

$\int {J(s)ds} = 0$ ,

соответсвующее равенству

$\sum a_i=0$

В этих предположениях математическое ожидание статистики $S$ при нулевой гипотезе равно 0.

Оценки сдвига $\Delta_n$ в двухвыборочной постановке и сдвига $T_n$ в случае одной выборки можно получить при помощи следующих ранговых критериев.

В случае двух выборок получить $\Delta_n$ из приближенного уравнения $S_{n,n} \approx 0$ полученного для выборок $(x_1,\;\;\dots, x_n)$ и $(y_1 - \Delta_n,\;\;\dots, y_n - \Delta_n)$
В случае одной выборки получить $T_n$ из условия $S_{n,n} \approx 0$ ,вычисленного для выборок $(x_1,\;\;\dots, x_n)$ и $(2T_n - x_1 ,\;\;\dots, 2T_n-x_n)$ . В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки.

Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку $S_{n,n}$ - разрывная функция.

Таким образом, наша оценка сдвига $T_n$ , полученная при помощи функционала $T(F)$ , определяется неявным уравнением

$\int J\left{\frac12\left[s+1 - F(2T(F) - F^{-1}(s))\right]\right}ds=0$ .

Вычисление робастных оценок

Рассмотрим пример. Для оценки $p$ неизвестных параметров $\theta_1,\; \dots ,\theta_p$ используется $n$ наблюдений $y_1,\; \dots,y_n$ , причем они связаны между собой следующим неравенством $\mathbf{y}=X\mathbf{\theta}+\mathbf{u}$ , где элементы матрицы $X$ суть известные коэффициенты, а $\mathbf{u}$ - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.

Тогда решение сводится к следующему: $|\mathbf{y}-X\mathbf{\theta}|^2 \rightarrow \min$

Если матрица $X$ - матрица полного ранга $p$ , то $\hat \theta={(X^{T}X)}^{-1}X^T\mathbf{y}$ , а оценки $\hat y_i$ будут высиляться по следующей формуле $\hat{\mathbf{y}} = H\mathbf{y}$ , где $H=X{(X^{T}X)}^{-1}X^T$ , далее $H$ - матрица подгонки.

Допустим, что мы получили значения $\hat y_i$ и остатки $r_i=y_i-\hat y_i$ .

Пусть $s_i$ - некоторая оценка стандартной ошибки наблюдений $y_i$ (или стандартной ошибки остатков $r_i$ )

Метрически винзоризуем наблюдения $y_i$ , заменяя их псевдонаблюдениями ${y_i}^{\ast}$ :

${y_i}^{\ast}= \left{ y_i\,, \; \;\; |r_i| \le cs_i \\ \hat y_i - cs_i\,, \;\; r_i<-cs_i \\ \hat y_i + cs_i\,, \;\; r_i>cs_i \right.$

Константа $c$ регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего $c=1.5$ .

Затем по псевдонаблюдениям $y_i^{\ast}$ вычисляются новые значения $\hat{y_i}$ подгонки (и новые $s_i$ ). Действия повторяются до достижения сходимости.

Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид $s^2=\frac{1}{n-p}\sum{r_i^2}$ , и стандартную ошибку остатка $r_i$ можно в этом случае оценивать величиной $s_i=\sqrt{1-h_i}s$ , где $h_i$ есть $i$ -й диагональный элемент матрицы $H$ .

При использовании вместо остатков $r_i$ модифицированных остатков $r_i^{\ast}=y_i^{\ast}- \hat y_i$ , как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)

$s^2=\frac{1}{n-p}\sum{{r_i}^{\ast2}/(\frac{m}{n})^2}$ ,

где $n-p$ - число наблюдений без числа параметров, $m$ - число неизменных наблюдений ( $y_i^{\ast}=y_i$ ).

Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.

Литература

Хьюбер П. Робастность в статистике. — М.: Мир, 1984.

Ссылки

См. также

Метод наименьших квадратов

Данная статья является непроверенным учебным заданием.

Студент: Участник:Джумабекова Айнагуль

Преподаватель: Участник:Vokov

Срок: 6 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A0%D0%BE%D0%B1%D0%B0%D1%81%D1%82%D0%BD%D0%BE%D0%B5_%D0%BE%D1%86%D0%B5%D0%BD%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5»

Категории: Математическая статистика | Непроверенные учебные задания

@@ Строка 96: / Строка 96: @@
 Оценки сдвига <tex>\Delta_n</tex> в двухвыборочной постановке и сдвига <tex>T_n</tex> в случае одной выборки можно получить при помощи следующих ранговых критериев.
 #В случае двух выборок получить <tex>\Delta_n</tex> из приближенного уравнения <tex>S_{n,n} \approx 0</tex> полученного для выборок  <tex>(x_1,\;\;\dots, x_n)</tex> и <tex>(y_1 - \Delta_n,\;\;\dots, y_n - \Delta_n)</tex>
+#В случае одной выборки получить <tex>T_n</tex> из  условия <tex>S_{n,n} \approx 0</tex>,вычисленного для выборок  <tex>(x_1,\;\;\dots, x_n)</tex> и <tex>(2T_n - x_1 ,\;\;\dots, 2T_n-x_n)</tex>. В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки.
+Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку <tex>S_{n,n}</tex> - разрывная функция.
+Таким образом, наша оценка сдвига <tex>T_n</tex>, полученная при помощи функционала <tex>T(F)</tex>, определяется неявным уравнением
+::<tex>\int J\left{\frac12\left[s+1 - F(2T(F) - F^{-1}(s))\right]\right}ds=0</tex>.
 == Вычисление робастных оценок ==