Робастное оценивание

Материал из MachineLearning.

Версия от 22:14, 5 января 2010; Айнагуль Джумабекова (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Введение
2 Основные типы оценок
3 Вычисление робастных оценок
4 Литература
5 Ссылки
6 См. также

Введение

На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).

Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.

Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.

Основные типы оценок

Введем оценки трех основных типов ( $M,\;\;L,\;\;R$ ),буквы $M,\;\;L,\;\;R$ отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.

Особое значение имеют $M-$ оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.

Оценки типа максимального правдоподобия (M-оценки)

Всякая оценка $T_n$ , определяемая как решение экстремальной задачи на минимум вида

$\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min$

или как решение неявного уравнения

$\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0$ ,

где $\rho$ - произвольная функция, $\psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta)$ , называется $M-$ оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции $\rho(x\,;\,\theta)$ $-\log f(x\,;\,\theta)$ , то мы получим обычную оценку максимального правдоподобия.

В частности, нас будут интересовать оценки сдвига

$\sum_{i=1}^n \rho (x_i - T_n) \rightarrow \min$

или

$\sum_{i=1}^n \psi (x_i - T_n) = 0$ .

Последнее уравнение можно записать в эквивалентном виде

$\sum_{i=1}^n \omega_i (x_i - T_n) = 0$ ,

где

$\omega_i=\frac{\psi (x_i -Y_n)}{x_i - T_n}$

Тогда мы можем представить оценку $T_n$ в форме взвешенного среднего

$T_n=\frac{\sum_{i=1}^n\omega_i x_i}{\sum_{i=1}^n w_i}$

с весовыми коэффициентами $\omega_i$ , зависящими от выборки.

Оценки типа максимального правдоподобия (L-оценки)

Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции $h$ :

$T_n = \sum_{i=1}^n a_{ni}h(x_{(i)})$

Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры $M$ на интервале (0,1):

$a_{ni}=\frac{1}{2} M \left{ \left(\frac{i-n}{n}\,,\,\frac{i}{n}\right)\right} + \frac{1}{2} M \left{ \left[\frac{i-n}{n}\,,\,\frac{i}{n}\right]\right}$

(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. $\sum_{i=1}^n a_{in}=M\{(0,1)\}$ , и обеспечивает симметричность коэффициентов, если мера $M$ симметрична относительно точки $t=1/2$ .)

В рассматриваевом случае оценка $T_n=T(F_n)$ получается при помощи функционала

$T(F)=\int {h(F^{-1}(s))M(ds)}$ .

Здесь под функцией, обратной к ффункции распределения $F$ , понимается функция

$F^{-1}(s)=inf\{x|F(x) \ge s\}\,,\;\; 0<s<1$

Оценки, получаемые в ранговых критериях (R-оценки)

Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть $x_1,\;\;\dots, x_m$ и $y_1,\;\;\dots, y_n$ суть две независимые выборки с распределениями $F(x)$ и $G(x)=F(x-\Delta)$ соответственно.Объединим эти выборку в одну выборку объема $m+n$ $R_i$ $x_i$ $a_i=a(i)\,,\;\; 1 \le i \le m+n$ $\Delta=0$ $\Delta > 0$

$S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)$

$a_i$ $J$

$a_i=J\left(\frac{i}{m+n+i}\right)$

$a_i=(m+n)\int_{(i-1)/(m+n)}^{i/(m+n)} {J(s)ds}$

Вычисление робастных оценок

Рассмотрим пример. Для оценки $p$ неизвестных параметров $\theta_1,\; \dots ,\theta_p$ используется $n$ наблюдений $y_1,\; \dots,y_n$ , причем они связаны между собой следующим неравенством $\mathbf{y}=X\mathbf{\theta}+\mathbf{u}$ , где элементы матрицы $X$ суть известные коэффициенты, а $\mathbf{u}$ - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.

Тогда решение сводится к следующему: $|\mathbf{y}-X\mathbf{\theta}|^2 \rightarrow \min$

Если матрица $X$ - матрица полного ранга $p$ , то $\hat \theta={(X^{T}X)}^{-1}X^T\mathbf{y}$ , а оценки $\hat y_i$ будут высиляться по следующей формуле $\hat{\mathbf{y}} = H\mathbf{y}$ , где $H=X{(X^{T}X)}^{-1}X^T$ , далее $H$ - матрица подгонки.

Допустим, что мы получили значения $\hat y_i$ и остатки $r_i=y_i-\hat y_i$ .

Пусть $s_i$ - некоторая оценка стандартной ошибки наблюдений $y_i$ (или стандартной ошибки остатков $r_i$ )

Метрически винзоризуем наблюдения $y_i$ , заменяя их псевдонаблюдениями ${y_i}^{\ast}$ :

${y_i}^{\ast}= \left{ y_i\,, \; \;\; |r_i| \le cs_i \\ \hat y_i - cs_i\,, \;\; r_i<-cs_i \\ \hat y_i + cs_i\,, \;\; r_i>cs_i \right.$

Константа $c$ регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего $c=1.5$ .

Затем по псевдонаблюдениям $y_i^{\ast}$ вычисляются новые значения $\hat{y_i}$ подгонки (и новые $s_i$ ). Действия повторяются до достижения сходимости.

Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид $s^2=\frac{1}{n-p}\sum{r_i^2}$ , и стандартную ошибку остатка $r_i$ можно в этом случае оценивать величиной $s_i=\sqrt{1-h_i}s$ , где $h_i$ есть $i$ -й диагональный элемент матрицы $H$ .

При использовании вместо остатков $r_i$ модифицированных остатков $r_i^{\ast}=y_i^{\ast}- \hat y_i$ , как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)

$s^2=\frac{1}{n-p}\sum{{r_i}^{\ast2}/(\frac{m}{n})^2}$ ,

где $n-p$ - число наблюдений без числа параметров, $m$ - число неизменных наблюдений ( $y_i^{\ast}=y_i$ ).

Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.

Литература

Хьюбер П. Робастность в статистике. — М.: Мир, 1984.

Ссылки

См. также

Метод наименьших квадратов

Данная статья является непроверенным учебным заданием.

Студент: Участник:Джумабекова Айнагуль

Преподаватель: Участник:Vokov

Срок: 6 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A0%D0%BE%D0%B1%D0%B0%D1%81%D1%82%D0%BD%D0%BE%D0%B5_%D0%BE%D1%86%D0%B5%D0%BD%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5»

Категории: Математическая статистика | Непроверенные учебные задания