Робастное оценивание

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Введение

На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).

Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.

Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.

Основные типы оценок

Введем оценки трех основных типов (M,\;\;L,\;\;R),буквы M,\;\;L,\;\;R отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.

Особое значение имеют M-оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.

Оценки типа максимального правдоподобия (M-оценки)

Всякая оценка T_n, определяемая как решение экстремальной задачи на минимум вида

\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min

или как решение неявного уравнения

\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0,

где \rho - произвольная функция, \psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta), называется M-оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции \rho(x\,;\,\theta) -\log f(x\,;\,\theta), то мы получим обычную оценку максимального правдоподобия.

В частности, нас будут интересовать оценки сдвига

\sum_{i=1}^n \rho (x_i - T_n) \rightarrow \min

или

\sum_{i=1}^n \psi (x_i - T_n) = 0.

Последнее уравнение можно записать в эквивалентном виде

\sum_{i=1}^n \omega_i (x_i - T_n) = 0,

где

\omega_i=\frac{\psi (x_i -Y_n)}{x_i - T_n}

Тогда мы можем представить оценку T_n в форме взвешенного среднего

T_n=\frac{\sum_{i=1}^n\omega_i x_i}{\sum_{i=1}^n w_i}

с весовыми коэффициентами \omega_i, зависящими от выборки.

Оценки типа максимального правдоподобия (L-оценки)

Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции h:

 T_n = \sum_{i=1}^n a_{ni}h(x_{(i)})

Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры M на интервале (0,1):

a_{ni}=\frac{1}{2} M \left{ \left(\frac{i-n}{n}\,,\,\frac{i}{n}\right)\right} + \frac{1}{2} M \left{ \left[\frac{i-n}{n}\,,\,\frac{i}{n}\right]\right}

(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. \sum_{i=1}^n a_{in}=M\{(0,1)\}, и обеспечивает симметричность коэффициентов, если мера M симметрична относительно точки t=1/2.)

В рассматриваевом случае оценка T_n=T(F_n) получается при помощи функционала

T(F)=\int {h(F^{-1}(s))M(ds)}.

Здесь под функцией, обратной к ффункции распределения F, понимается функция

F^{-1}(s)=inf\{x|F(x) \ge s\}\,,\;\; 0<s<1

Оценки, получаемые в ранговых критериях (R-оценки)

Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть x_1,\;\;\dots, x_m и y_1,\;\;\dots, y_n суть две независимые выборки с распределениями F(x) и G(x)=F(x-\Delta)соответственно.Объединим эти выборку в одну выборку объема m+n.Пусть R_i есть ранг наблюдения x_i в объединенной выборке. Зададим веса a_i=a(i)\,,\;\; 1 \le i \le m+n. Критерий для проверки гипотезы \Delta=0 при альтернативе \Delta > 0 построим на основе статистики

S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)

Как правило, мы полагаем, что весовые коэффициенты a_i получаются при помощи некоторой функции J по формуле

a_i=J\left(\frac{i}{m+n+i}\right)

В действительности предпочитают работать со следующим вариантов вычисления

a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}.

Для упрощения с этого момента полагаем, что m=n. Запишем статистику S в виде функционала

S(F\,,\,G)=\int J\left[\frac12F(x)+\frac12G(x)\right]F(dx),

который при подстановке F(x)=s примет вид

S(F\,,\,G)=\int J\left[\frac12s+\frac12G(F^{-1}(s))\right]ds.

На практике работают с последним. Кроме того, работаем с условием того, что

\int {J(s)ds} = 0 ,

соответсвующее равенству

\sum a_i=0

В этих предположениях математическое ожидание статистики S при нулевой гипотезе равно 0.

Оценки сдвига \Delta_n в двухвыборочной постановке и сдвига T_n в случае одной выборки можно получить при помощи следующих ранговых критериев.

  1. В случае двух выборок получить \Delta_n из приближенного уравнения S_{n,n} \approx 0 полученного для выборок (x_1,\;\;\dots, x_n) и (y_1 - \Delta_n,\;\;\dots, y_n - \Delta_n)
  2. В случае одной выборки получить T_n из условия S_{n,n} \approx 0,вычисленного для выборок (x_1,\;\;\dots, x_n) и (2T_n - x_1 ,\;\;\dots, 2T_n-x_n). В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки.

Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку S_{n,n} - разрывная функция.

Таким образом, наша оценка сдвига T_n, полученная при помощи функционала T(F), определяется неявным уравнением

\int J\left{\frac12\left[s+1 - F(2T(F) - F^{-1}(s))\right]\right}ds=0.

Пример

Критерий Уилкоксона, в котором J(t)=t - \frac12, приводит к оценкам Ходжеа-Лемана, а именно к оценкам \Delta_n = med \{ y_i -x_i\} и \T_n = med \{ \frac12 (x_i + x_j) \}. Заметим, что наши указания во втором случае приводят к медиане набора их всех n^2 пар; в более традиционных вариантах используются только те пары, у которых i<j или i\lej, но асимптотически все три варианта эквивалентны.

Вычисление робастных оценок

Рассмотрим пример. Для оценки p неизвестных параметров \theta_1,\; \dots ,\theta_p используется n наблюдений y_1,\; \dots,y_n, причем они связаны между собой следующим неравенством \mathbf{y}=X\mathbf{\theta}+\mathbf{u}, где элементы матрицы X суть известные коэффициенты, а \mathbf{u} - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.

Тогда решение сводится к следующему: |\mathbf{y}-X\mathbf{\theta}|^2 \rightarrow \min

Если матрица X - матрица полного ранга p, то \hat \theta={(X^{T}X)}^{-1}X^T\mathbf{y}, а оценки \hat y_i будут высиляться по следующей формуле \hat{\mathbf{y}} = H\mathbf{y}, где H=X{(X^{T}X)}^{-1}X^T, далее H - матрица подгонки.

Допустим, что мы получили значения \hat y_i и остатки r_i=y_i-\hat y_i.

Пусть s_i - некоторая оценка стандартной ошибки наблюдений y_i (или стандартной ошибки остатков r_i)

Метрически винзоризуем наблюдения y_i, заменяя их псевдонаблюдениями {y_i}^{\ast}:


{y_i}^{\ast}=
\left{
y_i\,,   \;   \;\; |r_i| \le cs_i \\
\hat y_i - cs_i\,, \;\; r_i<-cs_i \\
\hat y_i + cs_i\,, \;\; r_i>cs_i
\right.

Константа c регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего c=1.5.

Затем по псевдонаблюдениям y_i^{\ast} вычисляются новые значения \hat{y_i} подгонки (и новые s_i). Действия повторяются до достижения сходимости.

Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид s^2=\frac{1}{n-p}\sum{r_i^2}, и стандартную ошибку остатка r_i можно в этом случае оценивать величиной s_i=\sqrt{1-h_i}s, где h_i есть i-й диагональный элемент матрицы H.

При использовании вместо остатков r_i модифицированных остатков r_i^{\ast}=y_i^{\ast}- \hat y_i , как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)

s^2=\frac{1}{n-p}\sum{{r_i}^{\ast2}/(\frac{m}{n})^2},

где n-p - число наблюдений без числа параметров, m - число неизменных наблюдений (y_i^{\ast}=y_i).

Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.


Литература

  1. Хьюбер П. Робастность в статистике. — М.: Мир, 1984.

Ссылки

См. также


Данная статья является непроверенным учебным заданием.
Студент: Участник:Джумабекова Айнагуль
Преподаватель: Участник:Vokov
Срок: 6 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты