Робастное оценивание
Материал из MachineLearning.
Содержание |
Введение
На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).
Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.
Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.
Основные типы оценок
Введем оценки трех основных типов (),буквы отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.
Особое значение имеют оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.
Оценки типа максимального правдоподобия (M-оценки)
Всякая оценка , определяемая как решение экстремальной задачи на минимум вида
или как решение неявного уравнения
- ,
где - произвольная функция, , называется оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции , то мы получим обычную оценку максимального правдоподобия.
В частности, нас будут интересовать оценки сдвига
или
- .
Последнее уравнение можно записать в эквивалентном виде
- ,
где
Тогда мы можем представить оценку в форме взвешенного среднего
с весовыми коэффициентами , зависящими от выборки.
Оценки типа максимального правдоподобия (L-оценки)
Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции :
Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры на интервале (0,1):
(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. , и обеспечивает симметричность коэффициентов, если мера симметрична относительно точки .)
В рассматриваевом случае оценка получается при помощи функционала
- .
Здесь под функцией, обратной к ффункции распределения , понимается функция
Оценки, получаемые в ранговых критериях (R-оценки)
Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть и суть две независимые выборки с распределениями и соответственно.Объединим эти выборку в одну выборку объема .Пусть есть ранг наблюдения в объединенной выборке. Зададим веса . Критерий для проверки гипотезы при альтернативе построим на основе статистики
Как правило, мы полагаем, что весовые коэффициенты получаются при помощи некоторой функции по формуле
В действительности предпочитают работать со следующим вариантов вычисления
- .
Для упрощения с этого момента полагаем, что . Запишем статистику в виде функционала
- ,
который при подстановке примет вид
- .
На практике работают с последним. Кроме того, работаем с условием того, что
- при нулевой гипотезе равно 0.
Вычисление робастных оценок
Рассмотрим пример. Для оценки неизвестных параметров используется наблюдений , причем они связаны между собой следующим неравенством , где элементы матрицы суть известные коэффициенты, а - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.
Тогда решение сводится к следующему:
Если матрица - матрица полного ранга , то , а оценки будут высиляться по следующей формуле , где , далее - матрица подгонки.
Допустим, что мы получили значения и остатки .
Пусть - некоторая оценка стандартной ошибки наблюдений (или стандартной ошибки остатков )
Метрически винзоризуем наблюдения , заменяя их псевдонаблюдениями :
Константа регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего .
Затем по псевдонаблюдениям вычисляются новые значения подгонки (и новые ). Действия повторяются до достижения сходимости.
Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид , и стандартную ошибку остатка можно в этом случае оценивать величиной , где есть -й диагональный элемент матрицы .
При использовании вместо остатков модифицированных остатков , как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)
,
где - число наблюдений без числа параметров, - число неизменных наблюдений ().
Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.
Литература
- Хьюбер П. Робастность в статистике. — М.: Мир, 1984.
Ссылки
- Робастность в статистике.
- Робастность статистических процедур.
- Публикации по робастным методам оценивания параметров и проверке статистических гипотез на сайте профессора НГТУ Лемешко Б.Ю..
- Robust statistics.
См. также
Данная статья является непроверенным учебным заданием. - Студент: Участник:Джумабекова Айнагуль
- Преподаватель: Участник:Vokov
- Срок: 6 января 2010
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.
См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.
- при нулевой гипотезе равно 0.