Непараметрическая регрессия: ядерное сглаживание
Материал из MachineLearning.
Статья в настоящий момент дорабатывается. SL 01:27, 12 января 2009 (MSK) |
Ядерное сглаживание - один из простейших видов непараметрической регрессии.
Содержание |
Принцип
Используйщий идейно простой подход к представлению последовательности весов состоит в описании формы весовой функции посредством функции плотности со скалярным параметром, который регулирует размер и форму весов около х. Эту функцию формы принято называть ядром .
Последовательность весов
Определение ядра
Ядро — это непрерывная ограниченная симметричная вещественная функция с единичным интегралом
Последовательность весов для ядерных оценок (для одномерного ) определяется как
- ,
где
- ,
a
представляет собой ядро с параметром масштаба . Подчеркнув зависимость от объема выборки , условимся сокращен- но обозначать последовательность весов .
Функция ядра
Функция является ядерной оценкой плотности Розенблата — Парзена (Rosenblatt, 1956; Parzen, 1962) для (маргинальной) плотности переменной . Данный вид ядерных весов был предложен в работах (Nadaraya, 1964) и (Watson, 1964), и, как следствие,
часто называют оценкой Надарая — Ватсона. форма ядерных весов определяется ядром в то время как размер весов параметризируется посредством переменной , называемой шириной окна. Нормализация весов позволяет адаптироваться к локальной интенсивности переменной и, кроме того, гарантирует, что сумма весов равна еденице. Вообще говоря, можно брать различные ядерные функции, нр как практика, так и теория ограничивают выбор. Так, например, ядерные функции, принимающие очень малые значения, могут приводить к машинному нулю компьютера, поэтому разумно рассматривать такие ядерные функции, которые равны нулю вне некоторого фиксированного интервала.
Пример функции ядра
Обычно используется ядерная функция, обладающая некоторыми свойствами оптимальности [Хардле В п4.5]; это функция параболического типа (Epanechnikov, 1969; Bartlett, 1963):
- .
Замечание. Ядро не дифференцируемо при . Ядерная оценка не определена для значения ширины окна с . Если такой случай возникает, то определяется как .
Зависимость от ширины окна
Допустим, что ядерная оценка вычисляется только в точках наблюдений . Тогда при ,
- ;
следовательно, малая ширина окна воспроизводит данные. Исследуем теперь, что происходит при . Допустим, что имеет носитель , как на рис. Тогда и, следовательно,
Слишком большое значение ширины окна приводит таким образом к чрезмерному сглаживанию кривой — среднему арифметическому значений переменной отклика.
Литература
- Хардле В. Прикладная непараметрическая регрессия. — 1989.