Непараметрическая регрессия: ядерное сглаживание

Материал из MachineLearning.

Версия от 22:27, 11 января 2009; SL (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Статья в настоящий момент дорабатывается.
SL 01:27, 12 января 2009 (MSK)

Ядерное сглаживание - один из простейших видов непараметрической регрессии.

Принцип

Используйщий идейно простой подход к представлению последовательности весов $\{ W_{ni}(x) \}_{i=1}^n$ состоит в описании формы весовой функции $W_{ni}(x)$ посредством функции плотности со скалярным параметром, который регулирует размер и форму весов около х. Эту функцию формы принято называть ядром $K$ .

Последовательность весов

Определение ядра

Ядро — это непрерывная ограниченная симметричная вещественная функция $K$ с единичным интегралом

$\int K(u)du=1$

Последовательность весов для ядерных оценок (для одномерного $x$ ) определяется как

$W_{ni}(x)=\frac{K_{h_n}(x\;-\;X_i)}{\hat{f}_{h_n}(x)}$ ,

где

$\hat{f}_{h_n}(x)=\frac{\sum_{i=1}^n K_{h_n}(x\;-\;X_i)}{n}$ ,

$K_{h_n}(u)=\frac{K$\frac{u}{h_n}$}{h_n}$

представляет собой ядро с параметром масштаба $h_n$ . Подчеркнув зависимость $h\ =\ h_n$ от объема выборки $n$ , условимся сокращен- но обозначать последовательность весов $W_{ni}(x)$ .

Функция ядра

Функция $\hat{f}_{h_n}(x)$ является ядерной оценкой плотности Розенблата — Парзена (Rosenblatt, 1956; Parzen, 1962) для (маргинальной) плотности переменной $x$ . Данный вид ядерных весов $W_{ni}(x)$ был предложен в работах (Nadaraya, 1964) и (Watson, 1964), и, как следствие,

$\hat{m}_h(x)=\frac{n^{-1}\sum_{i=1}^n K_{h_n}(x\;-\;X_i)Y_i}{n^{-1}\sum_{i=1}^n K_{h_n}(x\;-\;X_i)}$

часто называют оценкой Надарая — Ватсона. форма ядерных весов определяется ядром $K$ в то время как размер весов параметризируется посредством переменной $h$ , называемой шириной окна. Нормализация весов $\hat{f}_{h_n}(x)$ позволяет адаптироваться к локальной интенсивности переменной $x$ и, кроме того, гарантирует, что сумма весов равна еденице. Вообще говоря, можно брать различные ядерные функции, нр как практика, так и теория ограничивают выбор. Так, например, ядерные функции, принимающие очень малые значения, могут приводить к машинному нулю компьютера, поэтому разумно рассматривать такие ядерные функции, которые равны нулю вне некоторого фиксированного интервала.

Пример функции ядра

Ядро Бпанечникова. Это ядро имеет параболическую форму и носитель .

Ядро Бпанечникова. Это ядро $K(u)=0.75(1-u^2)I(\| u \| \le 1)$ имеет параболическую форму и носитель $[-1,1]$ .

Обычно используется ядерная функция, обладающая некоторыми свойствами оптимальности [Хардле В п4.5]; это функция параболического типа (Epanechnikov, 1969; Bartlett, 1963):

$K(u)=0.75(1-u^2)I(\| u \| \le 1)$ .

Замечание. Ядро не дифференцируемо при $u = \pm 1$ . Ядерная оценка не определена для значения ширины окна с $\hat{f}_{h_n}(x)=0$ . Если такой случай $0/0$ возникает, то $\hat{m}_h(x)$ определяется как $0$ .

Зависимость от ширины окна

Допустим, что ядерная оценка вычисляется только в точках наблюдений $\{ X_i\}_{i=1}^n$ . Тогда при $h\rightarrow0$ ,

$\hat{m}_h(x)\rightarrow\frac{K(0)Y_i}{K(0)}=Y_i$ ;

следовательно, малая ширина окна воспроизводит данные. Исследуем теперь, что происходит при $h\rightarrow\infty$ . Допустим, что $K$ имеет носитель $[-1,1]$ , как на рис. Тогда $K(x\;-\;X_i/h)\rightarrow K(0)$ и, следовательно,