Участник:Bogdan/Проведение поверхностей наилучшего приближения

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Введение

На практике мы часто сталкиваемся с задачей о сглаживании экспериментальных зависимостей.

Пусть зависимость между двумя переменными x и y выражается в виде таблицы, полученной опытным путем. Это могут быть результаты опыта или наблюдений, статистической обработки материала и т.п.

x x1 x2 ... xi ... xn
y y1 y2 ... yi ... yn

Требуется наилучшим образом сгладить экспериментальную зависисмость между переменными x и y, т.е. по возможности точно отразить общую тенденцию зависимости y от x, исключив при этом случайные отклонения, связанные с неизбежными погрешностями измерений или статистических наблюдений. Такую сглаженную зависимость стремятся представить в виде формулы y = f(x).

Формулы, служащие для аналитического представления опытных данных, получили название эмпирических формул.

Задача нахождения эмпирических формул разбивается на два этапа. На первом этапе нужно установить вид зависимости y = f(x), т.е. решить, является ли она линейной, квадратичной, логарифмической или какой-либо другой. Второй этап – определение неизвестных параметров этой функции.

Часто вид эмпирической зависимости известен, но числовые параметры неизвестны. Будем считать, что зависимость полиномиальная, а для определения параметров полинома рассмотрим следующие методы.

Методы восстановления регрессии, минимизирующие невязку ответов

Метод наименьших квадратов

Пусть функция y = f(x) задана таблицей своих значений: y_i = f(x_i), i = 0,1,...,n. Требуется найти многочлен фиксированной степени m, для которого среднеквадратичное отклонение (СКО) \sigma = \sqrt{\frac{1}{n + 1}\sum^{n}_{i=0}{(P_m(x_i)-y_i)^2}} минимально.

Так как многочлен P_m(x) = a_0+a_1x+a_2x^2+...+a_mx^m определяется своими коэффициентами, то фактически нужно подобрать набор кофициентов a_0,a_1,...,a_m, минимизирующий функцию \Psi(a_0,a_1,...,a_m) = \sum^{n}_{i=0}{(P_m(x_i)-y_i)^2} = \sum^{n}_{i=0}({\sum^{m}_{j=0}{a_jx_i^j}-y_i)^2}.

Используя необходимое условие экстремума, \frac{\partial\Psi}{\partial a_k} = 0, k = 0,1,...,m получаем так называемую нормальную систему метода наименьших квадратов: \sum^{m}_{j=0}{(\sum^{n}_{i=0}{x_i^{j+k}})a_j} = \sum^{n}_{i=0}{y_ix_i^k}, k = 0,1,...,m.

Полученная система есть система алгебраических уравнений относительно неизвестных a_0,a_1,...,a_m. Можно показать, что определитель этой системы отличен от нуля, то есть решение существует и единственно. Однако при высоких степенях m система является плохо обусловленной. Поэтому метод наименьших квадратов применяют для нахождения многочленов, степень которых не выше 5. Решение нормальной системы можно найти, например, методом Гаусса.

Запишем нормальную систему наименьших квадратов для двух простых случаев: m = 0 и m = 2. При m = 0 многочлен примет вид: P_0(x) = a_0. Для нахождения неизвестного коэффициента a_0 имеем уравнение: (n+1)a_0 = \sum^{n}_{i=0}{y_i}. Получаем, что коэффициент a_0 есть среднее арифметическое значений функции в заданных точках.

Если же используется многочлен второй степени P_2(x) = a_0+a_1x+a_2x^2, то нормальная система уравнений примет вид:

\left\{\begin{matrix} (n+1)a_0 + (\sum^{n}_{i=0}{x_i})a_1 + (\sum^{n}_{i=0}{x_i^2})a_2 = \sum^{n}_{i=0}{y_i},\\ (\sum^{n}_{i=0}{x_i})a_0 + (\sum^{n}_{i=0}{x_i^2})a_1 + (\sum^{n}_{i=0}{x_i^3})a_2 = \sum^{n}_{i=0}{y_ix_i},\\ (\sum^{n}_{i=0}{x_i^2})a_0 + (\sum^{n}_{i=0}{x_i^3})a_1 + (\sum^{n}_{i=0}{x_i^4})a_2 = \sum^{n}_{i=0}{y_ix_i^2} \end{matrix}\right.

Числовой пример

Методы, минимизирующие расстояния до объектов

Заключение

Список литературы

Личные инструменты