Поиск нелинейной модели поверхности Мохоровичича (пример)
Материал из MachineLearning.
Поиск нелинейной модели поверхности раздела пород земной коры.
| Содержание | 
Аннотация
Рассматривается задача восстановления функциональной зависимости глубины прохождения поверхности раздела пород земной коры от значений поля силы тяжести на определенных высотах. На вид зависимости накладываются ограничения в силу особенностей задачи. Применяется символьная регрессия и метод полного перебора суперпозиций, полученных из заданного набора функций. Построен алгоритм нахождения парето-оптимального фронта по совокупности критериев качества.
Постановка задачи
Имеется несколько точек  на поверхности Земли. Каждой точке сопоставлен вектор значений силы тяжести 
, измеренной на~заданных высотах 
, а также глубина границы раздела:
,
.
Здесь 
 - количество точек, в которых известна глубина прохождения границы раздела, 
 - число измерений силы тяжести в каждой точке.
Кроме того, имеется множество точек, на которых известны только векторы значений силы тяжести . Требуется построить функцию 
, которая позволяет вычислять значение глубины раздела слоёв по~значениям сил тяжести и вычислить её на~заданном множестве точек.
Требуется найти 
, где
, 
 - множество 
-местных непрерывных, монотонных функций действительной переменной,
, 
 - множество функций из 
, зависящих дополнительно от вектора параметров,
 - множество индексов функций множества 
,
 - настраиваемый вектор параметров, 
, 
 - множество допустимых векторов параметров функции 
.
Запишем сумму квадратов регрессионных остатков
, где 
, 
, 
 - множество индексов объектов, по которым считается сумма, 
.
Используются следующие критерии качества.
Переобученность  модели. Мы будем разбивать выборку 
 на обучающую 
 и контрольную 
, 
. Пусть 
 и 
 - множества индексов объектов обучающей и контрольной выборок, тогда 
, где 
 - множество индексов всех объектов выборки. Вектор параметров модели 
 будет настраиваться по минимизации функционала 
, а значение 
 критерия будет вычислено по байесовскому информационному критерию BIC: 
, где 
 - длина вектора 
.
Простота модели  будет вычислена как число поддеревьев дерева суперпозиции.
Качество приближения данных будет вычислено как средняя сумма квадратов регрессионных остатков  на контрольной подвыборке.
Множество  - парето-оптимальное множество по совокупности критериев качества:
где 
 - номер парето-слоя, в котором лежит модель с индексом 
 и вектором параметров, настроенным по минимизации суммы квадратов регрессионных остатков на обучающей подвыборке:
Для каждой 
 вектор параметров находится как
Пути решения задачи
Порождение суперпозиций функций набора методом полного перебора. Каждой суперпозиции можно поставить в соответствие дерево, в вершинах которого стоят функции набора, в листьях - аргументы, а ребро, связывающее вершины означает, что функция, соответствующая вершине-потомку подается в качестве аргумента на вход функции, соответствующей вершине-предку. Метод заключается в том, чтобы перебрать все возможные суперпозиции функций набора вплоть до определенной глубины/длины. В нашей задаче, поскольку , будем осуществлять перебор среди суперпозиций, в которых на месте самых нижних функций (листьев дерева суперпозиции) стоят дискретные функции 
.
Смотри также
|   | Данная статья была создана в рамках учебного задания. 
 
 См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. | 

