Символьная регрессия

Материал из MachineLearning.

Перейти к: навигация, поиск

Символьная регрессия — метод построения регрессионных моделей] путем перебора различных произвольных суперпозиций функций из некоторого заданного набора. Суперпозиция функций при этом называется "программой", а стохастический оптимизационный алгоритм построения таких суперпозиций называется генетическим программированием.

Генетическое программирование – модификация генетического алгоритма. Различие заключается в том, что для решения задач символьной регрессии необходима изменяющаяся длина хромосом, описывающих суперпозиции.

Так как подобные алгоритмы являются переборными и требуют значительных вычислительных ресурсов, то публикации по данной теме стали появляться в 90-х годах, а значительное развитие они получили после 2000-го года. Наиболее известным исследователем является Джон Коза.

Постановка задачи

Задача отыскания оптимальной структуры регрессионной модели нескольких свободных переменных следующим образом. Задана выборка — множество \{\mathbf{x}_1,…,\mathbf{x}_N|\mathbf{x}\in\R^M\} значений свободных переменных и множество \{y_1,…,y_N| y\in\R\} соответствующих им значений зависимой переменной. Обозначим оба эти множества как множество исходных данных D.

Также задано множество G=\{g|g:\R\times…\times\R\longrightarrow\R\} гладких параметрических функций g=g(\mathbf{b},\cdot,\cdot,…,\cdot) . Первый аргумент функции g — вектор-строка параметров \mathbf{b}, последующие — переменные из множества действительных чисел, рассматриваемые как элементы вектора свободных переменных. Рассмотрим произвольную суперпозицию, состоящую из не более чем r функций g. Эта суперпозиция задает параметрическую регрессионную модель f=f(\mathbf{w},\mathbf{x}) . Регрессионная модель f зависит от вектора свободных переменных \mathbf{x} и от вектора параметров \mathbf{w}. Вектор \mathbf{w}\in\R^W состоит из присоединенных векторов-параметров функций g_1,…,g_r, то есть, \mathbf{w}=\mathbf{b}_1\vdots\mathbf{b}_2\vdots…\vdots\mathbf{b}_r, где \vdots — знак присоединения векторов. Обозначим \Phi=\{f_i\} — множество всех суперпозиций, индуктивно порожденное элементами множества G.

Требуется выбрать такую модель f_i, которая доставляет максимум заданного функционала p(\mathbf{w}|D) .


Литература

  • Zelinka, I., Nolle, L., Oplatkova, Z. Analytic Programming — Symbiloc Regression by Means of Arbitrfary Evolutionary Algorithms / Journal of Simulation. Vol. 6 No 9. P. 44—56.
  • Koza, J. R. Genetic Programming IV: Routine Human-Competitive Machine Intelligence. Springer. 2005.
  • Riolo, R., Soule, T., Worzel, B. (Eds.) Genetic Programming Theory and Practice V. Series: Genetic and Evolutionary Computation. Springer. 2008.
  • Madar, J., Janos, A., Szeifert, F. Genetic Programming for the Identification of Nonlinear Input-Output Models. citeseer.ist.psu.edu. 2005.
  • Hazan, A. et al. Modelling Expressive Performance: A Regression Tree Approach Based on Strongly Typed Genetic Programming / Applications of Evolutionary Computing. Springer. Vol. 3907/2006. P. 676—687.
  • Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection / Proceedings of 14 International Joint Conference of Artificial Intelligence. 2(12). P. 1137—1143.

Внешние ссылки

Личные инструменты