Логико-статистические модели в распознавании, прогнозировании и интеллектуальном анализе данных (курс лекций, О.В. Сенько)
Материал из MachineLearning.
Автор курса: с.н.с. каф. ММП, д.ф.-м.н. Сенько Олег Валентинович
Аннотация
В курсе рассматривается метод интеллектуального анализа данных, основанный на выделении в многомерном пространстве прогностических переменных областей, в которых значения прогнозируемой переменной достоверно отличаются от средних значений по всей выборке. Поиск областей производится с помощью метода построения оптимальных разбиений пространства прогностических переменных.
Для верификации и оптимизации выявленных закономерностей используется современная технология, основанная на рандомизированных перестановочных тестах.
В курсе рассматриваются методы прогнозирования и распознавания, основанные на вычислении коллективных решений по системам верифицированных закономерностей, найденных с помощью метода оптимальных разбиений.
В курсе рассматриваются коллективные решения, основанные на взвешенном голосовании (выпуклой коррекции).
Обсуждаются вопросы статистического обоснования выпуклой коррекции, а также способы выбора оптимальных взвешивающих коэффициентов. Приводятся примеры использования рассматриваемых методов при решении разнообразных прикладных задач.
Программа
- Задача изучения влияния прогностических переменных (признаков) на целевую величину. Выделение в многомерном пространстве прогностических переменных областей, в которых значения прогнозируемой переменной достоверно отличаются от средних значений по всей выборке. Метод оптимальных разбиений. Статистические методы верификации выявленных закономерностей. Рандомизированный перестановочный тест.
- Оптимизация сложности закономерностей, найденных методом оптимальных достоверных разбиений. Формирование финальных систем закономерностей. Выделение из них базовых подсистем. Примеры использования метода интеллектуального анализа данных, основанного на оптимальных достоверных разбиениях.
- Компоненты обобщённой ошибки прогнозирования. Разложение обобщённой ошибки прогнозирования и её компонент для выпуклых корректоров. Разложение дисперсии выпуклых корректоров.
- Методы построения выпуклых корректоров над системами закономерностей. Метод статистически взвешенного голосования.
- Метод распознавания «Статистически взвешенные синдромы». Примеры практического применения.
Литература
- Журавлёв Ю.И. Рязанов В.В. Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Применения. - Москва: Фазис, 2006
- Сенько О.В. Перестановочный тест в методе оптимальных разбиений. // Ж. выч. матем. и матем. физ. N9, 2003, с.1438-1447.
- А.В. Кузнецова, И.В. Костомарова, Н.Н. Водолагина, Н.А. Малыгина, О.В. Сенько. Изучение влияния клинико-генетических факторов на течение дисциркуляторной энцефалопатии с использованием методов распознавания // Матем. биолог. и биоинформ., 2011, том 6, выпуск 1, страницы 115–146.
- Oleg V.Senko and Anna V. Kuznetsova. The Optimal Valid Partitioning Procedures. InterStat. Statistics on the Internet, April, 2006.
- Сенько О.В., Докукин А.А. Оптимальные выпуклые корректирующие процедуры в задачах высокой размерности. ЖВМиМФ, Т. 51, №9 с.1751-1760, 2011
- Senko O., Kuznetsova A. A recognition method based on collective decision making using systems of regularities of various types // Pattern Recognition and Image Analysis, MAIK Nauka/Interperiodica. Vol. 20, No. 2, 2010, pp. 152-162.