Прикладной регрессионный анализ (курс лекций, B.В.Стрижов, 2008)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Московский физико-технический институт, Факультет управления и прикладной математики

Курс читается студентам 6-го курса кафедры "Интеллектуальные системы", специализация: "Интеллектуальный анализ данных", группа 374-а.


Статья предназначена прежде всего для студентов группы 374-а, она будет наполняться в течение этого семестра.


Аннотация

Курс лекций включает теоретические и прикладные аспекты создания моделей нелинейной регрессии и алгоритмов оптимизации качества этих моделей. Рассматриваются современные алгоритмы индуктивного порождения регрессионных моделей. Приводятся примеры использования алгоритмов при решении прикладных задач в финансовой математике, экологии и медицине.

Организационная часть

Семестровый курс содержит 32 часа лекций и 32 часа практических занятий. В ходе лекций будут объявляться темы практических заданий. После выбора темы обсуждаются требования к работе. До начала экзамена нужно сдать все задания по практике. Экзамен состоит из теоретических вопросов и задач.

Дополнительный материал

Задачи для самостоятельного решения

Задачи вынесены из курса лекций, так как решались ранее в курсах линейной алгебры или математической статистики

  1. Вывести нормальное уравнение МНК через квадратичную оптимизацию.
  2. Вывести нормальное уравнение через проекцию на пространство столбцов матрицы.
  3. Показать что матрица, проектирующая вектор на свое пространство столбцов симметрична и идемпотентна.
  4. Показать что если матрица удовлетворяет условиям задачи 3, то она проектирует вектор на свое пространство столбцов (доп.).
  5. Показать что матрица A^TA симметрична и положительно определена.
  6. Сколько мономов полинома Колмогорова-Габора от m переменных имеют степень не превосходящую R (с повторами переменных в мономах и без повторов)?
  7. Показать, что оценки интегральных индикаторов и весов показателей, полученные альфа-согласованием являются согласованными.
  8. Вывести оценку весов показателей гамма-согласования как минимум суммы квадратов расстояний между выставленной и вычисленной оценками в пространствах оценок интегральных индикаторов и весов показателей.
  9. Показать, что сингулярные числа матрицы A — это длины осей эллипсоида, заданного множеством \{A\mathbf{x}: \|\mathbf{x}\|=1\}.
  10. Показать, что первое сингулярное число матрицы — это ее Евклидова норма.
  11. Показать, что число обусловленности матрицы A^TA есть квадрат числа обусловленности матрицы A. Заметка: число обусловленности матрицы — \kappa(A)=\|A\| \|A^{-1}\| есть отношение первого сингулярного числа к последнему, \kappa(A)=\lambda_1/\lambda_n.
  12. Записать алгоритм итеративого нахождения сингулярного разложения.

Задачи на понимание методов регрессионного анализа

  1. Дана выборка - множество \{(u_i,v_i)\}, i=1,\ldots,M измерений координат окружности (O,r), где O=(u_O, v_O), выполненных с некоторой случайной аддитивной ошибкой. Требуется методом наименьших квадратов найти центр и радиус этой окружности.
  2. (продолжение) Применим ли метод решения этой задачи для сферы?
  3. (продолжение) Есть измерения координат границ плоских и объемных физических тел (несложной формы), сделанные с ошибкой. Предложите примеры моделирования форм этих тел с помощью методов наименьших квадратов.
  4. Даны два вектора \mathbf{u}, \mathbf{v} в пространстве \mathbb{R}^N. Требуется приблизить вектор \mathbf{v} вектором \mathbf{u}, так что \|\mathbf{u}-f(\mathbf{w},\mathbf{v})\|^2\to\min. Поставить и решить задачу линейной регрессии (пусть модель будет квадратичным полиномом, \mathbf{w} - вектор параметров).

Рекомендуемые примеры

  1. Часто используемые конструкции языка m
  2. Советы по оформлению отчетов
  3. Метод наименьших квадратов
  4. MVR Composer, порождение нелинейных регрессионых моделей

Задания для практических занятий

Общие требования

  1. Поставить задачу и описать алгоритм в математической нотации. Результат — файл tex или doc, 1-2 страницы.
  2. Написать алгоритм, протестировать, документировать код (см. пример). Алгоритм запускается из файла отчета. Совет: при создании алгоритма желательно использовать существующие функции и код, написанный ранее. Результат — набор документированных функций.
  3. Выполнить вычислительный эксперимент (исходные данные и условия оговариваются отдельно), сделать отчет (см. пример). Результат  — файл pdf.
  4. Сдать задание с таким расчетом, чтобы получить рецензию и успеть исправить недочеты до экзамена (конец декабря). Результат — положительная рецензия и допуск к экзамену.

Задание 1

Дан многомерный временной ряд, в котором один остчет времени соответствует одному часу. Известно, что ряд имеет три периода: 24, 7*24, 365*24. Требуется построить алгоритм прогноза на 24 отсчета вперед. Прогноз выполняется с помощью линейной регрессии. Дополнительно используется библиотека нелинейных безпараметрических преобразований свободных переменных. Свободные переменные (признаки) выбираются с помощью многорядного МГУА. При выполнении вычислительного эксперимента необходимо выбрать несколько лучших моделей и сравнить прогнозы, сделанные с их помощью. Для этого вычисляется ошибка на прогнозе и строится график. (Исходные данные и список библиотечных функций по запросу).

Выполняет Михаил Шавловский

План лекций

Лекция 1

Организация курса, организация практических занятий, план лекций, обзор литературы по предмету, обзор программного обеспечения, введение в программирование задач регрессионного анализа.

Лекция 2

Введение в регрессионный анализ, постановка задачи, терминология, регрессионная модель, линейные модели, метод наименьших квадратов, два вывода нормального уравнения, подстановки и нахождение параметров линейной регрессионной модели, пример построения линейной регрессии: линейная, квадратичная и нелинейная функции, пример: биржевые опционы и улыбка волатильности, построение многомерной регрессионной модели.

Лекция 3

Метод группового учета аргументов. Постановка задачи с использованием порождающих функций (безпараметрических нелинейных подстановок). Базовая модель. Алгоритм МГУА. Комбинаторный алгоритм. Многослойный алгоритм. Внутренние и внешние критерии

Лекция 4

Предположение об аддтивной случайной составляющей свободной переменной. Построение интегральных индикаторов. Требования к исходым данным. Подготовка данных. Парето-расслоение. Экспертно-статистический метод. Метод главных компонент. Альфа и гамма — согласование экспертных оценок. Согласование оценок, выставленных в ранговых шкалах.

Лекция 5

Сингулярное разложение при решении задач линейной регрессии. Определение и свойства сингулярного разложения. Сингулярное разложение и обращение матриц. Определение псевдообратной матрицы. Два способа регуляризации при обращении матриц. Сингулярное разложение и собственные векторы матрицы A^TA. Простой итеративный способ нахождения сингулярного разложения. Задача о поведении биосистемы в экстремальных условиях.

Лекция 6

Метод главных компонент. Многомерная случайная величина. Оптимизационная задача нахождения проекций на линейную оболочку множества векторов. Матрица вращения главных компонент. Связь метода главных компонент и сингулярного разложения. Организация вычислительных экспериментов, связанных с индуктивным порождением регрессионных моделей.

Лекция 7

Линейные методы прогнозирования. Система управления с обратной связью. Задача о макроэкономическом моделировании. Системы одновременных линейных уравнений и векторная авторегрессия. Решение уравнения векторной авторегрессии для решения задачи управления. Задача о прогнозе потребления электроэнергии. Алгоритм линейного прогноза.

Литература