Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 374, осень 2008

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Московский физико-технический институт, Факультет управления и прикладной математики

Курс читается студентам 6-го курса кафедры "Интеллектуальные системы", специализация: "Интеллектуальный анализ данных", группа 374-а.

Аннотация

Курс лекций включает теоретические и прикладные аспекты создания моделей нелинейной регрессии и алгоритмов оптимизации качества этих моделей. Рассматриваются современные алгоритмы индуктивного порождения регрессионных моделей. Приводятся примеры использования алгоритмов при решении прикладных задач в финансовой математике, экологии и медицине.

Организационная часть

Семестровый курс содержит 32 часа лекций и 32 часа практических занятий. В ходе лекций будут объявляться темы практических заданий. После выбора темы обсуждаются требования к работе. До начала экзамена нужно сдать все задания по практике. Экзамен состоит из теоретических вопросов и задач.

Дополнительный материал

Задачи для самостоятельного решения

Задачи вынесены из курса лекций, так как решались ранее в курсах линейной алгебры или математической статистики

  1. Вывести нормальное уравнение МНК через квадратичную оптимизацию.
  2. Вывести нормальное уравнение через проекцию на пространство столбцов матрицы.
  3. Показать что матрица, проектирующая вектор на свое пространство столбцов симметрична и идемпотентна.
  4. Показать что если матрица удовлетворяет условиям задачи 3, то она проектирует вектор на свое пространство столбцов (доп.).
  5. Показать что матрица A^TA симметрична и положительно определена.
  6. Сколько мономов полинома Колмогорова-Габора от m переменных имеют степень не превосходящую R (с повторами переменных в мономах и без повторов)?
  7. Показать, что оценки интегральных индикаторов и весов показателей, полученные альфа-согласованием являются согласованными.
  8. Вывести оценку весов показателей гамма-согласования как минимум суммы квадратов расстояний между выставленной и вычисленной оценками в пространствах оценок интегральных индикаторов и весов показателей.
  9. Показать, что сингулярные числа матрицы A — это длины осей эллипсоида, заданного множеством \{A\mathbf{x}: \|\mathbf{x}\|=1\}.
  10. Показать, что первое сингулярное число матрицы — это ее Евклидова норма.
  11. Показать, что число обусловленности матрицы A^TA есть квадрат числа обусловленности матрицы A. Заметка: число обусловленности матрицы — \kappa(A)=\|A\| \|A^{-1}\| есть отношение первого сингулярного числа к последнему, \kappa(A)=\lambda_1/\lambda_n.
  12. Записать алгоритм итеративого нахождения сингулярного разложения.

Задачи на понимание методов регрессионного анализа

  1. Дана выборка - множество \{(u_i,v_i)\}, i=1,\ldots,M измерений координат окружности (O,r), где O=(u_O, v_O), выполненных с некоторой случайной аддитивной ошибкой. Требуется методом наименьших квадратов найти центр и радиус этой окружности.
  2. (продолжение) Применим ли метод решения этой задачи для сферы?
  3. (продолжение) Есть измерения координат границ плоских и объемных физических тел (несложной формы), сделанные с ошибкой. Предложите примеры моделирования форм этих тел с помощью методов наименьших квадратов.
  4. Даны два вектора \mathbf{u}, \mathbf{v} в пространстве \mathbb{R}^N. Требуется приблизить вектор \mathbf{v} вектором \mathbf{u}, так что \|\mathbf{u}-f(\mathbf{w},\mathbf{v})\|^2\to\min. Поставить и решить задачу линейной регрессии (пусть модель будет квадратичным полиномом, \mathbf{w} - вектор параметров).

Рекомендуемые примеры

  1. Часто используемые конструкции языка m
  2. Советы по оформлению отчетов
  3. Метод наименьших квадратов
  4. MVR Composer, порождение нелинейных регрессионых моделей

Задания для практических занятий

Общие требования

  1. Поставить задачу и описать алгоритм в математической нотации. Результат — файл tex или doc, 1-2 страницы.
  2. Написать алгоритм, протестировать, документировать код (см. пример). Алгоритм запускается из файла отчета. Совет: при создании алгоритма желательно использовать существующие функции и код, написанный ранее. Результат — набор документированных функций.
  3. Выполнить вычислительный эксперимент (исходные данные и условия оговариваются отдельно), сделать отчет (см. пример). Результат  — файл pdf.
  4. Сдать задание с таким расчетом, чтобы получить рецензию и успеть исправить недочеты до экзамена (конец декабря). Результат — положительная рецензия и допуск к экзамену.

Задание 1

Прогнозирование временного ряда. Дан многомерный временной ряд, в котором один остчет времени соответствует одному часу. Известно, что ряд имеет три периода: 24, 7*24, 365*24. Требуется построить алгоритм прогноза на 24 отсчета вперед. Прогноз выполняется с помощью линейной регрессии. Дополнительно используется библиотека нелинейных безпараметрических преобразований свободных переменных. Свободные переменные (признаки) выбираются с помощью многорядного МГУА. При выполнении вычислительного эксперимента необходимо выбрать несколько лучших моделей и сравнить прогнозы, сделанные с их помощью. Для этого вычисляется ошибка на прогнозе и строится график. (Исходные данные и список библиотечных функций по запросу).

Выполнил Михаил Шавловский, отчет можно найти здесь.

Задание 2

Конструктивное построение множества суперпозиций

Выполнил Юрий Максимов, отчет можно найти здесь.

Задание 3

Выбор признаков при построении скоринговых карт кредитного займа. Дана выборка — набор векторов описаний клиентов. Признаки (элементы вектора описаний) могут быть в линейных или ранговых шкалах. Указана принадлежность каждого клиента к классу — «вернул» или «не вернул» кредит. Требуется найти набор признаков, который доставляет максимум критерию качества классификации. Поиск выполняется с помощью генетического оптимизационного алгоритма. Параметры алгоритма заданы. Качество классификации — сумма квадратов невязок — определяется на тестовой выборке с усреднением по заданному числу разбиений. Отношение числа элементов обучающей выборки к тестовой задано. (Исходные данные по запросу).

Выполнил Алексей Куракин, отчет можно найти здесь.

Задание 4

Даны три выборки, в которых одна свободная и одна зависимая переменная.

  1. Известно, что зависимость переменных во всех трех выборках описывается с помощью некоторой многомерной линейной регрессионной модели.
  2. Известно, что модель содержит некоторые мономы не более 3-й степени от свободной переменной, ее тангенса, экспоненты и синуса (т.е. имеется 2^{14} моделей-претендентов).
  3. Известно, что зависимая переменная есть случайная величина с матожиданием E(y|x), ее распределение принадлежит экспоненциальному семейству, в частности одному из трех:
    • гамма-распределению с обратной функцией связи,
    • нормальному распределению и тривиальной функцией связи,
    • нормальному распределению с функцией \sqrt(y)=X\mathbf{w}.

Требуется указать модель, которая описывает зависимости выборок, найти ее параметры, и указать распределение зависимой переменной каждой выборки. (Исходные данные по запросу).

Выполнил Расул Тутунов, отчет можно найти здесь.

План лекций

Лекция 1. Введение

Организация курса, организация практических занятий, план лекций, обзор литературы по предмету, обзор программного обеспечения, введение в программирование задач регрессионного анализа.

Лекция 2. Линейная регрессия

Введение в регрессионный анализ, постановка задачи, терминология, регрессионная модель, линейные модели, метод наименьших квадратов, два вывода нормального уравнения, подстановки и нахождение параметров линейной регрессионной модели, пример построения линейной регрессии: линейная, квадратичная и нелинейная функции, пример: биржевые опционы и улыбка волатильности, построение многомерной регрессионной модели.

Лекция 3. МГУА

Метод группового учета аргументов. Постановка задачи с использованием порождающих функций (безпараметрических нелинейных подстановок). Базовая модель. Алгоритм МГУА. Комбинаторный алгоритм. Многослойный алгоритм. Внутренние и внешние критерии

Лекция 4. Интегральные индикаторы

Предположение об аддтивной случайной составляющей свободной переменной. Построение интегральных индикаторов. Требования к исходым данным. Подготовка данных. Парето-расслоение. Экспертно-статистический метод. Метод главных компонент. Альфа и гамма — согласование экспертных оценок. Согласование оценок, выставленных в ранговых шкалах.

Лекция 5. Сингулярное разложение

Сингулярное разложение при решении задач линейной регрессии. Определение и свойства сингулярного разложения. Сингулярное разложение и обращение матриц. Определение псевдообратной матрицы. Два способа регуляризации при обращении матриц. Сингулярное разложение и собственные векторы матрицы A^TA. Простой итеративный способ нахождения сингулярного разложения. Задача о поведении биосистемы в экстремальных условиях.

Лекция 6. Метод главных компонент

Метод главных компонент. Многомерная случайная величина. Оптимизационная задача нахождения проекций на линейную оболочку множества векторов. Матрица вращения главных компонент. Связь метода главных компонент и сингулярного разложения. Организация вычислительных экспериментов, связанных с индуктивным порождением регрессионных моделей.

Лекция 7. Прогнозирование

Линейные методы прогнозирования. Система управления с обратной связью. Задача о макроэкономическом моделировании. Системы одновременных линейных уравнений и векторная авторегрессия. Решение уравнения векторной авторегрессии для решения задачи управления. Задача о прогнозе потребления электроэнергии. Алгоритм линейного прогноза.

Лекция 8. Логистическая регрессия

Конструктивное порождение множества суперпозиций. Логистическая регрессия. Нахождение параметров модели и восстановление зависимости. Задача о классификации заемщиков банковских кредитов. (Обсуждение предобработки временных рядов по задаче предыдущей лекции.)

Лекция 9. Обобщенные линейные модели

Постановка задачи. Экспоненциальное семейство распределений. Функции связи для дискретных и непрерывных зависимых переменных. Пространство параметров, функция правдоподобия и формула Байеса.

Лекция 10. Нелинейная регрессия

Оптимизация параметров нелинейных моделей. Алгоритм Левенберга-Марквардта. Часто используемые регрессионные модели. Оптимальное прореживание нейронных сетей (использование метода множителей Лагранжа).

Лекция 11. Связанный Байесовский вывод

Достоверность и сравнение моделей на первом уровне вывода. Пример сравнения моделей. Схема порождения и выбора моделей. Второй уровень — вывод параметров модели. Связь первого и второго уровня. Пример сравнения трех моделей различной сложности.

Литература

Благодарности Хочу отметить Алексея Куракина и Юрия Максимова за отличное знание теоретической части и за успешно выполненные практические задания.

Личные инструменты