Прикладной регрессионный анализ (курс лекций, B.В.Стрижов, 2008)
Материал из MachineLearning.
|
Московский физико-технический институт, Факультет управления и прикладной математики
Курс читается студентам 6-го курса кафедры "Интеллектуальные системы", специализация: "Интеллектуальный анализ данных", группа 374-а.
Статья предназначена прежде всего для студентов группы 374-а, она будет наполняться в течение этого семестра. |
Аннотация
Курс лекций включает теоретические и прикладные аспекты создания моделей нелинейной регрессии и алгоритмов оптимизации качества этих моделей. Рассматриваются современные алгоритмы индуктивного порождения регрессионных моделей. Приводятся примеры использования алгоритмов при решении прикладных задач в финансовой математике, экологии и медицине.
Организационная часть
Семестровый курс содержит 32 часа лекций и 32 часа практических занятий. В ходе лекций будут объявляться темы практических заданий. После выбора темы обсуждаются требования к работе. До начала экзамена нужно сдать все задания по практике. Экзамен состоит из теоретических вопросов и задач.
Дополнительный материал
- Курс лекций 2006, план лекций и примеры
- Курс лекций 2007, примеры задач практикума и материалы для самоподготовки
- Примеры решения задач регрессионного анализа
Задачи для самостоятельного решения
Задачи вынесены из курса лекций, так как решались ранее в курсах линейной алгебры или математической статистики
- Вывести нормальное уравнение МНК через квадратичную оптимизацию.
- Вывести нормальное уравнение через проекцию на пространство столбцов матрицы.
- Показать что матрица, проектирующая вектор на свое пространство столбцов симметрична и идемпотентна.
- Показать что если матрица удовлетворяет условиям задачи 3, то она проектирует вектор на свое пространство столбцов (доп.).
- Показать что матрица симметрична и положительно определена.
- Сколько мономов полинома Колмогорова-Габора от переменных имеют степень не превосходящую (с повторами переменных в мономах и без повторов)?
- Показать, что оценки интегральных индикаторов и весов показателей, полученные альфа-согласованием являются согласованными.
- Вывести оценку весов показателей гамма-согласования как минимум суммы квадратов расстояний между выставленной и вычисленной оценками в пространствах оценок интегральных индикаторов и весов показателей.
- Показать, что сингулярные числа матрицы — это длины осей эллипсоида, заданного множеством .
- Показать, что первое сингулярное число матрицы — это ее Евклидова норма.
- Показать, что число обусловленности матрицы есть квадрат числа обусловленности матрицы . Заметка: число обусловленности матрицы — есть отношение первого сингулярного числа к последнему, .
- Записать алгоритм итеративого нахождения сингулярного разложения.
Задачи на понимание методов регрессионного анализа
- Дана выборка - множество измерений координат окружности , где , выполненных с некоторой случайной аддитивной ошибкой. Требуется методом наименьших квадратов найти центр и радиус этой окружности.
- (продолжение) Применим ли метод решения этой задачи для сферы?
- (продолжение) Есть измерения координат границ плоских и объемных физических тел (несложной формы), сделанные с ошибкой. Предложите примеры моделирования форм этих тел с помощью методов наименьших квадратов.
- Даны два вектора в пространстве . Требуется приблизить вектор вектором , так что . Поставить и решить задачу линейной регрессии (пусть модель будет квадратичным полиномом, - вектор параметров).
Рекомендуемые примеры
- Часто используемые конструкции языка m
- Советы по оформлению отчетов
- Метод наименьших квадратов
- MVR Composer, порождение нелинейных регрессионых моделей
Задания для практических занятий
Общие требования
- Поставить задачу и описать алгоритм в математической нотации. Результат — файл tex или doc, 1-2 страницы.
- Написать алгоритм, протестировать, документировать код (см. пример). Алгоритм запускается из файла отчета. Совет: при создании алгоритма желательно использовать существующие функции и код, написанный ранее. Результат — набор документированных функций.
- Выполнить вычислительный эксперимент (исходные данные и условия оговариваются отдельно), сделать отчет (см. пример). Результат — файл pdf.
- Сдать задание с таким расчетом, чтобы получить рецензию и успеть исправить недочеты до экзамена (конец декабря). Результат — положительная рецензия и допуск к экзамену.
Задание 1
Дан многомерный временной ряд, в котором один остчет времени соответствует одному часу. Известно, что ряд имеет три периода: 24, 7*24, 365*24. Требуется построить алгоритм прогноза на 24 отсчета вперед. Прогноз выполняется с помощью линейной регрессии. Дополнительно используется библиотека нелинейных безпараметрических преобразований свободных переменных. Свободные переменные (признаки) выбираются с помощью многорядного МГУА. При выполнении вычислительного эксперимента необходимо выбрать несколько лучших моделей и сравнить прогнозы, сделанные с их помощью. Для этого вычисляется ошибка на прогнозе и строится график. (Исходные данные и список библиотечных функций по запросу).
Выполняет Михаил Шавловский
План лекций
Лекция 1
Организация курса, организация практических занятий, план лекций, обзор литературы по предмету, обзор программного обеспечения, введение в программирование задач регрессионного анализа.
Лекция 2
Введение в регрессионный анализ, постановка задачи, терминология, регрессионная модель, линейные модели, метод наименьших квадратов, два вывода нормального уравнения, подстановки и нахождение параметров линейной регрессионной модели, пример построения линейной регрессии: линейная, квадратичная и нелинейная функции, пример: биржевые опционы и улыбка волатильности, построение многомерной регрессионной модели.
Лекция 3
Метод группового учета аргументов. Постановка задачи с использованием порождающих функций (безпараметрических нелинейных подстановок). Базовая модель. Алгоритм МГУА. Комбинаторный алгоритм. Многослойный алгоритм. Внутренние и внешние критерии
Лекция 4
Предположение об аддтивной случайной составляющей свободной переменной. Построение интегральных индикаторов. Требования к исходым данным. Подготовка данных. Парето-расслоение. Экспертно-статистический метод. Метод главных компонент. Альфа и гамма — согласование экспертных оценок. Согласование оценок, выставленных в ранговых шкалах.
Лекция 5
Сингулярное разложение при решении задач линейной регрессии. Определение и свойства сингулярного разложения. Сингулярное разложение и обращение матриц. Определение псевдообратной матрицы. Два способа регуляризации при обращении матриц. Сингулярное разложение и собственные векторы матрицы . Простой итеративный способ нахождения сингулярного разложения. Задача о поведении биосистемы в экстремальных условиях.
Лекция 6
Метод главных компонент. Многомерная случайная величина. Оптимизационная задача нахождения проекций на линейную оболочку множества векторов. Матрица вращения главных компонент. Связь метода главных компонент и сингулярного разложения. Организация вычислительных экспериментов, связанных с индуктивным порождением регрессионных моделей.
Лекция 7
Линейные методы прогнозирования. Система управления с обратной связью. Задача о макроэкономическом моделировании. Системы одновременных линейных уравнений и векторная авторегрессия. Решение уравнения векторной авторегрессии для решения задачи управления. Задача о прогнозе потребления электроэнергии. Алгоритм линейного прогноза.