Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Лекции: слайды

Содержание

Введение

  • Задача регрессионного анализа, терминология
  • Что такое регрессионная модель
  • Примеры постановки задач регрессионного анализа
  • Подстановки в линейных моделях
  • Авторегрессионные модели
  • Моделирование геометрических измерений
  • Моделирование в финансовой математике
  • Экспертно-статистические методы

Линейные и существенно-нелинейные модели

  • Линейная регрессия
  • Метод наименьших квадратов
  • Нелинейная регрессия
  • Основные модели нелинейной регрессии
  • Матрица Якоби и Гессе
  • Метод Ньютона
  • Алгоритм Левенберга-Марквардта
  • Ранговая регрессия

Линейные методы

  • Метод главных компонент
  • Максимальное правдоподобие МГК
  • Байесовский МГК
  • МГК для нелинейных моделей
  • Сингулярное разложение
  • Простой итерационный алгоритм сингулярного разложения
  • Пространства, порождаемые сингулярными векторами
  • Матричные нормы и обусловленность
  • Анализ сингулярных структур

Обобщенно-линейные модели

  • Гипотеза порождения данных
  • Логистическая регрессия
  • Метод Ньютона-Рафсона
  • Первый уровень Байесовского вывода
  • Регуляризация
  • Оценка гиперпараметров для произвольной гипотезы порождения данных

Методы сэмплирования

  • Интегрирование Монте-Карло
  • Методы преобразования равномерного распределения
  • Сэмплирование с отклонением
  • Сэмплирование по значимости
  • Гиббсовское сэмплирование
  • Сэмплирование Метрополиса-Хастингса
  • Использование результатов

Критерии качества моделей

  • Отсутствие гипотезы порождения данных
  • Искусственные критерии качества моделей
  • МГУА
  • Скоринг и логистическая регрессия
  • Многокритериальный выбор моделей
  • Постановка задач многокритериальной оптимизации
  • Сведение многокритериальной оптимизации к однокритериальной (Weber)
  • Парето-оптимальный фронт
  • Алгоритмы многокритериальной оптимизации

Требования к моделям

  • Анализ регрессионных остатков
  • Фактор инфляции дисперсии
  • Сложность моделей
  • Устойчивость моделей
  • Метод Белсли для линейных моделей
  • Метод Белсли и анализ ковариационных матриц для нелинейных моделей

Порождение моделей

  • Методы порождения моделей
  • Структурная сложность
  • Структурное расстояние
  • Порождение моделей МГУА
  • Порождение нейронных сетей и RBF
  • Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
  • Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

  • Переборные алгоритмы
  • Шаговая регрессия
  • Алгоритмы с регуляризацией
  • Алгоритмы направленного добавления FOS, Stagewise, LARS
  • Оптимальное прореживание
  • Оптимизация правдоподобия

Сравнение моделей

  • Второй уровень Байесовского вывода
  • Фактор Оккама
  • Принцип минимальной длины описания
  • Аппроксимация Лапласа
  • Оценка гиперпараметров
  • Выбор базиса аппроксимации Лапласа

Сравнение моделей

  • Графические модели
  • Байесовские сети
  • Расстояние Кулльбака-Лейблера
  • Вероятностная сходимость
  • Расстояние между моделями

Мультимоделирование и смеси экспертов

  • Байесовское усреднение моделей
  • Смеси распределений
  • Смеси линейных моделей
  • Смеси обобщенно-линейных моделей
  • Смеси экспертов
  • Иерархические модели
  • Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

  • Гауссовские процессы
  • Байесовская регрессия - пространство данных и пространство параметров
  • Оценка гиперпараметров
  • Мультиколлинеарность и случайные признаки

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

  • 28 сентября и 5 октября
  • 26 октября и 2 ноября
  • 23 и 30 ноября

Теория

  • 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Литература