Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)
Материал из MachineLearning.
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Лекции: слайды
Введение
- Задача регрессионного анализа, терминология
- Что такое регрессионная модель
- Примеры постановки задач регрессионного анализа
- Подстановки в линейных моделях
- Авторегрессионные модели
- Моделирование геометрических измерений
- Моделирование в финансовой математике
- Экспертно-статистические методы
Линейные и существенно-нелинейные модели
- Линейная регрессия
- Метод наименьших квадратов
- Нелинейная регрессия
- Основные модели нелинейной регрессии
- Матрица Якоби и Гессе
- Метод Ньютона
- Алгоритм Левенберга-Марквардта
- Ранговая регрессия
Линейные методы
- Метод главных компонент
- Максимальное правдоподобие МГК
- Байесовский МГК
- МГК для нелинейных моделей
- Сингулярное разложение
- Простой итерационный алгоритм сингулярного разложения
- Пространства, порождаемые сингулярными векторами
- Матричные нормы и обусловленность
- Анализ сингулярных структур
Обобщенно-линейные модели
- Гипотеза порождения данных
- Логистическая регрессия
- Метод Ньютона-Рафсона
- Первый уровень Байесовского вывода
- Регуляризация
- Оценка гиперпараметров для произвольной гипотезы порождения данных
Методы сэмплирования
- Интегрирование Монте-Карло
- Методы преобразования равномерного распределения
- Сэмплирование с отклонением
- Сэмплирование по значимости
- Гиббсовское сэмплирование
- Сэмплирование Метрополиса-Хастингса
- Использование результатов
Критерии качества моделей
- Отсутствие гипотезы порождения данных
- Искусственные критерии качества моделей
- МГУА
- Скоринг и логистическая регрессия
- Многокритериальный выбор моделей
- Постановка задач многокритериальной оптимизации
- Сведение многокритериальной оптимизации к однокритериальной (Weber)
- Парето-оптимальный фронт
- Алгоритмы многокритериальной оптимизации
Требования к моделям
- Анализ регрессионных остатков
- Фактор инфляции дисперсии
- Сложность моделей
- Устойчивость моделей
- Метод Белсли для линейных моделей
- Метод Белсли и анализ ковариационных матриц для нелинейных моделей
Порождение моделей
- Методы порождения моделей
- Структурная сложность
- Структурное расстояние
- Порождение моделей МГУА
- Порождение нейронных сетей и RBF
- Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
- Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
Методы выбора признаков
- Переборные алгоритмы
- Шаговая регрессия
- Алгоритмы с регуляризацией
- Алгоритмы направленного добавления FOS, Stagewise, LARS
- Оптимальное прореживание
- Оптимизация правдоподобия
Сравнение моделей
- Второй уровень Байесовского вывода
- Фактор Оккама
- Принцип минимальной длины описания
- Аппроксимация Лапласа
- Оценка гиперпараметров
- Выбор базиса аппроксимации Лапласа
Сравнение моделей
- Графические модели
- Байесовские сети
- Расстояние Кулльбака-Лейблера
- Вероятностная сходимость
- Расстояние между моделями
Мультимоделирование и смеси экспертов
- Байесовское усреднение моделей
- Смеси распределений
- Смеси линейных моделей
- Смеси обобщенно-линейных моделей
- Смеси экспертов
- Иерархические модели
- Инварианты в пространстве параметров моделей
Анализ ковариационных матриц
- Гауссовские процессы
- Байесовская регрессия - пространство данных и пространство параметров
- Оценка гиперпараметров
- Мультиколлинеарность и случайные признаки
Практика
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».
Практику необходимо сдать до начала экзамена.
- Подробнее: Группа 674, осень 2011
Экзамен
Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.
Практика
- 28 сентября и 5 октября
- 26 октября и 2 ноября
- 23 и 30 ноября
Теория
- 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.
История
Предшествующие программы и практические задания
Начиная с осени 2010 старая практика переносится в раздел