Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)
Материал из MachineLearning.
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Предполагается, что слушатели владеют материалом курса «Численные методы обучения по прецедентам»
Введение
- Задача регрессионного анализа, терминология
- Что такое регрессионная модель
- Примеры постановки задач регрессионного анализа
- Подстановки в линейных моделях
- Авторегрессионные модели
- Моделирование геометрических измерений
- Моделирование в финансовой математике
- Экспертно-статистические методы
Линейные модели
- Линейная регрессия
- Метод наименьших квадратов
- Нелинейная регрессия
- Основные модели нелинейной регрессии
- Матрица Якоби и Гессе
- Метод Ньютона
- Алгоритм Левенберга-Марквардта
- Ранговая регрессия
Линейные методы
- Сингулярное разложение
- Простой итерационный алгоритм сингулярного разложения
- Пространства, порождаемые сингулярными векторами
- Матричные нормы и обусловленность
- Метод главных компонент
- Анализ сингулярных структур
Обобщенные линейные модели
- Гипотеза порождения данных
- Логистическая регрессия
- Метод Ньютона-Рафсона
- Первый уровень Байесовского вывода
- Регуляризация
Критерии качества моделей
- Отсутвие гипотезы порождения данных
- Искусственные критерии качества моделей
- МГУА
- Скоринг и логистическая регрессия.
- Многокритериальный выбор моделей
- Постановка задач многокритериальной оптимизации.
- Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
- Парето-оптимальный фронт
- Алгоритмы многокритериальной оптимизации
Требования к моделям
- Анализ регрессионных оостатков
- Фактор инфляции дисперсии
- Метод Белсли
- Сложность моделей
- Устойчивость моделей
Порождение моделей
- Методы порождения моделей
- Структурная сложность
- Структурное расстояние
- Порождение моделей МГУА
- Порождение нейронных сетей и RBF
- Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
- Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом
Методы выбора признаков
- Переборные алгоритмы
- Шаговая регрессия
- Алгоритмы с регуляризацией
- Алгоритмы направленного добавления FOS, Stagewise, LARS
- Оптимальное прореживание
- Оптимизация правдоподобия
Сравнение моделей
- Второй уровень Байесовского вывода
- Фактор Оккама
- Принцип минимальной длины описания
- Аппроксимация Лапласа
- Оценка гиперпараметров
- Выбор базиса аппроксимации Лапласа
Сравнение моделей (далее - 2012)
- Графические модели
- Расстояние Кулльбака-Лейблера
- Вероятностная сходимость
- Расстояние между моделями.
Смесь экспертов
Методы сэмплирования
Экзамен
Экзамен состоит из двух частей: доклад о выполнении практики и письменная работа по теории. Доклад выполняется в формате "Численные методы". Письменная работа состоит из 50 вопросов/задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
Практика
- 7 декабря 2011, группа 674: список тем
Теория
- 14 декабря 2011 группа 674: список задач
История
Предшествующие программы и практические задания
Начиная с осени 2010 практика по этому курсу переносится в раздел