Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)

Версия 16:58, 2 декабря 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

1 Введение
2 Линейные и существенно-нелинейные модели
3 Линейные методы
4 Обобщенно-линейные модели
5 Методы сэмплирования
6 Критерии качества моделей
7 Требования к моделям
8 Порождение моделей
9 Методы выбора признаков
10 Сравнение моделей
11 Сравнение моделей
12 Мультимоделирование и смеси экспертов
13 Анализ ковариационных матриц
14 Практика
15 Экзамен
16 История
17 На будущее

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Метод главных компонент
Максимальное правдоподобие МГК
Байесовский МГК
МГК для нелинейных моделей
Сингулярное разложение
Простой итерационный алгоритм сингулярного разложения
Пространства, порождаемые сингулярными векторами
Матричные нормы и обусловленность
Анализ сингулярных структур

Обобщенно-линейные модели

Гипотеза порождения данных
Первый уровень Байесовского вывода (там же)
Логистическая регрессия
Метод Ньютона-Рафсона
Методы оценки параметров моделей

Методы сэмплирования

Интегрирование Монте-Карло
Методы преобразования равномерного распределения
Сэмплирование с отклонением
Сэмплирование по значимости
Гиббсовское сэмплирование
Сэмплирование Метрополиса-Хастингса
Использование результатов

Критерии качества моделей

Отсутствие гипотезы порождения данных
Искусственные критерии качества моделей
МГУА
Скоринг и логистическая регрессия
Многокритериальный выбор моделей
Постановка задач многокритериальной оптимизации
Сведение многокритериальной оптимизации к однокритериальной (Weber)
Парето-оптимальный фронт
Алгоритмы многокритериальной оптимизации

Требования к моделям

Порождение моделей

Методы порождения моделей
Структурная сложность
Структурное расстояние
Порождение моделей МГУА
Порождение нейронных сетей и RBF
Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

Переборные алгоритмы
Регуляризация
Шаговая регрессия
Алгоритмы с регуляризацией
Алгоритмы направленного добавления FOS, Stagewise, LARS
Оптимальное прореживание

Сравнение моделей

Графические модели
Байесовские сети
Расстояние Кулльбака-Лейблера
Вероятностная сходимость
Расстояние между моделями

Мультимоделирование и смеси экспертов

Байесовское усреднение моделей
Смеси распределений
Смеси линейных моделей
Смеси обобщенно-линейных моделей
Смеси экспертов
Иерархические модели
Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

Гауссовские процессы
Байесовская регрессия - пространство данных и пространство параметров
Оценка гиперпараметров
Мультиколлинеарность и случайные признаки
Метод Белсли и анализ ковариационных матриц для нелинейных моделей
Оценка гиперпараметров для произвольной гипотезы порождения данных

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Подробнее: Группа 674, осень 2011

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

28 сентября и 5 октября
26 октября и 2 ноября
23 и 30 ноября

Теория

14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Численные методы обучения по прецедентам

На будущее

[Сложность моделей]

Оптимизация правдоподобия (из раздела выбор признаков)

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_B.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 1: / Строка 1: @@
 Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-== Лекции: слайды ==
-* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/ В репозитории (осень 2011, будут к 11.12), PDF]
 {{TOCright}}
@@ Строка 12: / Строка 9: @@
 * [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели]
 * [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53)
-* Моделирование геометрических измерений
+* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part13_Energy,Options.pdf Моделирование в финансовой математике]
-* Моделирование в финансовой математике
+* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part4,5_Indicators.pdf Экспертно-статистические методы]
-* Экспертно-статистические методы
+* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Рекомендуемые обозначения|Обозначения]]
 == Линейные и существенно-нелинейные модели ==
 * [[Линейная регрессия]]
@@ Строка 38: / Строка 34: @@
 == Обобщенно-линейные модели ==
-* Гипотеза порождения данных []
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part1%60DataGeneration.pdf Гипотеза порождения данных]
+* Первый уровень Байесовского вывода (там же)
 * [[Логистическая регрессия]]
 * [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]]
-* Первый уровень Байесовского вывода
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part2%60ParameterEstimation.pdf Методы оценки параметров моделей]
-* Регуляризация
-* Оценка гиперпараметров для произвольной гипотезы порождения данных
 == Методы сэмплирования ==
@@ Строка 62: / Строка 57: @@
 * Постановка задач многокритериальной оптимизации
 * Сведение многокритериальной оптимизации к однокритериальной (Weber)
 * Парето-оптимальный фронт
 * Алгоритмы многокритериальной оптимизации
@@ Строка 68: / Строка 63: @@
 * [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
 * [[Фактор инфляции дисперсии]]
-* [[|Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
+* [[Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
 * [[Метод Белсли]]
 * [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]]
@@ Строка 82: / Строка 77: @@
 * Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
-== Методы выбора признаков ==
+== [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]]  ==
 * Переборные алгоритмы
+* Регуляризация
 * Шаговая регрессия
 * Алгоритмы с регуляризацией
 * Алгоритмы направленного добавления FOS, Stagewise, LARS
 * Оптимальное прореживание
-* Оптимизация правдоподобия
 == Сравнение моделей ==
-* Второй уровень Байесовского вывода
+* [[Связанный Байесовский вывод|Второй уровень Байесовского вывода, множитель Оккама]]
-* Фактор Оккама
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part4%60ModelComplexity.pdf Принцип минимальной длины описания]
-* Принцип минимальной длины описания
 * [[Аппроксимация Лапласа]]
 * [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров]
 * [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
 == Сравнение моделей ==
@@ Строка 119: / Строка 114: @@
 * Оценка гиперпараметров
 * Мультиколлинеарность и случайные признаки
+* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
+* Оценка гиперпараметров для произвольной гипотезы порождения данных
 == Практика ==
@@ Строка 148: / Строка 145: @@
 * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
-== Литература ==
+== На будущее ==
+* [Сложность моделей]
+* Оптимизация правдоподобия (из раздела выбор признаков)
 [[Категория:Учебные курсы]]

Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

Версия 16:58, 2 декабря 2011

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

Критерии качества моделей

Требования к моделям

Порождение моделей

Методы выбора признаков

Сравнение моделей

Сравнение моделей

Мультимоделирование и смеси экспертов

Анализ ковариационных матриц

Практика

Экзамен

История

На будущее

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты