Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Новое название: «Структурное обучение»

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Содержание

1 Введение
2 Линейные и существенно-нелинейные модели
3 Линейные методы
4 Обобщенно-линейные модели
5 Методы сэмплирования
6 Критерии качества моделей
7 Требования к моделям
8 Методы выбора признаков
9 Сравнение моделей
10 Мультимоделирование и смеси экспертов
11 См. также
12 Практика
13 Экзамен
14 История
15 Разное
16 Порождение моделей
17 Выпадает из курса, перенести в практику

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Метод главных компонент
Максимальное правдоподобие МГК (К.С.)
Байесовский МГК (+)
МГК для нелинейных моделей (+)
Сингулярное разложение
Простой итерационный алгоритм сингулярного разложения

Обобщенно-линейные модели

Гипотеза порождения данных
Первый уровень Байесовского вывода (там же)
Логистическая регрессия
Метод Ньютона-Рафсона
Методы оценки параметров моделей

Методы сэмплирования

Интегрирование Монте-Карло
Методы преобразования равномерного распределения
Сэмплирование с отклонением
Сэмплирование по значимости
Гиббсовское сэмплирование
Сэмплирование Метрополиса-Хастингса
Использование результатов (М.Ю.)

Критерии качества моделей

(при отсутствии гипотезы порождения данных)

Требования к моделям

Методы выбора признаков

Переборные алгоритмы
МГУА
Регуляризация
Шаговая регрессия
Алгоритмы с регуляризацией
Алгоритмы направленного добавления FOS, Stagewise, LARS
Оптимальное прореживание

Сравнение моделей

Мультимоделирование и смеси экспертов

читать К. Бишоп, с. 653-676

Байесовское усреднение моделей
Смеси распределений
Смеси линейных моделей (К.П.)
Смеси обобщенно-линейных моделей (+)
Смеси экспертов (+)
Иерархические модели

См. также

Лекции MVR Лекции DBMA

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Практику необходимо сдать до начала экзамена.

Подробнее: Группа 674, осень 2011

Экзамен

Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.

Практика

28 сентября и 5 октября
26 октября и 2 ноября
23 и 30 ноября

Теория

14 декабря 2011, группа 674, ауд. 355; список вопросов будет опубликован по окончании экзамена при условии полной явки.

Список вопросов, PDF

История

Предшествующие программы и практические задания

Разное

Сложность моделей
Гауссовские процессы
Оптимизация правдоподобия
Метод Белсли и анализ ковариационных матриц для нелинейных моделей
Оценка гиперпараметров для произвольной гипотезы порождения данных
Графические модели
Байесовские сети
Расстояние Кулльбака-Лейблера
Расстояние между моделями
Инварианты в пространстве параметров моделей

Порождение моделей

Методы порождения моделей
Структурная сложность
Структурное расстояние
Порождение моделей МГУА
Порождение нейронных сетей и RBF
Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Выпадает из курса, перенести в практику

Многокритериальный выбор моделей
Постановка задач многокритериальной оптимизации
Сведение многокритериальной оптимизации к однокритериальной (Weber)
Парето-оптимальный фронт
Алгоритмы многокритериальной оптимизации

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_B.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 1: / Строка 1: @@
-__NOTOC__
+Новое название: «Структурное обучение»
-Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-== Введение ==
+Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
-* Задача регрессионного анализа, терминология
-* Что такое регрессионная модель
-* Примеры постановки задач регрессионного анализа
-* Подстановки в линейных моделях
-* Авторегрессионные модели
-* Моделирование геометрических измерений
-* Моделирование в финансовой математике
-* Экспертно-статистические методы
-== Линейные модели ==
+{{TOCright}}
-* Линейная регрессия
-* Метод наименьших квадратов
+== Введение ==
-* Нелинейная регрессия
+* [[Регрессионный анализ]]
-* Основные модели нелинейной регрессии
+* [[Регрессионная модель]]
-* Матрица Якоби и Гессе
+* [[Линейная регрессия (пример)|Подстановки в линейных моделях]]
-* Метод Ньютона
+* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели]
-* Алгоритм Левенберга-Марквардта
+* [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53)
-* Ранговая регрессия
+* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part13_Energy,Options.pdf Моделирование в финансовой математике]
+* [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part4,5_Indicators.pdf Экспертно-статистические методы]
+* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Рекомендуемые обозначения|Обозначения]]
+== Линейные и существенно-нелинейные модели ==
+* [[Линейная регрессия]]
+* [[Метод наименьших квадратов]]
+* [[Нелинейная регрессия]]
+* [[Часто используемые регрессионные модели]]
+* [[Вычисление матриц Якоби и Гессе|Матрица Якоби и Гессе]]
+* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9D%D1%8C%D1%8E%D1%82%D0%BE%D0%BD%D0%B0#.D0.9C.D0.B5.D1.82.D0.BE.D0.B4_.D0.93.D0.B0.D1.83.D1.81.D1.81.D0.B0_.E2.80.94_.D0.9D.D1.8C.D1.8E.D1.82.D0.BE.D0.BD.D0.B0 Метод Ньютона]
+* [[Алгоритм Левенберга-Марквардта]]
+* [[Media:Kuznetsov2011trudi.pdf|Ранговая регрессия]]
 == Линейные методы ==
-* Сингулярное разложение
+* [[Метод главных компонент]]
-* Простой итерационный алгоритм сингулярного разложения
+* Максимальное правдоподобие МГК (К.С.)
-* Пространства, порождаемые сингулярными векторами
+* Байесовский МГК (+)
-* Матричные нормы и обусловленность
+* МГК для нелинейных моделей (+)
-* Метод главных компонент
+* [[Сингулярное разложение]]
-* Анализ сингулярных структур
+* [[Простой итерационный алгоритм сингулярного разложения]]
-== Обобщенные линейные модели ==
+== Обобщенно-линейные модели ==
-* Гипотеза порождения данных
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part1%60DataGeneration.pdf Гипотеза порождения данных]
-* Логистическая регрессия
+* Первый уровень Байесовского вывода (там же)
-* Метод Ньютона-Рафсона
+* [[Логистическая регрессия]]
-* Первый уровень Байесовского вывода
+* [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]]
-* Регуляризация
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part2%60ParameterEstimation.pdf Методы оценки параметров моделей]
+== Методы сэмплирования ==
+* [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9C%D0%BE%D0%BD%D1%82%D0%B5-%D0%9A%D0%B0%D1%80%D0%BB%D0%BE Интегрирование Монте-Карло]
+* Методы преобразования равномерного распределения
+* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D1%81_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Сэмплирование с отклонением]
+* [http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B0_%D0%BF%D0%BE_%D0%B7%D0%BD%D0%B0%D1%87%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8 Сэмплирование по значимости]
+* [http://en.wikipedia.org/wiki/Gibbs_sampling Гиббсовское сэмплирование]
+* [http://en.wikipedia.org/wiki/Metropolis-Hastings_algorithm Сэмплирование Метрополиса-Хастингса]
+* Использование результатов (М.Ю.)
 == Критерии качества моделей ==
-* Отсутвие гипотезы порождения данных
+(при отсутствии гипотезы порождения данных)
-* Искусственные критерии качества моделей
+* [[Метод группового учёта аргументов|Искусственные критерии качества моделей]]
-* МГУА
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Strijov2010Scoring_ANE.pdf Скоринг и логистическая регрессия]
-* Скоринг и логистическая регрессия.
-* Многокритериальный выбор моделей
-* Постановка задач многокритериальной оптимизации.
-* Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
-* Парето-оптимальный фронт
-* Алгоритмы многокритериальной оптимизации
 == Требования к моделям ==
-* Анализ регрессионных оостатков
+* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]]
-* Фактор инфляции дисперсии
+* [[Фактор инфляции дисперсии]]
-* Метод Белсли
+* [[Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]]
-* Сложность моделей
+* [[Метод Белсли]]
-* Устойчивость моделей
+* [[Анализ мультиколлинеарности (пример)|Анализ мультиколлинеарности]]
+* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)| пример]] и [[Статистический отчет при создании моделей|отчет]]
-== Методы сэмплирования ==
+== [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]]  ==
+* Переборные алгоритмы
+* МГУА
+* Регуляризация
+* Шаговая регрессия
+* Алгоритмы с регуляризацией
+* Алгоритмы направленного добавления FOS, Stagewise, LARS
+* Оптимальное прореживание
-== Порождение моделей ==
+== Сравнение моделей ==
-* Методы порождения моделей
+* [[Связанный Байесовский вывод|Второй уровень Байесовского вывода, множитель Оккама]]
-* Структурная сложность
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part4%60ModelComplexity.pdf Принцип минимальной длины описания]
-* Структурное расстояние
+* [[Аппроксимация Лапласа]]
-* Порождение моделей МГУА
+* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров]
-* Порождение нейронных сетей и RBF
+* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]]
-* Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
+* [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей]
-* Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом
+== Мультимоделирование и смеси экспертов  ==
+читать К. Бишоп, с. 653-676
+* Байесовское усреднение моделей
+* Смеси распределений
+* Смеси линейных моделей (К.П.)
+* Смеси обобщенно-линейных моделей (+)
+* Смеси экспертов (+)
+* Иерархические модели
-== Методы выбора признаков ==
+== См. также ==
+[https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/ Лекции MVR]
+[https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/ Лекции DBMA]
-== Сравнение моделей ==
+== Практика ==
-* Второй уровень Байесовского вывода
+Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию.
-* Фактор Оккама
+Практика и доклад выполняются в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы»]].
-* Принцип минимальной длины описания
-* Аппроксимация Лапласа
-* Оценка гиперпараметров
-* Выбор базиса аппроксимации Лапласа
-== Сравнение моделей ==
+Практику необходимо сдать до начала экзамена.
-* Графические модели
-* Расстояние Кулльбака-Лейблера
-* Вероятностная сходимость
-* Расстояние между моделями.
-== Смесь экспертов ==
+* Подробнее: [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]]
+== Экзамен ==
+Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
+Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.
+'''Практика'''
+* 28 сентября и 5 октября
+* 26 октября и 2 ноября
+* 23 и 30 ноября
+'''Теория'''
+* 14 декабря 2011, группа 674, ауд. 355; список вопросов будет опубликован по окончании экзамена при условии полной явки.
+[[Media:RegressionAnalysis2011Exam.pdf|  Список вопросов, PDF]]
 == История ==
 Предшествующие программы и практические задания
+* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]]
+* Группа 574, осень 2010 (то же)
 * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 474, осень 2009 | Группа 474, осень 2009]]
 * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 374, осень 2008 | Группа 374, осень 2008]]
@@ Строка 93: / Строка 120: @@
 * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
-Начиная с осени 2010 практика по этому курсу переносится в раздел
+== Разное ==
-* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
+* Сложность моделей
-* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 574, осень 2010 | Группа 574, осень 2010]]
+* Гауссовские процессы
+* Оптимизация правдоподобия
+* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
+* Оценка гиперпараметров для произвольной гипотезы порождения данных
+* Графические модели
+* Байесовские сети
+* Расстояние Кулльбака-Лейблера
+* Расстояние между моделями
+* Инварианты в пространстве параметров моделей
+== Порождение моделей ==
+* Методы порождения моделей
+* Структурная сложность
+* Структурное расстояние
+* Порождение моделей МГУА
+* Порождение нейронных сетей и RBF
+* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
+* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
-== Основная литература ==
+== Выпадает из курса, перенести в практику ==
+* Многокритериальный выбор моделей
+* Постановка задач многокритериальной оптимизации
+* Сведение многокритериальной оптимизации к однокритериальной (Weber)
+* Парето-оптимальный фронт
+* Алгоритмы многокритериальной оптимизации
-== Дополнительная литература ==
+[[Категория:Учебные курсы]]