Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)
Материал из MachineLearning.
(→Требования к моделям) |
|||
Строка 1: | Строка 1: | ||
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики. | Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики. | ||
- | |||
- | |||
- | |||
{{TOCright}} | {{TOCright}} | ||
Строка 12: | Строка 9: | ||
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели] | * [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Leonteva2011ElectricityConsumption/doc/Leonteva2011ElectricityConsumption.pdf Авторегрессионные модели] | ||
* [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53) | * [[Media:strijov08ln.pdf|Примеры постановки задач регрессионного анализа]] (с. 47-53) | ||
- | * | + | * [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part13_Energy,Options.pdf Моделирование в финансовой математике] |
- | + | * [https://dmba.svn.sourceforge.net/svnroot/dmba/Slides/DMBA_Part4,5_Indicators.pdf Экспертно-статистические методы] | |
- | * Экспертно-статистические методы | + | * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Рекомендуемые обозначения|Обозначения]] |
- | + | ||
== Линейные и существенно-нелинейные модели == | == Линейные и существенно-нелинейные модели == | ||
* [[Линейная регрессия]] | * [[Линейная регрессия]] | ||
Строка 38: | Строка 34: | ||
== Обобщенно-линейные модели == | == Обобщенно-линейные модели == | ||
- | * Гипотеза порождения данных | + | * [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part1%60DataGeneration.pdf Гипотеза порождения данных] |
+ | * Первый уровень Байесовского вывода (там же) | ||
* [[Логистическая регрессия]] | * [[Логистическая регрессия]] | ||
* [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]] | * [[Логистическая регрессия (пример)|Метод Ньютона-Рафсона]] | ||
- | * | + | * [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part2%60ParameterEstimation.pdf Методы оценки параметров моделей] |
- | + | ||
- | + | ||
== Методы сэмплирования == | == Методы сэмплирования == | ||
Строка 62: | Строка 57: | ||
* Постановка задач многокритериальной оптимизации | * Постановка задач многокритериальной оптимизации | ||
* Сведение многокритериальной оптимизации к однокритериальной (Weber) | * Сведение многокритериальной оптимизации к однокритериальной (Weber) | ||
- | * Парето-оптимальный фронт | + | * Парето-оптимальный фронт |
* Алгоритмы многокритериальной оптимизации | * Алгоритмы многокритериальной оптимизации | ||
Строка 68: | Строка 63: | ||
* [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]] | * [[Анализ регрессионных остатков]], [[Анализ регрессионных остатков (пример)|пример]] | ||
* [[Фактор инфляции дисперсии]] | * [[Фактор инфляции дисперсии]] | ||
- | * [[ | + | * [[Исследование устойчивости оценок ковариационной матрицы параметров|Устойчивость моделей]] |
* [[Метод Белсли]] | * [[Метод Белсли]] | ||
* [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]] | * [[Анализ мультиколлинеарности|Анализ мультиколлинеарности (пример)]] | ||
Строка 82: | Строка 77: | ||
* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом | * Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом | ||
- | == Методы выбора признаков == | + | == [[Media:Strijov-Krymova10Model-Selection.pdf|Методы выбора признаков]] == |
* Переборные алгоритмы | * Переборные алгоритмы | ||
+ | * Регуляризация | ||
* Шаговая регрессия | * Шаговая регрессия | ||
* Алгоритмы с регуляризацией | * Алгоритмы с регуляризацией | ||
* Алгоритмы направленного добавления FOS, Stagewise, LARS | * Алгоритмы направленного добавления FOS, Stagewise, LARS | ||
* Оптимальное прореживание | * Оптимальное прореживание | ||
- | |||
== Сравнение моделей == | == Сравнение моделей == | ||
- | * Второй уровень Байесовского вывода | + | * [[Связанный Байесовский вывод|Второй уровень Байесовского вывода, множитель Оккама]] |
- | + | * [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part4%60ModelComplexity.pdf Принцип минимальной длины описания] | |
- | * Принцип минимальной длины описания | + | |
* [[Аппроксимация Лапласа]] | * [[Аппроксимация Лапласа]] | ||
* [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров] | * [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tokmakova2011HyperPar/doc/Tokmakova2011HyperPar.pdf Оценка гиперпараметров] | ||
* [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]] | * [[Аппроксимация функции ошибки|Эмпирическая функция правдоподобия и аппроксимация Лапласа]] | ||
+ | * [https://mvr.svn.sourceforge.net/svnroot/mvr/lectures/Part3%60ProblemStatement.pdf Постановка задач выбора моделей] | ||
== Сравнение моделей == | == Сравнение моделей == | ||
Строка 119: | Строка 114: | ||
* Оценка гиперпараметров | * Оценка гиперпараметров | ||
* Мультиколлинеарность и случайные признаки | * Мультиколлинеарность и случайные признаки | ||
+ | * Метод Белсли и анализ ковариационных матриц для нелинейных моделей | ||
+ | * Оценка гиперпараметров для произвольной гипотезы порождения данных | ||
== Практика == | == Практика == | ||
Строка 148: | Строка 145: | ||
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | ||
- | == | + | == На будущее == |
+ | * [Сложность моделей] | ||
+ | |||
+ | * Оптимизация правдоподобия (из раздела выбор признаков) | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Версия 16:58, 2 декабря 2011
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Введение
- Регрессионный анализ
- Регрессионная модель
- Подстановки в линейных моделях
- Авторегрессионные модели
- Примеры постановки задач регрессионного анализа (с. 47-53)
- Моделирование в финансовой математике
- Экспертно-статистические методы
- Обозначения
Линейные и существенно-нелинейные модели
- Линейная регрессия
- Метод наименьших квадратов
- Нелинейная регрессия
- Часто используемые регрессионные модели
- Матрица Якоби и Гессе
- Метод Ньютона
- Алгоритм Левенберга-Марквардта
- Ранговая регрессия
Линейные методы
- Метод главных компонент
- Максимальное правдоподобие МГК
- Байесовский МГК
- МГК для нелинейных моделей
- Сингулярное разложение
- Простой итерационный алгоритм сингулярного разложения
- Пространства, порождаемые сингулярными векторами
- Матричные нормы и обусловленность
- Анализ сингулярных структур
Обобщенно-линейные модели
- Гипотеза порождения данных
- Первый уровень Байесовского вывода (там же)
- Логистическая регрессия
- Метод Ньютона-Рафсона
- Методы оценки параметров моделей
Методы сэмплирования
- Интегрирование Монте-Карло
- Методы преобразования равномерного распределения
- Сэмплирование с отклонением
- Сэмплирование по значимости
- Гиббсовское сэмплирование
- Сэмплирование Метрополиса-Хастингса
- Использование результатов
Критерии качества моделей
- Отсутствие гипотезы порождения данных
- Искусственные критерии качества моделей
- МГУА
- Скоринг и логистическая регрессия
- Многокритериальный выбор моделей
- Постановка задач многокритериальной оптимизации
- Сведение многокритериальной оптимизации к однокритериальной (Weber)
- Парето-оптимальный фронт
- Алгоритмы многокритериальной оптимизации
Требования к моделям
- Анализ регрессионных остатков, пример
- Фактор инфляции дисперсии
- Устойчивость моделей
- Метод Белсли
- Анализ мультиколлинеарности (пример)
- Анализ регрессионных остатков, пример и отчет
Порождение моделей
- Методы порождения моделей
- Структурная сложность
- Структурное расстояние
- Порождение моделей МГУА
- Порождение нейронных сетей и RBF
- Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
- Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
Методы выбора признаков
- Переборные алгоритмы
- Регуляризация
- Шаговая регрессия
- Алгоритмы с регуляризацией
- Алгоритмы направленного добавления FOS, Stagewise, LARS
- Оптимальное прореживание
Сравнение моделей
- Второй уровень Байесовского вывода, множитель Оккама
- Принцип минимальной длины описания
- Аппроксимация Лапласа
- Оценка гиперпараметров
- Эмпирическая функция правдоподобия и аппроксимация Лапласа
- Постановка задач выбора моделей
Сравнение моделей
- Графические модели
- Байесовские сети
- Расстояние Кулльбака-Лейблера
- Вероятностная сходимость
- Расстояние между моделями
Мультимоделирование и смеси экспертов
- Байесовское усреднение моделей
- Смеси распределений
- Смеси линейных моделей
- Смеси обобщенно-линейных моделей
- Смеси экспертов
- Иерархические модели
- Инварианты в пространстве параметров моделей
Анализ ковариационных матриц
- Гауссовские процессы
- Байесовская регрессия - пространство данных и пространство параметров
- Оценка гиперпараметров
- Мультиколлинеарность и случайные признаки
- Метод Белсли и анализ ковариационных матриц для нелинейных моделей
- Оценка гиперпараметров для произвольной гипотезы порождения данных
Практика
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».
Практику необходимо сдать до начала экзамена.
- Подробнее: Группа 674, осень 2011
Экзамен
Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), оценка за экзамен из отрезка [0, 100] дает 1 балл, а отрезок [68, 100] линейно отображается в отрезок [0,6]. Итого максимальная оценка 3+1+6 = 10.
Практика
- 28 сентября и 5 октября
- 26 октября и 2 ноября
- 23 и 30 ноября
Теория
- 14 декабря 2011, группа 674, ауд. 355; список задач будет опубликован по окончании экзамена при условии полной явки.
История
Предшествующие программы и практические задания
Начиная с осени 2010 старая практика переносится в раздел
На будущее
- [Сложность моделей]
- Оптимизация правдоподобия (из раздела выбор признаков)