Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, осень 2016
Материал из MachineLearning.
Строка 7: | Строка 7: | ||
Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре). | Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре). | ||
+ | |||
+ | Короткая ссылка [http://bit.ly/2mH9G2F http://bit.ly/2mH9G2F] | ||
== Эссе и код == | == Эссе и код == |
Текущая версия
Структурное обучение: порождение и выбор моделей
Курс посвящен обсуждению методов выбора моделей. Обсуждение ведется в формате лекций, эссе и кода. Эссе — это изложение идеи решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы). Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[1]. Код — это Python jupyter notebook, иллюстрирующий идею.
Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре).
Короткая ссылка http://bit.ly/2mH9G2F
Эссе и код
Автор | 1 | 2 | 3 | 6 | 7 |
---|---|---|---|---|---|
Бочкарев Артем | code | code | code | text | |
Гончаров Алексей | text | text | code | ||
Жариков Илья | doc | doc | code | code | |
Исаченко Роман | text | text | code | code | |
Смирнов Евгений | code | ||||
Анисимов Александр | text | text | |||
Кулага Роман | code | code | code | ||
Пугач Илья | code | ||||
Гущин Александр | code | code |
Эссе хранятся в личной папке Group274/Surname2016aEssays/ (буква a означает autumn). Ссылка на эссе делается по шаблону
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.pdf?format=raw text] [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.nb?format=raw code]
Задача 0
Подготовка инструментов: выполнить Домашее задание-1, часть 1 и 2 (часть 3 по желанию).
Задача 1
Для одной из моделей регрессии или классификации (двуклассовой или многоклассовой) вычислить значение правдоподобия модели в зависимости от числа признаков (параметров) модели. Данные из UCI. Построить график. По оси абсцисс — число признаков, по левой оси ординат — правдоподобие модели (интеграл знаменателя байесовского вывода первого уровня), по правой оси ординат — правдоподобие данных (левый сомножитель числителя). Матрица ковариации параметров задана, матрица ковариации зависимой переменной вычислена. При этом используются значения оптимальный параметров, так же, как и при вычислении правдоподобия. При вычислении правдоподобия модели интегрируем в окрестности оптимальных параметров. Вид ковариационных матриц, вид оптимальности параметров — на ваше усмотрение.
Тема 1
Введение в связный байесовский вывод
- Связный байесовский вывод, слайды // sf.net/MVR, 2016.
- Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016.
Задача 2
Задан (порожден винеровским процессом) один временной ряд. В него вставлены сегменты-разладки. Требуется их обнаружить, отметить на графике цветом, вычислить ошибку классификации (число несовпадений, AUC). Для обнаружения разладки ряд разбивается окном. Для каждого окна известна метка (норма или разладка). В каждом окне вычисляется статистика (или несколько) из нижеприведенных. При использовании нескольких возможно использование логистической регрессии для оптимизации весовых параметров. Задача немного упрощена по сравнению с той, что обсуждалась на занятии.
Тема 2
Анализ временных рядов и обнаружение разладок
- Артёмов А.В. Обзор некоторых статистических методов скорейшего обнаружения, 2014, slides.
- Артёмов А.В. Фильтрация сигналов с трендом в задачах обнаружения разладки, 2016, slides.
- Артемов А.В., Бурнаев Е.В., Оптимальное оценивание сигнала, наблюдаемого во фрактальном гауссовском шуме // Теория вероятностей и ее применения, том 60, вып. 1, 2015.
Задача 3
Требуется получить оценку необходимого объема выборки. Решается задача классификации или регрессии на одном из наборов репозитория UCI. Модель, состав признаков, гипотеза порождения данных зафиксированы. Задача решается путем путем поэлементного добавления объектов выборки. На каждом шаге вычисляется статистика. При необходимости выполняется процедура семплирования, которая использует только ранее добавленные объекты. Для оценки объема выбирается статистика и строится график зависимости ее значения от числа добавленных элементов. Предполагается, что объем имеющейся выборки не превосходит необходимый объем .
Тема 3
Оценка необходимого объема выборки с использованием байесовского подхода
Задача 4
Не планируется. Тема будет включена в тест.
Тема 4
Задача ранжирования выборок в случае большого числа упорядоченных классов
- Amini M-R. Multi-class to Binary reduction of Large-scale classification Problems // University Grenoble Alps, 2016, slides.
- Krithara A., Amini M-R., Goutte C., Renders J-M. Learning aspect models with partially labeled data // Pattern Recognition Letters 32 (2011) 297–304, paper.
Задача 5
Не планируется. Тема будет включена в тест.
Тема 5
Построение мультимоделей и анализ пространства их параметров
- Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, slides.
Задача 6
Задан набор векторов, по которому строится матрица парных расстояний. Для построения матрицы расстояний используется расстояние Махаланобиса, где матрица трансформаций является параметром (можно считать ее диагональной). Требуется приблизить матрицу парных расстояний матрицей инцидентности, которая соответсвует дереву. Иначе: в задаче оптимизации параметров требуется оштрафовать матрицу парных расстояний за что, что она не является деревом. При этом шаги оптимизации должны идти не по вершинам дерева, а по градиенту в пространстве параметров. Рекомендуется при постановке задачи использовать метод множителей Лагранжа или методы с релаксацией целочисленных значений матрицы инцидентности.
Тема 6
Построение иерархических тематических моделей
Задача 7
Решается задача регрессии или классификации на малых выборках. Задана с интетическая выборка. Предполагается многоэкстремальность функции ошибки пространства параментов. Для оптимизации параметров используется градиентный спуск в режиме мультистарта. Требуется визуализировать траекторию (годограф по шагам спуска) вектора параметров в пространстве малой размерности с целью показать многоэкстремальность. При этом предполагается, что часть точек мультистарта попадет область одного экстремума, а часть - в область других.
Тема 7
Построение иерархических тематических моделей
- Бахтеев О.Ю. Сложность моделей глубокого обучения // МФТИ, 2016, slides
Задача 8
Не планируется. Тема будет включена в тест.
Тема 8
Задачи выравнивания и классификации последовательнстей
- Нечаев С.К. Математика и биология больших данных на примере задач сравнения последовательностей и укладки ДНК // МФТИ, 2016, video, slides.
Задача 9
Не планируется.
Тема 9
Задачи выбора регрессионных моделей в статистическом обучении.
- Животовский Н.К.
Задача 10
Заключительное обсуждение:
- обсуждение последних эссе,
- устный опрос по принципу: на вопрос отвечает первый следующий,
- письменный экзамен-тест продолжительностью не более часа.