Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, осень 2016

Материал из MachineLearning.

Перейти к: навигация, поиск


Структурное обучение: порождение и выбор моделей

Курс посвящен обсуждению методов выбора моделей. Обсуждение ведется в формате лекций, эссе и кода. Эссе — это изложение идеи решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы). Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[1]. Код —  это Python jupyter notebook, иллюстрирующий идею.

Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре).

Эссе и код

Автор 1 2 3 4 5 6 7 8 9 T Оценка
Бочкарев Артем code code code text
Гончаров Алексей text

code

text

code

code
Жариков Илья doc

code

doc

code

code code
Исаченко Роман text

code

text

code

code
Смирнов Евгений code
Чинаев Николай
Анисимов Александр text

code

text

code

Кулага Роман code code
Пугач Илья
Морозов Алексей
Гущин Александр code code

Эссе хранятся в личной папке Group274/Surname2016aEssays/ (буква a означает autumn). Ссылка на эссе делается по шаблону

 [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.pdf?format=raw text] 
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.nb?format=raw code] 

Задача 0

Подготовка инструментов: выполнить Домашее задание-1, часть 1 и 2 (часть 3 по желанию).

Задача 1

Для одной из моделей регрессии или классификации (двуклассовой или многоклассовой) вычислить значение правдоподобия модели в зависимости от числа признаков (параметров) модели. Данные из UCI. Построить график. По оси абсцисс — число признаков, по левой оси ординат — правдоподобие модели (интеграл знаменателя байесовского вывода первого уровня), по правой оси ординат — правдоподобие данных (левый сомножитель числителя). Матрица ковариации параметров задана, матрица ковариации зависимой переменной вычислена. При этом используются значения оптимальный параметров, так же, как и при вычислении правдоподобия. При вычислении правдоподобия модели интегрируем в окрестности оптимальных параметров. Вид ковариационных матриц, вид оптимальности параметров — на ваше усмотрение.

Тема 1

Введение в связный байесовский вывод

Задача 2

Задан (порожден винеровским процессом) один временной ряд. В него вставлены сегменты-разладки. Требуется их обнаружить, отметить на графике цветом, вычислить ошибку классификации (число несовпадений, AUC). Для обнаружения разладки ряд разбивается окном. Для каждого окна известна метка (норма или разладка). В каждом окне вычисляется статистика (или несколько) из нижеприведенных. При использовании нескольких возможно использование логистической регрессии для оптимизации весовых параметров. Задача немного упрощена по сравнению с той, что обсуждалась на занятии.

Тема 2

Анализ временных рядов и обнаружение разладок

Задача 3

Требуется получить оценку необходимого объема выборки. Решается задача классификации или регрессии на одном из наборов репозитория UCI. Модель, состав признаков, гипотеза порождения данных зафиксированы. Задача решается путем путем поэлементного добавления объектов выборки. На каждом шаге вычисляется статистика. При необходимости выполняется процедура семплирования, которая использует только ранее добавленные объекты. Для оценки объема выбирается статистика и строится график зависимости ее значения от числа добавленных элементов. Предполагается, что объем имеющейся выборки не превосходит необходимый объем  m^*.

Тема 3

Оценка необходимого объема выборки с использованием байесовского подхода

  • Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, text, text.

Задача 4

Не планируется. Тема будет включена в тест.

Тема 4

Задача ранжирования выборок в случае большого числа упорядоченных классов

  • Amini M-R. Multi-class to Binary reduction of Large-scale classification Problems // University Grenoble Alps, 2016, slides.
  • Krithara A., Amini M-R., Goutte C., Renders J-M. Learning aspect models with partially labeled data // Pattern Recognition Letters 32 (2011) 297–304, paper.

Задача 5

Не планируется. Тема будет включена в тест.

Тема 5

Построение мультимоделей и анализ пространства их параметров

  • Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, slides.

Задача 6

Задан набор векторов, по которому строится матрица парных расстояний. Для построения матрицы расстояний используется расстояние Махаланобиса, где матрица трансформаций является параметром (можно считать ее диагональной). Требуется приблизить матрицу парных расстояний матрицей инцидентности, которая соответсвует дереву. Иначе: в задаче оптимизации параметров требуется оштрафовать матрицу парных расстояний за что, что она не является деревом. При этом шаги оптимизации должны идти не по вершинам дерева, а по градиенту в пространстве параметров. Рекомендуется при постановке задачи использовать метод множителей Лагранжа или методы с релаксацией целочисленных значений матрицы инцидентности.

Тема 6

Построение иерархических тематических моделей

  • Кузьмин А.А. Иерархические тематические модели крупных конференций // МФТИ, 2016, text, slides.

Задача 7

Решается задача регрессии или классификации на малых выборках. Задана с интетическая выборка. Предполагается многоэкстремальность функции ошибки пространства параментов. Для оптимизации параметров используется градиентный спуск в режиме мультистарта. Требуется визуализировать траекторию (годограф по шагам спуска) вектора параметров в пространстве малой размерности с целью показать многоэкстремальность. При этом предполагается, что часть точек мультистарта попадет область одного экстремума, а часть - в область других.

Тема 7

Построение иерархических тематических моделей

  • Бахтеев О.Ю. Сложность моделей глубокого обучения // МФТИ, 2016, slides

Задача 8

Не планируется. Тема будет включена в тест.

Тема 8

Задачи выравнивания и классификации последовательнстей

  • Нечаев С.К. Математика и биология больших данных на примере задач сравнения последовательностей и укладки ДНК // МФТИ, 2016, video, slides.

Задача 9

Не планируется.

Тема 9

Задачи выбора регрессионных моделей в статистическом обучении.

  • Животовский Н.К.

Задача 10

Заключительное обсуждение:

  • обсуждение последних эссе,
  • устный опрос по принципу: на вопрос отвечает первый следующий,
  • письменный экзамен продолжительностью не более часа.
Личные инструменты