Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, осень 2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Эссе и код)
 
(42 промежуточные версии не показаны)
Строка 7: Строка 7:
Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре).
Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре).
 +
 +
Короткая ссылка [http://bit.ly/2mH9G2F http://bit.ly/2mH9G2F]
== Эссе и код ==
== Эссе и код ==
Строка 15: Строка 17:
! 2
! 2
! 3
! 3
-
! 4
 
-
! 5
 
! 6
! 6
! 7
! 7
-
! 8
 
-
! 9
 
-
! T
 
-
! Оценка
 
|-
|-
|Бочкарев Артем
|Бочкарев Артем
-
| пример
+
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016aEssays/homework1.ipynb?format=raw code]
-
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016Essays/Bochkarev2016Essay1.pdf?format=raw эссе]
+
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016aEssays/homework2.ipynb?format=raw code]
-
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016Essays/Bochkarev2016Essay2.pdf?format=raw код]
+
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016aEssays/homework3.ipynb?format=raw code]
-
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016aEssays/homework2.ipynb?format=raw код]
+
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Bochkarev2016aEssays/homework4.pdf?format=raw text]
|
|
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
|-
|-
|Гончаров Алексей
|Гончаров Алексей
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task1/Goncharov2016Essay1.pdf?format=raw text]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task1/Goncharov2016Essay1.pdf?format=raw text]
-
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task1/Goncharov2016Essay1.ipynb?format=raw code]
+
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task1/Goncharov2016Essay.ipynb?format=raw code]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task2/Goncharov2016Essay2.pdf?format=raw text]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task2/Goncharov2016Essay2.pdf?format=raw text]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task2/Goncharov2016Essay2.ipynb?format=raw code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task2/Goncharov2016Essay2.ipynb?format=raw code]
-
|
+
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/autumn/task3/task3.ipynb?format=raw code]
-
|
+
-
|
+
-
|
+
|
|
-
|
 
-
|
 
-
|
 
|
|
|-
|-
Строка 59: Строка 41:
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay2/Zharikov2016Essay2.pdf?format=raw doc]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay2/Zharikov2016Essay2.pdf?format=raw doc]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay2/Zharikov2016Essay2.ipynb?format=raw code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay2/Zharikov2016Essay2.ipynb?format=raw code]
 +
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay3/Zharikov2016Essay3.ipynb?format=raw code]
 +
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Zharikov2016Essays/S9/Essay6/Zharikov2016Essay6.ipynb?format=raw code]
|
|
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
|-
|-
|Исаченко Роман
|Исаченко Роман
Строка 75: Строка 51:
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Isachenko2016aEssays/Isachenko2016Essay2.ipynb?format=raw code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Isachenko2016aEssays/Isachenko2016Essay2.ipynb?format=raw code]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Isachenko2016aEssays/Isachenko2016Essay3.ipynb?format=raw code]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Isachenko2016aEssays/Isachenko2016Essay3.ipynb?format=raw code]
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
|
|
 +
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Isachenko2016aEssays/Isachenko2016Essay5.ipynb?format=raw code]
|-
|-
|Смирнов Евгений
|Смирнов Евгений
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Smirnov2016aEssays/Smirnov2016Essay1.ipynb?format=raw code]
|[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Smirnov2016aEssays/Smirnov2016Essay1.ipynb?format=raw code]
-
|
 
-
|
 
|
|
|
|
|
|
|
|
-
|
 
-
|
 
-
|
 
-
|
 
-
|-
 
-
|Чинаев Николай
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
-
|
 
|-
|-
|Анисимов Александр
|Анисимов Александр
Строка 115: Строка 66:
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Anisimov2016aEssay/Anisimov2016Essay2.pdf?format=raw text]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Anisimov2016aEssay/Anisimov2016Essay2.pdf?format=raw text]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Anisimov2016aEssay/Anisimov2016Essay2.ipynb?format=raw code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Anisimov2016aEssay/Anisimov2016Essay2.ipynb?format=raw code]
-
|
 
-
|
 
|
|
|
|
|
|
-
|
 
-
|
 
-
|
 
-
|
 
|-
|-
|Кулага Роман
|Кулага Роман
|
|
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Kulaga2016aEssays/Kulaga2016Essay2.ipynb?format=raw code]
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Kulaga2016aEssays/Kulaga2016Essay2.ipynb?format=raw code]
 +
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Kulaga2016aEssays/Kulaga2016Essay3.ipynb?format=raw code]
|
|
-
|
+
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Kulaga2016aEssays/Kulaga2016Essay7.ipynb?format=raw code]
-
|
+
-
|
+
-
|
+
-
|
+
-
|
+
-
|
+
-
|
+
|-
|-
|Пугач Илья
|Пугач Илья
|
|
|
|
 +
| [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Pugach2016Essays/Essay3/Pugach2016Essay3.ipynb?format=raw code]
|
|
|
|
 +
|-
 +
|Гущин Александр
 +
| [https://gist.github.com/aguschin/08594da3c71c90fe02b46ced5c234900 code]
|
|
 +
| [https://gist.github.com/aguschin/7f788be15cf053e3fd239f4fd05cba28 code]
|
|
|
|
-
|
+
|-
-
|
+
-
|
+
-
|
+
|}
|}
Строка 164: Строка 105:
== Тема 1 ==
== Тема 1 ==
-
Введение в связый байесовский вывод
+
Введение в связный байесовский вывод
* [http://svn.code.sf.net/p/mvr/code/lectures/5thYear/IntroBayes.pdf?format=raw Связный байесовский вывод, слайды // sf.net/MVR, 2016.]
* [http://svn.code.sf.net/p/mvr/code/lectures/5thYear/IntroBayes.pdf?format=raw Связный байесовский вывод, слайды // sf.net/MVR, 2016.]
* [http://strijov.com/papers/Strijov2012ErrorFn.pdf Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73.]
* [http://strijov.com/papers/Strijov2012ErrorFn.pdf Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73.]
Строка 184: Строка 125:
Оценка необходимого объема выборки с использованием байесовского подхода
Оценка необходимого объема выборки с использованием байесовского подхода
* Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Motrenko/doc/Motrenko2016SsdComparison.pdf?format=raw text], [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Motrenko/doc/Motrenko20XXSampleSize.pdf?format=raw text].
* Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Motrenko/doc/Motrenko2016SsdComparison.pdf?format=raw text], [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Motrenko/doc/Motrenko20XXSampleSize.pdf?format=raw text].
 +
 +
== Задача 4 ==
 +
Не планируется. Тема будет включена в тест.
== Тема 4 ==
== Тема 4 ==
 +
Задача ранжирования выборок в случае большого числа упорядоченных классов
 +
* Amini M-R. Multi-class to Binary reduction of Large-scale classification Problems // University Grenoble Alps, 2016, [[Media:MultiClassBinaryReduction.pdf|slides]].
 +
* Krithara A., Amini M-R., Goutte C., Renders J-M. Learning aspect models with partially labeled data // Pattern Recognition Letters 32 (2011) 297–304, [https://www.iit.demokritos.gr/sites/default/files/1-s2.0-s0167865510003028-main.pdf paper].
 +
 +
== Задача 5 ==
 +
Не планируется. Тема будет включена в тест.
 +
 +
== Тема 5 ==
Построение мультимоделей и анализ пространства их параметров
Построение мультимоделей и анализ пространства их параметров
-
* Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016.
+
* Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group974/Aduenko2015EvidenceLecture/Aduenko_presentation_russian.pdf?format=raw slides].
 +
 
 +
== Задача 6 ==
 +
Задан набор векторов, по которому строится матрица парных расстояний. Для построения матрицы расстояний используется расстояние Махаланобиса, где матрица трансформаций является параметром (можно считать ее диагональной). Требуется приблизить матрицу парных расстояний матрицей инцидентности, которая соответсвует дереву. Иначе: в задаче оптимизации параметров требуется оштрафовать матрицу парных расстояний за что, что она не является деревом. При этом шаги оптимизации должны идти не по вершинам дерева, а по градиенту в пространстве параметров. Рекомендуется при постановке задачи использовать метод множителей Лагранжа или методы с релаксацией целочисленных значений матрицы инцидентности.
 +
 
 +
== Тема 6 ==
 +
Построение иерархических тематических моделей
 +
* Кузьмин А.А. Иерархические тематические модели крупных конференций // МФТИ, 2016, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Kuzmin/KuzminEURO2016.pdf?format=raw text], [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Kuzmin/Lecture_2016.pdf?format=raw slides].
 +
 
 +
== Задача 7 ==
 +
Решается задача регрессии или классификации на малых выборках. Задана с интетическая выборка. Предполагается многоэкстремальность функции ошибки пространства параментов. Для оптимизации параметров используется градиентный спуск в режиме мультистарта. Требуется визуализировать траекторию (годограф по шагам спуска) вектора параметров в пространстве малой размерности с целью показать многоэкстремальность. При этом предполагается, что часть точек мультистарта попадет область одного экстремума, а часть - в область других.
 +
 
 +
== Тема 7 ==
 +
Построение иерархических тематических моделей
 +
* Бахтеев О.Ю. Сложность моделей глубокого обучения // МФТИ, 2016, [http://www.machinelearning.ru/wiki/images/d/d7/BakhteevComplexitySlides.pdf slides]
 +
 
 +
== Задача 8 ==
 +
Не планируется. Тема будет включена в тест.
 +
 
 +
== Тема 8 ==
 +
Задачи выравнивания и классификации последовательнстей
 +
* Нечаев С.К. Математика и биология больших данных на примере задач сравнения последовательностей и укладки ДНК // МФТИ, 2016, [https://www.youtube.com/watch?v=51Jbehan4mk video], [[Media:Cluster-detection.pdf|slides]].
 +
 
 +
== Задача 9 ==
 +
Не планируется.
 +
 
 +
== Тема 9 ==
 +
Задачи выбора регрессионных моделей в статистическом обучении.
 +
* Животовский Н.К.
 +
 
 +
== Задача 10 ==
 +
Заключительное обсуждение:
 +
* обсуждение последних эссе,
 +
* устный опрос по принципу: на вопрос отвечает первый следующий,
 +
* письменный экзамен-тест продолжительностью не более часа.

Текущая версия


Структурное обучение: порождение и выбор моделей

Курс посвящен обсуждению методов выбора моделей. Обсуждение ведется в формате лекций, эссе и кода. Эссе — это изложение идеи решения задачи. Изложение должно быть достаточно полным (идея восстанавливается однозначно), но кратким (полстраницы). Пишется в свободной форме, с учетом нашего стиля выполнения научных работ: терминологическая точность и единство обозначений приветствуются[1]. Код —  это Python jupyter notebook, иллюстрирующий идею.

Оценка=10, где задача (эссе и код)=1, итоговый тест=1 (23 ноября, 30 вопросов, 1 час). Допускается 3 пропуска (как в прошлом семестре).

Короткая ссылка http://bit.ly/2mH9G2F

Эссе и код

Автор 1 2 3 6 7
Бочкарев Артем code code code text
Гончаров Алексей text

code

text

code

code
Жариков Илья doc

code

doc

code

code code
Исаченко Роман text

code

text

code

code code
Смирнов Евгений code
Анисимов Александр text

code

text

code

Кулага Роман code code code
Пугач Илья code
Гущин Александр code code

Эссе хранятся в личной папке Group274/Surname2016aEssays/ (буква a означает autumn). Ссылка на эссе делается по шаблону

 [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.pdf?format=raw text] 
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016aEssays/Surname2016Essay1.nb?format=raw code] 

Задача 0

Подготовка инструментов: выполнить Домашее задание-1, часть 1 и 2 (часть 3 по желанию).

Задача 1

Для одной из моделей регрессии или классификации (двуклассовой или многоклассовой) вычислить значение правдоподобия модели в зависимости от числа признаков (параметров) модели. Данные из UCI. Построить график. По оси абсцисс — число признаков, по левой оси ординат — правдоподобие модели (интеграл знаменателя байесовского вывода первого уровня), по правой оси ординат — правдоподобие данных (левый сомножитель числителя). Матрица ковариации параметров задана, матрица ковариации зависимой переменной вычислена. При этом используются значения оптимальный параметров, так же, как и при вычислении правдоподобия. При вычислении правдоподобия модели интегрируем в окрестности оптимальных параметров. Вид ковариационных матриц, вид оптимальности параметров — на ваше усмотрение.

Тема 1

Введение в связный байесовский вывод

Задача 2

Задан (порожден винеровским процессом) один временной ряд. В него вставлены сегменты-разладки. Требуется их обнаружить, отметить на графике цветом, вычислить ошибку классификации (число несовпадений, AUC). Для обнаружения разладки ряд разбивается окном. Для каждого окна известна метка (норма или разладка). В каждом окне вычисляется статистика (или несколько) из нижеприведенных. При использовании нескольких возможно использование логистической регрессии для оптимизации весовых параметров. Задача немного упрощена по сравнению с той, что обсуждалась на занятии.

Тема 2

Анализ временных рядов и обнаружение разладок

Задача 3

Требуется получить оценку необходимого объема выборки. Решается задача классификации или регрессии на одном из наборов репозитория UCI. Модель, состав признаков, гипотеза порождения данных зафиксированы. Задача решается путем путем поэлементного добавления объектов выборки. На каждом шаге вычисляется статистика. При необходимости выполняется процедура семплирования, которая использует только ранее добавленные объекты. Для оценки объема выбирается статистика и строится график зависимости ее значения от числа добавленных элементов. Предполагается, что объем имеющейся выборки не превосходит необходимый объем  m^*.

Тема 3

Оценка необходимого объема выборки с использованием байесовского подхода

  • Мотренко А.А. Оценка необходимого объема выборки // МФТИ, 2016, text, text.

Задача 4

Не планируется. Тема будет включена в тест.

Тема 4

Задача ранжирования выборок в случае большого числа упорядоченных классов

  • Amini M-R. Multi-class to Binary reduction of Large-scale classification Problems // University Grenoble Alps, 2016, slides.
  • Krithara A., Amini M-R., Goutte C., Renders J-M. Learning aspect models with partially labeled data // Pattern Recognition Letters 32 (2011) 297–304, paper.

Задача 5

Не планируется. Тема будет включена в тест.

Тема 5

Построение мультимоделей и анализ пространства их параметров

  • Адуенко А.А. Анализ пространства параметров в задаче выбора мультимоделей // МФТИ, 2016, slides.

Задача 6

Задан набор векторов, по которому строится матрица парных расстояний. Для построения матрицы расстояний используется расстояние Махаланобиса, где матрица трансформаций является параметром (можно считать ее диагональной). Требуется приблизить матрицу парных расстояний матрицей инцидентности, которая соответсвует дереву. Иначе: в задаче оптимизации параметров требуется оштрафовать матрицу парных расстояний за что, что она не является деревом. При этом шаги оптимизации должны идти не по вершинам дерева, а по градиенту в пространстве параметров. Рекомендуется при постановке задачи использовать метод множителей Лагранжа или методы с релаксацией целочисленных значений матрицы инцидентности.

Тема 6

Построение иерархических тематических моделей

  • Кузьмин А.А. Иерархические тематические модели крупных конференций // МФТИ, 2016, text, slides.

Задача 7

Решается задача регрессии или классификации на малых выборках. Задана с интетическая выборка. Предполагается многоэкстремальность функции ошибки пространства параментов. Для оптимизации параметров используется градиентный спуск в режиме мультистарта. Требуется визуализировать траекторию (годограф по шагам спуска) вектора параметров в пространстве малой размерности с целью показать многоэкстремальность. При этом предполагается, что часть точек мультистарта попадет область одного экстремума, а часть - в область других.

Тема 7

Построение иерархических тематических моделей

  • Бахтеев О.Ю. Сложность моделей глубокого обучения // МФТИ, 2016, slides

Задача 8

Не планируется. Тема будет включена в тест.

Тема 8

Задачи выравнивания и классификации последовательнстей

  • Нечаев С.К. Математика и биология больших данных на примере задач сравнения последовательностей и укладки ДНК // МФТИ, 2016, video, slides.

Задача 9

Не планируется.

Тема 9

Задачи выбора регрессионных моделей в статистическом обучении.

  • Животовский Н.К.

Задача 10

Заключительное обсуждение:

  • обсуждение последних эссе,
  • устный опрос по принципу: на вопрос отвечает первый следующий,
  • письменный экзамен-тест продолжительностью не более часа.
Личные инструменты