Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Пробные задачи для поступления на кафедру Интеллектуальные системы)
(Пробные задачи для поступления на кафедру Интеллектуальные системы)
Строка 293: Строка 293:
'''Требуется:''' Реализовать алгоритм нахождения расстояния [https://ru.wikipedia.org/wiki/Алгоритм_динамической_трансформации_временной_шкалы "DTW"], реализовать ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Построить график зависимости стоимости пути от величины ограничений. Следует отметить, что при наименьшей величине отклонения пути от диагонали при этих ограничениях, стоимость DTW перейдет в Евклидово расстояние.
'''Требуется:''' Реализовать алгоритм нахождения расстояния [https://ru.wikipedia.org/wiki/Алгоритм_динамической_трансформации_временной_шкалы "DTW"], реализовать ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Построить график зависимости стоимости пути от величины ограничений. Следует отметить, что при наименьшей величине отклонения пути от диагонали при этих ограничениях, стоимость DTW перейдет в Евклидово расстояние.
 +
 +
=== Задача 2 (Гончаров) ===
 +
'''Задача:''' Исследовать поведение пути наименьшей стоимости между двумя временными рядами от величины ограничения "Sakoe-Chiba band".
 +
 +
'''Данные:''' Сгенерировать две длинных периодических последовательности (например, синус), которые сдвинуты друг относительно друга на половину периода.
 +
 +
'''Требуется:''' Реализовать алгоритм построения пути наименьшей стоимости [https://ru.wikipedia.org/wiki/Алгоритм_динамической_трансформации_временной_шкалы "DTW"] в соответствующей матрице, реализовать ограничения на вид пути в матрице с помощью техники [https://izbicki.me/img/uploads/2011/10/Sakoe-Chiba1.png "Sakoe-Chiba band"]. Построить "анимацию" этого пути (например, используя функцию pause в matlab - пример реализации легко найти в интернете). Первый график в анимации должен соответствовать максимальным ограничениям (то есть должен проходить по диагонали), а последний - случаю минимальных ограничений (то есть их отсутствию)

Версия 13:50, 20 марта 2016


Построение моделей в машинном обучении

Курс посвящен обсуждению методов выбора моделей. Обсуждение ведется в формате лекций, докладов и эссе. Эссе — это краткое, примерно на страницу, изложение собственной точки здрения на постановку и решение определенной задачи. Пишется в свободной форме, но с учетом нашего стиля написания научных работ: терминологическая точность и единство обозначений приветствуются[1].

Эссе

Автор 1 2 3 4 5 6 7 8 L E Оценка
Бочкарев Артем 1 2 3 4 5 6 7 8
Гончаров Алексей 1 2 3 4 5 6 7 8
Двинских Дарина 1 2 3 - 5 6 7 8
Жариков Илья 1 2 3 4 5 6 7 8
Задаянчук Андрей 1 2 3 4 5 6 7 8
Златов Александр 1 2 3 - 5 6 7 8
Исаченко Роман 1 2 3 4 5 6 7 8
Нейчев Радослав 1 2 3 4 5 6 7 8
Подкопаев Александр 1 2 3 4 5 6 7 8
Решетова Дарья 1 2 3 4 5 6 7 8
Смирнов Евгений 1 2 3 - 5 6 7 8
Черных Владимир 1 2 3 4 5 6 7 8
Шишковец Светлана 1 2 3 4 5 6 7 8
Чинаев Николай 1 2 3 - 5 6 7 8

Эссе хранятся в папке Group274/Surname2016Essays/. Ссылка на эссе делается по шаблону

 [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016Essays/Surname2016Essay1.pdf?format=raw 1] 

Темы эссе

  • Эссе 1. Байесовский вывод в выборе моделей slides, txt, paper
    1. Вывод формулы ошибки общего вида для "необычных" гипотез порождения данных (от мультиномиального распределения для задачи многоклассовой классификации до произвольных распределений из экспоненциального семейства, см. список GLM).
    2. Для некоторых функций ошибки указать из какой гипотезы порождения данных они получены и каким образом (например, функцию ошибки включена сумма различных видов штрафов на векторы параметров и невязок).
    3. Сделать эксперимент-пример вычисления правдоподобия моделей и визуальный анализ пространства параметров и гиперпараметров модели.
  • Эссе 2. Смеси моделей page 21, slide 24, txt, tableau
    1. Предложить способы порождения объектов и признаков для задачи прогнозирования сложных объектов (spatio-temporal data).
    2. Сделать краткое и ясное описание алгоритма порождения мультимоделей:
      • совместный выбор объектов и признаков с помощью генетического алгоритма,
      • порождение и выбор мультимоделей из принципа алгоритма МГУА.
    3. Сделать краткое и ясное описание алгоритма выбора мультимоделей:
      • mixture of experts,
      • multi-level model,
      • своего алгоритма.
  • Дополнение к 2. Оценка параметров slides, text, pages 30-33
  • Эссе 3. Обучение по предпочтениям и конусы text, text, slides, slides
    • Задачи обучения по предпочтениям в которых используются конусы или расслоение Парето переформулировать с использованием
      1. Байесовского вывода первого или второго уровня,
      2. выбора моделей, признаков содержащие вероятностные модели,
      3. построения смесей экспертов (например, тождественных экспертам в области знаний).
  • Эссе 4. Структурное обучение slides, video, slides, (slides 1, slides 2, slides 3), (pptx txt),
    • В качестве задачи выполняется групповой проект: Автоматическое порождение и выбор модели классификации временных рядов.
    • Эссе 5. задачи
    • Предложить две задачи для студентов 2-го курса. Требования к задаче:
      1. несложная выборка с природой понятного происхождения (возможно, получаемая по ссылке);
      2. базовая задача из нашей области, решаемая за 4-6 часов;
      3. решение должно быть интересным для студента, а результаты должны быть такими, чтобы их интересно было бы слушать;
      4. для решения предполагается короткий код;
      5. в результате получены графики, иллюстрирующие результаты и решение.
    • Задачи публикуются на этой странице внизу.


Прошу делать разнообразные эссе, минимизируя пересечения. Смотрите на те *загрузки, которые уже сделаны.


Сумма=13, где A-=0, A=1, A+=1.5, A++=2, тесты (30-50 вопросов 1 час)=3, доклад=2, 3 пропуска.

Пробные задачи для поступления на кафедру Интеллектуальные системы

Задача 1 (Аврелий)

Текст

Задача 2 (Аврелий)

Текст

Задача 1 (Черных)

Реализовать алгоритм логистической регрессии и протестировать его на предложенной выборке. Для оптимизации параметров можно использовать алгоритм градиентного спуска. Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.

Визуализировать полученные результаты в виде меток класса и разделяющей гиперплоскости.

Задача 2 (Черных)

Взять на выбор три алгоритма оптимизации (краткий обзор методов градиентного спуска), сравнить и визуализировать их работу при поиске минимума тестовой функции.

В качестве примера предлагается взять функцию f(x, y) = 0.01\left(x^2 - 90\right)^2 + y^2 + 0.1 x^2 y.

Задача 1 (Исаченко)

Построить регрессионную модель, используя формулу Надарая-Ватсона. Поэкспериментировать с параметрами алгоритма: ядро, ширина окна. Произвести отсев выбросов, используя алгоритм LOWESS. В качестве данных предлагается использовать выборку "Цены на хлеб". Полученные результаты изобразить на графике.

Задача 2 (Исаченко)

Изучить различные меры качества алгоритмов классификации (accuracy, precision, recall etc). Сгенерировать двухклассовую выборку или взять любую имеющуюся. Классифицировать выборку произвольным методом. Вычислить качество работы алгоритма по разным метрикам. Построить ROC-кривую и precision-recall кривую.

Задача 1 (Жариков)

Задача: распознавание написанных от руки цифр 0, 1,..., 9.

Данные и подробное описание: "Kaggle. Digit Recognizer."

Требуется: Получить информацию о выборках: количество объектов в обучающей и контрольной выборках, количество признаков у каждого объекта, типы признаков, есть ли пропуски в данных.

Снизить размерность признакового описания объектов(например, методом главных компонент, реализация "PCA") и использовать SVM со стандартными параметрами, оценить качетво. Ответить на вопрос: почему в этой задаче для SVM необходимо снижать размерность, на что это влият?

Выбрать лучшие параметры из: kernel = 'rbf', gamma = $[10^{-8},\dots, 10^2]$, C = $[10^{-2},\dots, 10^8]$ (можно построить "heatmap", качество можно смотреть на части обучающей выборке, которую не будем использовать для обучения). Насколько улучшилось "качество"?

Нужно ли при использование SVM нормировать признаки? Нужно ли в этой задаче нормировать признаки?

Задача 2 (Жариков)

Задача: предсказать сорт винограда, из которого сделано вино, используя результаты химических анализов.

Данные: "wines".

Требуется: Реализовать алгоритм KNN - k ближайших соседей с различными метриками(около трех). Для определения "качество" использовать скользящий контроль(кросс-валидация). Подобрать оптимальные параметры алгоритма: k от 1 до 50, метрика одна из трех реализованная вами. При каком k получилось оптимальное качество? Чему оно равно? Поможет ли масштабирование признаков в этой задаче для KNN?

Задача 1 (Гончаров)

Задача: Исследовать зависимость стоимости пути наименьшей стоимости между двумя временными рядами от величины ограничения "Sakoe-Chiba band".

Данные: Сгенерировать две длинных периодических последовательности (например, синус), которые сдвинуты друг относительно друга на половину периода.

Требуется: Реализовать алгоритм нахождения расстояния "DTW", реализовать ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Построить график зависимости стоимости пути от величины ограничений. Следует отметить, что при наименьшей величине отклонения пути от диагонали при этих ограничениях, стоимость DTW перейдет в Евклидово расстояние.

Задача 2 (Гончаров)

Задача: Исследовать поведение пути наименьшей стоимости между двумя временными рядами от величины ограничения "Sakoe-Chiba band".

Данные: Сгенерировать две длинных периодических последовательности (например, синус), которые сдвинуты друг относительно друга на половину периода.

Требуется: Реализовать алгоритм построения пути наименьшей стоимости "DTW" в соответствующей матрице, реализовать ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Построить "анимацию" этого пути (например, используя функцию pause в matlab - пример реализации легко найти в интернете). Первый график в анимации должен соответствовать максимальным ограничениям (то есть должен проходить по диагонали), а последний - случаю минимальных ограничений (то есть их отсутствию)

Личные инструменты