Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Эссе)
(Пробные задачи для поступления на кафедру Интеллектуальные системы)
Строка 324: Строка 324:
'''Требуется:''' Проанализировать работу алгоритма LASSO. Нарисуйте график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?
'''Требуется:''' Проанализировать работу алгоритма LASSO. Нарисуйте график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?
 +
 +
 +
=== Задача 1 (Нейчев) ===
 +
'''Задача:''' Оценка числа главных компонет методом "сломанной трости".
 +
'''Ссылка на данные:'''
 +
'''Требуется:''' Применить МГК для нахождения главных компонент на тестовых данных. Оценить необходимое число главных компонент для достижения заданной точности. Построить график изменения ошибки относительно числа главных компонент. По графику оценить "истинную" размерность признакового пространства.
 +
 +
=== Задача 2 (Нейчев) ===
 +
'''Задача:''' Построение прогноза методом векторной авторегрессии (VAR).
 +
'''Ссылка на данные:'''
 +
'''Требуется:''' Построить прогноз энергопотребления на 24 часа вперед. Для решения применить VAR с квадратичной функцией ошибки. Построить график, сравнить истинное поведение потребления и прогноз. Дополнительно: рассмотреть зависимость функции ошибки на прогнозе от длины использованной предыстории, имеет ли место переобучение.

Версия 15:05, 22 марта 2016


Построение моделей в машинном обучении

Курс посвящен обсуждению методов выбора моделей. Обсуждение ведется в формате лекций, докладов и эссе. Эссе — это краткое, примерно на страницу, изложение собственной точки здрения на постановку и решение определенной задачи. Пишется в свободной форме, но с учетом нашего стиля написания научных работ: терминологическая точность и единство обозначений приветствуются[1].

Эссе

Автор 1 2 3 4 5 6 7 8 L E Оценка
Бочкарев Артем 1 2 3 4 5 6 7 8
Гончаров Алексей 1 2 3 4 5 6 7 8
Двинских Дарина 1 2 3 - 5 6 7 8
Жариков Илья 1 2 3 4 5 6 7 8
Задаянчук Андрей 1 2 3 4 5 6 7 8
Златов Александр 1 2 3 - 5 6 7 8
Исаченко Роман 1 2 3 4 5 6 7 8
Нейчев Радослав 1 2 3 4 5 6 7 8
Подкопаев Александр 1 2 3 4 5 6 7 8
Решетова Дарья 1 2 3 4 5 6 7 8
Смирнов Евгений 1 2 3 - 5 6 7 8
Черных Владимир 1 2 3 4 5 6 7 8
Шишковец Светлана 1 2 3 4 5 6 7 8
Чинаев Николай 1 2 3 - 5 6 7 8

Эссе хранятся в папке Group274/Surname2016Essays/. Ссылка на эссе делается по шаблону

 [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Surname2016Essays/Surname2016Essay1.pdf?format=raw 1] 

Темы эссе

  • Эссе 1. Байесовский вывод в выборе моделей slides, txt, paper
    1. Вывод формулы ошибки общего вида для "необычных" гипотез порождения данных (от мультиномиального распределения для задачи многоклассовой классификации до произвольных распределений из экспоненциального семейства, см. список GLM).
    2. Для некоторых функций ошибки указать из какой гипотезы порождения данных они получены и каким образом (например, функцию ошибки включена сумма различных видов штрафов на векторы параметров и невязок).
    3. Сделать эксперимент-пример вычисления правдоподобия моделей и визуальный анализ пространства параметров и гиперпараметров модели.
  • Эссе 2. Смеси моделей page 21, slide 24, txt, tableau
    1. Предложить способы порождения объектов и признаков для задачи прогнозирования сложных объектов (spatio-temporal data).
    2. Сделать краткое и ясное описание алгоритма порождения мультимоделей:
      • совместный выбор объектов и признаков с помощью генетического алгоритма,
      • порождение и выбор мультимоделей из принципа алгоритма МГУА.
    3. Сделать краткое и ясное описание алгоритма выбора мультимоделей:
      • mixture of experts,
      • multi-level model,
      • своего алгоритма.
  • Дополнение к 2. Оценка параметров slides, text, pages 30-33
  • Эссе 3. Обучение по предпочтениям и конусы text, text, slides, slides
    • Задачи обучения по предпочтениям в которых используются конусы или расслоение Парето переформулировать с использованием
      1. Байесовского вывода первого или второго уровня,
      2. выбора моделей, признаков содержащие вероятностные модели,
      3. построения смесей экспертов (например, тождественных экспертам в области знаний).
  • Эссе 4. Структурное обучение slides, video, slides, (slides 1, slides 2, slides 3), (pptx txt),
    • В качестве задачи выполняется групповой проект: Автоматическое порождение и выбор модели классификации временных рядов.
    • Эссе 5. задачи
    • Предложить две задачи для студентов 2-го курса. Требования к задаче:
      1. несложная выборка с природой понятного происхождения (возможно, получаемая по ссылке);
      2. базовая задача из нашей области, решаемая за 4-6 часов;
      3. решение должно быть интересным для студента, а результаты должны быть такими, чтобы их интересно было бы слушать;
      4. для решения предполагается короткий код;
      5. в результате получены графики, иллюстрирующие результаты и решение.
    • Задачи публикуются на этой странице внизу.


Прошу делать разнообразные эссе, минимизируя пересечения. Смотрите на те *загрузки, которые уже сделаны.


Сумма=13, где A-=0, A=1, A+=1.5, A++=2, тесты (30-50 вопросов 1 час)=3, доклад=2, 3 пропуска.

Пробные задачи для поступления на кафедру Интеллектуальные системы

Задача 1 (Аврелий)

Текст

Задача 2 (Аврелий)

Текст

Задача 1 (Черных)

Реализовать алгоритм логистической регрессии и протестировать его на предложенной выборке. Для оптимизации параметров можно использовать алгоритм градиентного спуска. Число итераций ограничить либо условием на сходимость – норма разности последовательных векторов весов не больше точности, либо числом шагов.

Визуализировать полученные результаты в виде меток класса и разделяющей гиперплоскости.

Задача 2 (Черных)

Взять на выбор три алгоритма оптимизации (краткий обзор методов градиентного спуска), сравнить и визуализировать их работу при поиске минимума тестовой функции.

В качестве примера предлагается взять функцию f(x, y) = 0.01\left(x^2 - 90\right)^2 + y^2 + 0.1 x^2 y.

Задача 1 (Исаченко)

Построить регрессионную модель, используя формулу Надарая-Ватсона. Поэкспериментировать с параметрами алгоритма: ядро, ширина окна. Произвести отсев выбросов, используя алгоритм LOWESS. В качестве данных предлагается использовать выборку "Цены на хлеб". Полученные результаты изобразить на графике.

Задача 2 (Исаченко)

Изучить различные меры качества алгоритмов классификации (accuracy, precision, recall etc). Сгенерировать двухклассовую выборку или взять любую имеющуюся. Классифицировать выборку произвольным методом. Вычислить качество работы алгоритма по разным метрикам. Построить ROC-кривую и precision-recall кривую.

Задача 1 (Жариков)

Задача: распознавание написанных от руки цифр 0, 1,..., 9.

Данные и подробное описание: "Kaggle. Digit Recognizer."

Требуется: Получить информацию о выборках: количество объектов в обучающей и контрольной выборках, количество признаков у каждого объекта, типы признаков, есть ли пропуски в данных.

Снизить размерность признакового описания объектов(например, методом главных компонент, реализация "PCA") и использовать SVM со стандартными параметрами, оценить качетво. Ответить на вопрос: почему в этой задаче для SVM необходимо снижать размерность, на что это влият?

Выбрать лучшие параметры из: kernel = 'rbf', gamma = $[10^{-8},\dots, 10^2]$, C = $[10^{-2},\dots, 10^8]$ (можно построить "heatmap", качество можно смотреть на части обучающей выборке, которую не будем использовать для обучения). Насколько улучшилось "качество"?

Нужно ли при использование SVM нормировать признаки? Нужно ли в этой задаче нормировать признаки?

Задача 2 (Жариков)

Задача: предсказать сорт винограда, из которого сделано вино, используя результаты химических анализов.

Данные: "wines".

Требуется: Реализовать алгоритм KNN - k ближайших соседей с различными метриками(около трех). Для определения "качество" использовать скользящий контроль(кросс-валидация). Подобрать оптимальные параметры алгоритма: k от 1 до 50, метрика одна из трех реализованная вами. При каком k получилось оптимальное качество? Чему оно равно? Поможет ли масштабирование признаков в этой задаче для KNN?

Задача 1 (Гончаров)

Задача: Исследовать зависимость стоимости пути наименьшей стоимости между двумя временными рядами от величины ограничения "Sakoe-Chiba band".

Данные: Сгенерировать две длинных периодических последовательности (например, синус), которые сдвинуты друг относительно друга на половину периода.

Требуется: Реализовать алгоритм нахождения расстояния "DTW", реализовать ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Построить график зависимости стоимости пути от величины ограничений. Следует отметить, что при наименьшей величине отклонения пути от диагонали при этих ограничениях, стоимость DTW перейдет в Евклидово расстояние.

Задача 2 (Гончаров)

Задача: Исследовать поведение пути наименьшей стоимости между двумя временными рядами от величины ограничения "Sakoe-Chiba band".

Данные: Сгенерировать две длинных периодических последовательности (например, синус), которые сдвинуты друг относительно друга на половину периода.

Требуется: Реализовать алгоритм построения пути наименьшей стоимости "DTW" в соответствующей матрице, реализовать ограничения на вид пути в матрице с помощью техники "Sakoe-Chiba band". Построить "анимацию" этого пути (например, используя функцию pause в matlab - пример реализации легко найти в интернете). Первый график в анимации должен соответствовать максимальным ограничениям (то есть должен проходить по диагонали), а последний - случаю минимальных ограничений (то есть их отсутствию)

Задача 1 (Подкопаев)

Основной идеей задачи является знакомство с визуальным анализом многомерных данных. В "презентации" описывается способ обучения "карт Кохонена", приведены результаты работы для выборки "US Congress voting patterns" из библиотеки UCI. Студенту предлагается реализовать предложенный псевдокод, протестировать его на некоторой выборке, визуализировать полученные результаты, провести анализ "возможной" кластерной структуры данных.

Задача 2 (Подкопаев)

В качестве подхода к решению задач классификации предлагается рассмотреть "Линейный дискриминант Фишера". Для реализации метода предлагается в качестве данных использовать "выборку". Оценить качество бинарной классификации. Для оценки студенту предлагается построить ROC-кривую.

Задача 1 (Бочкарев)

Задача: Идентификация видов стекла. Часто на месте преступления остаются осколки разных видов стекол, которые мы можем использовать как улики, если определим тип стекла и от каких оно объектов. Выборка состоит из 9 признаков – химических параметров образцов, а также из 214 объектов. Необходимо каждому образцу сопоставить один из 6 класов (например: стекло автомобиля, осколок посуды, окно здания).

Ссылка на данные: [2]

Требуется: Оценить качество работы случайного леса, построить график ошибки на кросс-валидации от числа деревьев, в качестве метрики использовать число правильных ответов классификатора. Сравнить лучший результат с применением обычного решающего дерева. Дает ли масштабиование признаков значительное улучшение в качестве классификации, почему?

Задача 2 (Бочкарев)

Задача: Предсказание площади лесных пожаров. На основе погодных измерений необходимо предсказать объем выгоревших лесных массивов на севере Португалии. Выборка состоит из 13 признаков и 517 объектов.

Ссылка на данные: fires/

Требуется: Проанализировать работу алгоритма LASSO. Нарисуйте график весов признаков и общей ошибки на кросс-валидации при изменении параметра регуляризации. Какие признаки наиболее важны для нашей задачи? Что изменится, если предварительно все признаки стандартизовать?


Задача 1 (Нейчев)

Задача: Оценка числа главных компонет методом "сломанной трости". Ссылка на данные: Требуется: Применить МГК для нахождения главных компонент на тестовых данных. Оценить необходимое число главных компонент для достижения заданной точности. Построить график изменения ошибки относительно числа главных компонент. По графику оценить "истинную" размерность признакового пространства.

Задача 2 (Нейчев)

Задача: Построение прогноза методом векторной авторегрессии (VAR). Ссылка на данные: Требуется: Построить прогноз энергопотребления на 24 часа вперед. Для решения применить VAR с квадратичной функцией ошибки. Построить график, сравнить истинное поведение потребления и прогноз. Дополнительно: рассмотреть зависимость функции ошибки на прогнозе от длины использованной предыстории, имеет ли место переобучение.

Личные инструменты