Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

Перейти к: навигация, поиск


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры интеллектуальных систем ФУПМ МФТИ.


Выложен разбор задач по Матлабу (ДЗ-1), pdf


Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант Рецензент ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Бернштейн Юлия Методы определения характеристик фибринолиза по последовательности изображений крови in vitro Матвеев И. А. Соломатин 1 3 (8) AILSBRCVTDE 11 10
Бочкарев Артем Структурное обучение при порождении моделей [1] (no code), paper, slides Варфоломеева Анна, Бахтеев Олег Исаченко 2 2 (7) A+I++LS+BRCVT+DS 9.25 10
Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Двинских Дарина Повышение качества прогнозирования с использованием групп товаров code,

paper, slides

Каневский Д. Ю. Смирнов 0.5 3 (7) AILSBRCVTDEHS 14 10
Ефимов Юрий Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов code,

paper, slides

Матвеев И. А. Нейчев AILSBRCVTDEW 12 10
Жариков Илья Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм. code, paper, slides Ишкина Шаура Бочкарев 3.5 3 (5) AIL+SBRCVTDEHSW 14.25 10
Задаянчук Андрей Выбор оптимальной модели классификации физической активности code,

paper, slides

Мария Попова Гончаров 2 0 (17) AI-LSB+RCVTD 10 10
Златов Александр Построение иерархической модели крупной конференции code,

paper, slides

Арсентий Кузьмин Двинских 1.5 3 (14) AI+L+SBRC++V+TDESW 14.25 10
Исаченко Роман Метрическое обучение и снижение размерности пространства в задачах кластеризации временных рядов code, paper, slides Катруца Александр Жариков 3.5 3 (14) A-I+L+S-BR+CVTDEHSW 14.25 10
Нейчев Радослав Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов code, paper, slides Катруца Александр Ефимов 1 3 (9) AI-L-SBRCVTDEHSW 13.5 10
Подкопаев Александр Прогнозирование четвертичных структур белков code,

paper, slides

Ю. В. Максимов Решетова 3.5 3 (11) AILS+B+RCVTDEHS 13.5 10
Решетова Дарья Методы многоклассовой классификации с улучшенными оценками сходимости в задачах частичного обучения code,

paper, slides

Максимов Юрий Камзолов 2.5 3 (10) AIL++SB+RCVT++DEHS- 14 10
Смирнов Евгений Тематическая модель интересов постоянных пользователей мобильного приложения code, paper, slides Виктор Сафронов Златов 1 1 (4) AILSBRCVTWDE 11.25 10
Соломатин Иван Определение области затенения радужки классификатором локальных текстурных признаков code, paper, slides Матвеев И. А. Бернштейн 3 (9) AILSBRCVTDE 11 10
Черных Владимир Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности code,

paper, slides

Стенина Мария Шишковец 3.5 3 (4) A+I+LSBRCVT+DE++H++ 13.75 10
Шишковец Светлана Регуляризация линейного наивного байесовского классификатора. code,

paper, slides

Михаил Усков, Константин Воронцов Черных 3.5 2 (9) A+I+L+SBR+CV+TD+E+H+S 15 10
Камзолов Дмитрий Новые алгоритмы для задачи ранжирования веб-страниц Александр Гасников, Юрий Максимов Подкопаев AILSB+RCVT+DEHS-- 13 8
Сухарева Анжелика Классификация научных текстов по отраслям знаний code,

paper, slides

Сергей Царьков 0.5 AILSBRCVTDEH 9

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal, RevieW

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1

  • Название: Повышение качества прогнозирования спроса с использованием групп товаров
  • Задача:

Дано:

    1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
    2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
    3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
    4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Задача заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

  • Данные:
    1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
  • Литература:
    1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
    2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
    3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
    4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
  • Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
    1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
    2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
    3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
  • Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
  • Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
  • Консультант: Каневский Д.Ю.

Задача 2

  • Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
  • Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
  • Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
  • Литература:
  • Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
  • Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • Консультант: Олег Бахтеев.

Задача 3

  • Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Задача: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
  • Данные: Синтетические данные и тесты.
  • Литература:
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • Консультант: Александр Адуенко.

Задача 4

  • Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Задача: постановка задачи из [3] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • Литература:
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
    2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [7]
    2. Статья Сандуляну про модификацию Add-Del: [8].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
  • Консультант: Александр Катруца.

Задача 5

  • Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • Литература
    • Описание прикладной задачи и техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [10], обсуждается.
  • Консультант: И.А. Матвеев

Задача 6

  • Название: Прогнозирование четвертичных структур белков: нивелирование
  • Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения.

Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as


\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
  • Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Базовый алгоритм: Хочется попробовать выпуклые релаксации.
  • Новизна: Выпуклые релаксации не применялись ранее в таких задачах на данных белков
  • Консультант: Ю.В. Максимов

Задача 7

  • Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
  • Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
  • Данные: временные ряды цен на электроэнергию
  • Литература:
    1. [11] - базовая статья
    2. [12] - отличный обзор методов Metric Learning
    3. [13] - ещё обзор
  • Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
  • Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
  • Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
  • Консультант: Александр Катруца

Задача 8

  • Название: Структурное обучение при порождении моделей
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
  • Литература
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

  • Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
  • Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • Литература:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Технология информационного анализа электрокардиосигналов
    3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
    4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
  • Консультант: Ишкина Шаура

Задача 10

  • Название: Simplification of the IR models structure
  • Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
  • Данные: TREC collections.
  • Литература
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Problem statement
  • Базовой алгоритм: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
  • Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
  • Новизна: A new ranking function of simple structure competitive with traditional ones.
  • Консультант: Mikhail Kuznetsov.

Задача 11

  • Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
  • Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
  • Данные: Данные о грузовых железнодорожных перевозках (РЖД)
  • Литература:
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
    • Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
  • Базовой алгоритм: ARMA, Hist.
  • Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
  • Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
  • Консультант: Стенина Мария

Задача 12

  • Название: Обучение метрик в задачах полного и частичного обучения
  • Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом). Первичные тесты можно проводить на данных представленных здесь
  • Литература: Список литературы и описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Базовый алгоритм: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
  • Консультант: Ю.В. Максимов

Задача 13

  • Название: Построение иерархической тематической модели крупной конференции
  • Задача: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:
  1. Классификация тезисов новой конференции.
  2. Прогнозирование изменений структуры конференции.
  • Данные: Тезисы и экспертные модели конференций EURO 2010, 2012, 2013.
  • Литература: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
  • Базовой алгоритм:
  • Решение: Для решения подзадач
  1. предлагается объединить экспертные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
  2. исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов эксперты создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
  • Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
  • Консультант: Арсентий Кузьмин

Задача 14

  • Название: Регуляризация линейного наивного байесовского классификатора.
  • Задача: Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
  • Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
  • Литература:
    1. Larsen (2005) Generalized Naive Bayes Classifiers.
    2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
    3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
    4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
    5. + спросить у К.В.Воронцова.
  • Базовой алгоритм: любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
  • Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
  • Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
  • Консультант: Михаил Усков. Гиперконсультант: К.В.Воронцов.

Задача 15

  • Название: Тематическая модель интересов постоянных пользователей мобильного приложения.
  • Задача: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
  • Данные: Для каждого пользователя имеются списки добавленных и откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
  • Литература:
    1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
    2. + попросить у К.В.Воронцова
  • Базовой алгоритм: Алгоритм случайного отбора слов.
  • Решение: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
  • Новизна: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками и дизлайками.
  • Консультант: Виктор Сафронов. Гиперконсультант: К.В.Воронцов.


Планы на следующий год:

  1. Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.
Личные инструменты