Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2014

Материал из MachineLearning.

Перейти к: навигация, поиск


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант ДЗ-1 Буквы Сумма Оценка
Газизуллина Римма Прогнозирование объемов железнодорожных грузоперевозок по парам веток [1], pdf Стенина Мария \frac{15}{15}+\frac{10}{16} [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Гринчук Алексей Выбор оптимальных структур прогностических моделей методами структурного обучения [2], pdf Варфоломеева Анна \frac{7}{15}+\frac{2}{16} [F]TA+I+LSBR+СV+T+D+E(F) 14,5 9
Гущин Александр Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов [3], pdf Кузнецов Михаил \frac{5}{15}+\frac{2}{16} [F]TAI+L+SBRCVTDEHS(F) 15,5 9
Ефимова Ирина Дифференциальная диагностика заболеваний по электрокардиограмме [4], pdf Целых Влада \frac{15}{15}+\frac{12}{16} [MF]T+A+I+L+SB++R+CV+TDE+H(J ed) 17,25 10
Жуков Андрей Построение рейтингов вузов: панельный анализ и оценка устойчивости [5], pdf Кузнецов Михаил \frac{8}{15}+0 [F]TAIL+SBRCVTDEHS(F) 15,25 9
Игнатов Андрей Обучение многообразий для прогнозирования наборов квазипериодических временных рядов [6], pdf Ивкин Никита 0+\frac{7}{16} [MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed) 18 10
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач [7], pdf Ю.В. Максимов 0+0 [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Кулунчаков Андрей Обнаружение изоморфных структур существенно нелинейных прогностических моделей [8], pdf Сологуб Роман, Кузнецов Михаил \frac{10}{15}+\frac{14}{16} [F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed) 17 10
Липатова Анна Обнаружение закономерностей в наборе временных рядов методами структурного обучения [9], pdf А. П. Мотренко \frac{8}{15}+\frac{6}{16} [MF]TA+I+LSBR-CVTDE (J when ed) 14,25 10
Макарова Анастасия Использование нелинейного прогнозирования при поиске зависимостей между временными рядами [10], pdf Мотренко Анастасия 0+0 [F]TAI-LSB+R-CVTD>E>(F) 12,75 9
Плавин Александр Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания [11], pdf Потапенко Анна \frac{13}{15}+\frac{14}{16} [F]T+A+I+L+S+BR++CVTD+>>(?) 14 10
Попова Мария Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра [12], pdf Токмакова Александра \frac{11}{15}+\frac{6}{16} [MF]T+AI+L++SB++R+CV+TD+(JV ed) 15,25 10
Швец Михаил Интерпретация мультимоделей при обработке социологических данных [13], pdf Адуенко Александр \frac{11}{15}+\frac{4}{16} [M+F]T+A+I+L+S+B+R+CVTD+E(F) 16,25 9
Шинкевич Михаил Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели [14], pdf Дударенко Марина \frac{15}{15}+\frac{9}{16} [MF]T+AIL+S+BR+CV+T+D+E+H(J ed) 17 10

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 13 Вводная лекция. Задано ДЗ-1. --
20 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
27 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 6 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
13 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
20 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
27 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 3 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
10 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
17 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
24 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

Консультант: А.А. Потапенко

Задача: Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

  p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Требуется проверить гипотезу, что, накладывая ограничения на матрицу \Theta с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

Литература:

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

  • Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Задача оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

Консультант: В.Р. Целых

Задача: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Данные: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

Литература:

  • Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
  • Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
  • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Новизна: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.


3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели

Консультант: М.A. Дударенко

Задача:Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

    p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Представление матрицы \|p(w|d)\|_{W\times D} в виде произведения двух матриц меньшего размера {\Phi=\|\phi_{wt}\|_{W\times T}} и {\Theta=\|\theta_{dt}\|_{T\times D}} не единственно: \Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta' для некоторых невырожденных S. Требуется проверить гипотезу, что, накладывая ограничения на матрицы \Phi, \Theta с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

Литература:

  • Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.


4. Построение рейтингов вузов: панельный анализ и оценка устойчивости

Консультант: М.П. Кузнецов

Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Данные: Данные по ста ведущим мировым университетам за восемь лет.

Литература:

  • Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
  • Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
  • Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
  • Черновик статьи POF по запросу.

Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.

Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

Консультант: А.П. Мотренко

Задача: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность экспертных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением эксперта.

Литература:

  • R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
  • J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
  • J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: моделирование структурных уравнений, SEM

Новизна: Предложен метод оценки достоверности экспертных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры и оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

Консультант: А.П. Мотренко

Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

  • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
  • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
  • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: convergent cross mapping

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов

Консультант: М.П. Кузнецов

Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Данные: Синтетические данные, данные по текстовым коллекциям LIG.

Литература:

  • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
  • Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

Консультант: Р.А. Сологуб, М.П. Кузнецов

Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.

Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.

Литература:

  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
  • Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
  • Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Базовой алгоритм: Алгоритм поэлементного сравнения отображений.

Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций экспертно-заданных функций

Консультант: Н.П. Ивкин

Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Данные: данные с акселерометра мобильного телефона.

Литература:

  • Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.

Сравнение структурной и топологической сложности в задачах классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

Консультант: Н.П. Ивкин

Задача: Решается задача классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Данные: данные с акселерометра мобильного телефона.

Литература:

  • Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Базовой алгоритм: нейронная сеть

Новизна: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

Консультант: А.А. Адуенко

Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.

Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

Литература:

  • смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
  • бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)

Базовой алгоритм: бустинг.

Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

Консультант: А.А. Варфоломеева

Задача: Предлагается решать задачу прогнозирования в два этапа: сначала по историям построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

Литература:

Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.

Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

Консультант: А.А. Кузьмин

Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).

Литература:

  • Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
  • (взять из последней статьи Фадеева)

Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

Консультант: М.М. Стенина (Медведникова)

Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

Литература:

  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

Базовый алгоритм: гистограммное прогнозирование, описанное в статье.

Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

Консультант: А.А. Токмакова

Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Данные: Набор временных рядов измерений акселерометра.

Литература:

  • Прореживание нейронных семей на сайте Machinelearning.ru.
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.

Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

Консультант: А.С. Инякин, Н.П. Ивкин

Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Данные: Библиотека квазипериодических и апериодических временных рядов

Литература:

  • Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112.
  • Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.

Базовой алгоритм: Использовать алгоритм SAS/SPSS.

Новизна: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

Консультант: И.А. Матвеев

Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.

Литература:

  • Описание задачи и предлагаемые пути решения
  • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
  • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
  • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
  • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
  • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

Новизна: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

Консультант: Ю.В. Максимов

Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.

Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

Литература:

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Задача Кто делает Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике. Плавин 1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data. Записать свою фамилию тут. 2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике. Кулунчаков Андрей. 3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным  \alpha рядов и исходного ряда. Авдюхов 4
Аппроксимация выборки замкнутой кривой [15]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Газизуллина Римма 5
Дан временной ряд с пропусками, например [16]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки. Игнатов Андрей 6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков. Попова Мария 7
Для различных видов зависимости  y = f(x) + \epsilon (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб". Ефимова Ирина 8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. Шинкевич Михаил 9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия. Макарова Анастасия 10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. Жуков Андрей 11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. Карасиков Михаил 12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. Гринчук Алексей 13
Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты. Липатова 14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм. Швец Михаил 15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами. Гущин Александр 16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). 17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. Костюк 18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? Гиззатуллин Анвар 19
Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). 20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).
Личные инструменты