Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2016

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 11:20, 18 февраля 2016

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.

Описание курса
Результаты предыдущего курса
Требования к слушателям
Короткая ссылка на эту страницу: http://bit.ly/1NgyDXx

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	Доклад	Буквы	Сумма	Оценка	Журнал
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSW	12	10	ИИП

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».

Задачи

Шаблон описания научной статьи

Название: Название, под которым статья подается в журнал.
Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Список проектов

Задача 2

Название: Темпоральная тематическая модель коллекции пресс-релизов.
Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
Литература:
1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
Консультант: Никита Дойков, автор задачи К.В.Воронцов.

Задача 4

Название: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов и определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
Литература: выдадим :)
Базовой алгоритм: Модели классификации В.Целых, тематическая модель С.Цыгановой.
Решение: Тематическая модель, реализованная с помощью библиотеки BigARTM.
Новизна: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
Консультант: Светлана Цыганова, автор задачи К.В.Воронцов.

Задача 6

Название: Sparse Regularized Regression on Protein Complex Data
Задача: найти лучшую модель регрессии на данных связывания белковых комплексов
Данные: признаковое описание белковых комплексов и константы связывания для них
Литература: статьи по регрессии и сравнению методов на схожих данных
Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
Консультант: Александр Катруца, автор задачи: Сергей Грудинин.
Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)

Задача 8

Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
Литература:
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
Консультант: Олег Бахтеев

Задача 13

Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[1]
Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
Новизна: Метод Белсли применяется для векторной авторегрессии.
Консультант: Радослав Нейчев

Задача 14

Название: Порождение признаков в задаче прогнозирования.
Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Литература: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[2]
Базовый алгоритм: Непараметрические порождающие функициии.
Решение: Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
Новизна: Предложен новый набор признаков для решения авторегрессионных задач.
Консультант: Роман Исаченко

Задача 15

Название: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
Задача: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
Данные: Многомерные временные ряды с показаниями ECOG и данные о движении обезьян [3]
Литература: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
- Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[4]
Базовый алгоритм: Вейвлет-преобразование (англ. Wavelet transform)
Решение: Выделение признаков из ECoG различными методами.
Новизна: Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов
Консультант: Задаянчук Андрей

Задача 20

Название: Модель порождения объектов в задаче прогнозирования временных рядов
Задача: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
Данные: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
Литература:
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [5]
Базовой алгоритм: Различные эвристики
Постановка задачи: Формулировка и подробное описание задачи приведено по ссылке [6]
Новизна: рассмотрение модели порождения данных в подобной задаче
Консультант: Гончаров Алексей

Задача 21

Название: Алгоритм прогнозирования структуры локально-оптимальных моделей
Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
Литература:
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [7]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [8]
Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Консультант: Кулунчаков Андрей

Задача 24

Название: Анализ клиентских сред и задача непрерывного аукциона: экстремальная многоклассовая классификация
Задача: Ранжирующая модель выбирается из класса случайных решающих деревьев. Исследуются свойства процедуры случайного построения моделей.
Данные:
1. Yahoo!,
2. Microsoft.
Литература:
Базовой алгоритм: FastXML
Новизна: Построение универсальной модели для решения широкого класса задач, в которых над множеством меток классов определена алгебраическая структура.
Консультант: В.В. Стрижов

Задача 25

Название: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Задача заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
Данные: электрокардиограммы в формате KDM.
Литература: выдадим :)
Базовой алгоритм: Линейный классификатор.
Решение: Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
Консультант: Виктор Сафронов (Научный центр им. В.И.Кулакова)

Задача 26

Название: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
Задача: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии и регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
Данные: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
Литература:
1. Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
2. Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
3. Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
4. Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
5. Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
Базовой алгоритм: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
Решение: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, и поправки к предобусловливателю.
Новизна: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения и быстродействие полученного алгоритма.
Консультант: Владимир Анатольевич Гаранжа (ВЦ РАН).

Задача 27

Название: Кросс-язычный тематический поиск научных публикаций.
Задача: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке и выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
Данные: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
Литература: выдадим.
Базовой алгоритм: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv и двуязычной англо-русской Википедии.
Решение: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
Новизна: Такого сервиса в русскоязычном интернете пока нет.
Консультант: Марина Суворова.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_Y%D0%90%D0%94%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2016»

@@ Строка 68: / Строка 68: @@
 __NOTOC__
+__NOTOC__
 == Список проектов ==
+<!--
 . Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника. Адуенко
@@ Строка 92: / Строка 94: @@
 . Кросс-язычный тематический поиск научных публикаций. Воронцов, Марина Суворова
-<!--
+-->
-=== Задача 1 ===
-* '''Данные''': Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
-* '''Литература''': существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют и boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
-* '''Базовой алгоритм''': Описан в постановке задачи
-* '''Решение''': модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами и сделать выводы, в частности о связи наличия улучшения в качестве и разнообразия множеств опорных объектов, построенных разными SVM ами.
-* '''Новизна''': известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
-* '''Консультант''': Александр Адуенко
 === Задача 2 ===
@@ Строка 111: / Строка 108: @@
 * '''Новизна''': Критерии устойчивости и полноты тематических моделей являются новыми.
 * '''Консультант''': Никита Дойков, '''автор задачи''' К.В.Воронцов.
-=== Задача 3 ===
-* '''Название''': Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов.
-* '''Задача''': Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания и построенные экспертом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе и удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически и по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
-* '''Данные''': Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
-* '''Литература''': выдадим :)
-* '''Базовой алгоритм''': Линейный классификатор.
-* '''Решение''': Методы линейной регрессии, линейной классификации, отбора признаков.
-* '''Новизна''': Задача согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
-* '''Консультант''': Влада Целых, '''автор задачи''' К.В.Воронцов.
 === Задача 4 ===
@@ Строка 131: / Строка 118: @@
 * '''Новизна''': Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
 * '''Консультант''': Светлана Цыганова, '''автор задачи''' К.В.Воронцов.
+=== Задача 6 ===
+* '''Название''': Sparse Regularized Regression on Protein Complex Data
+* '''Задача''': найти лучшую модель регрессии на данных связывания белковых комплексов
+* '''Данные''': признаковое описание белковых комплексов и константы связывания для них
+* '''Литература''': статьи по регрессии и сравнению методов на схожих данных
+* '''Базовой алгоритм''': регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
+* '''Решение''': сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
+* '''Новизна''': получение лучшей модели регрессии для данных связывания белковых комплексов
+* '''Консультант''': Александр Катруца, автор задачи: Сергей Грудинин.
+* '''Желательные навыки''': готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
 === Задача 8 ===
@@ Строка 146: / Строка 145: @@
 * '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
 * '''Консультант''': Олег Бахтеев
-=== Задача 9 ===
-* '''Название''': восстановление первичной структуры белка по геометрии его главной цепи
-* '''Задача''': на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
-* '''Данные''': на выбор студента: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
-* '''Литература''': статьи по методам решения задач квадратичного программирования и различным релаксациям
-* '''Базовой алгоритм''': методы квадратичного программирования с различными релаксациями
-* '''Решение''': минимизация суммарной энергии белка
-* '''Новизна''': применение методов квадратичного программирования и исследование их точности
-* '''Консультант''': Михаил Карасиков, автор задачи: Сергей Грудинин.
-* '''Желательные навыки''': понимание и интерес к методам оптимизации, работа с пакетом CVX
-=== Задача 11 ===
-* '''Название''':  Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
-* '''Задача''':  В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой и предсказывать взаимодействие двух типов молекул: рецепторов и протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
-* '''Данные''': описание 8500+ протеинов и метки для 12 рецепторов
-* '''Литература''': будет отправлена студенту
-* '''Базовой алгоритм''': двухслойная нейронная сеть
-* '''Решение''': Композиция базовых классификаторов бэггинг
-* '''Новизна''': Такой подход является новаторским в области drug design
-* '''Консультант''': Мария Попова
 ===Задача 13 ===
@@ Строка 179: / Строка 157: @@
 * '''Консультант''': Радослав Нейчев
+===Задача 14 ===
+* '''Название''': Порождение признаков в задаче прогнозирования.
+* '''Задача''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
+* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
+* '''Литература''': Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
+**М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[http://strijov.com/papers/Kuznetsov2012Curvilinear.pdf]
+* '''Базовый алгоритм''': Непараметрические порождающие функициии.
+* '''Решение''': Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
+* '''Новизна''':  Предложен новый набор признаков для решения авторегрессионных задач.
+* '''Консультант''': Роман Исаченко
 ===Задача 15 ===
@@ Строка 190: / Строка 178: @@
 * '''Новизна''': Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов
 * '''Консультант''': Задаянчук Андрей
+=== Задача 20 ===
+* '''Название''': Модель порождения объектов в задаче прогнозирования временных рядов
+*'''Задача''': Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
+* '''Данные''': Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
+* '''Литература''':
+**Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
+**Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
+**Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
+**Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Karasikov2015TimeSeriesClassification/doc/Karasikov2015TimeSeriesClassification.pdf?format=raw]
+* '''Базовой алгоритм''': Различные эвристики
+* '''Постановка задачи''': Формулировка и подробное описание задачи приведено по ссылке [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/Goncharov2016Consult.pdf?format=raw]
+* '''Новизна''': рассмотрение модели порождения данных в подобной задаче
+* '''Консультант''': Гончаров Алексей
+=== Задача 21 ===
+* '''Название''': Алгоритм прогнозирования структуры локально-оптимальных моделей
+*'''Задача''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию.  В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
+* '''Данные''': Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
+* '''Литература''':
+**А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw]
+**Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
+* '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
+* '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
+* '''Консультант''': Кулунчаков Андрей
+=== Задача 24 ===
+* '''Название''': Анализ клиентских сред и задача непрерывного аукциона: экстремальная многоклассовая классификация
+* '''Задача''': Ранжирующая модель выбирается из класса случайных решающих деревьев. Исследуются свойства процедуры случайного построения моделей.
+* '''Данные''':
+*#[http://webscope.sandbox.yahoo.com/ Yahoo!],
+*# [http://research.microsoft.com/en-us/um/beijing/projects/letor/letor3dataset.aspx Microsoft].
+* '''Литература''':
+*# [http://www.ngdata.com/icml-2013-tutorial-multi-target-prediction/ ICML'13 (tutorial)],
+*# [http://www.cs.put.poznan.pl/kdembczynski/pdf/multi-target_prediction.pdf Slides],
+*# [http://www.kermit.ugent.be/big-multi-target-prediction/ ECML'15 workshop],
+*# [http://research.microsoft.com/apps/video/default.aspx?id=256158 Manik Varma presentation on multi-label multi-class classification].
+* '''Базовой алгоритм''': [http://research.microsoft.com/pubs/245233/PrabhuVarmaKDD14.pdf FastXML]
+* '''Новизна''': Построение универсальной модели для решения широкого класса задач, в которых над множеством меток классов определена алгебраическая структура.
+* '''Консультант''': В.В. Стрижов
@@ Строка 226: / Строка 254: @@
 * '''Новизна''': Такого сервиса в русскоязычном интернете пока нет.
 * '''Консультант''': Марина Суворова.
--->