Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2016
Материал из MachineLearning.
(→Список проектов) |
(→Список проектов) |
||
Строка 68: | Строка 68: | ||
__NOTOC__ | __NOTOC__ | ||
+ | __NOTOC__ | ||
== Список проектов == | == Список проектов == | ||
+ | <!-- | ||
1. Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника. Адуенко | 1. Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника. Адуенко | ||
Строка 92: | Строка 94: | ||
27. Кросс-язычный тематический поиск научных публикаций. Воронцов, Марина Суворова | 27. Кросс-язычный тематический поиск научных публикаций. Воронцов, Марина Суворова | ||
- | + | --> | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
=== Задача 2 === | === Задача 2 === | ||
Строка 111: | Строка 108: | ||
* '''Новизна''': Критерии устойчивости и полноты тематических моделей являются новыми. | * '''Новизна''': Критерии устойчивости и полноты тематических моделей являются новыми. | ||
* '''Консультант''': Никита Дойков, '''автор задачи''' К.В.Воронцов. | * '''Консультант''': Никита Дойков, '''автор задачи''' К.В.Воронцов. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
=== Задача 4 === | === Задача 4 === | ||
Строка 131: | Строка 118: | ||
* '''Новизна''': Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов. | * '''Новизна''': Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов. | ||
* '''Консультант''': Светлана Цыганова, '''автор задачи''' К.В.Воронцов. | * '''Консультант''': Светлана Цыганова, '''автор задачи''' К.В.Воронцов. | ||
+ | |||
+ | === Задача 6 === | ||
+ | * '''Название''': Sparse Regularized Regression on Protein Complex Data | ||
+ | * '''Задача''': найти лучшую модель регрессии на данных связывания белковых комплексов | ||
+ | * '''Данные''': признаковое описание белковых комплексов и константы связывания для них | ||
+ | * '''Литература''': статьи по регрессии и сравнению методов на схожих данных | ||
+ | * '''Базовой алгоритм''': регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc.. | ||
+ | * '''Решение''': сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров | ||
+ | * '''Новизна''': получение лучшей модели регрессии для данных связывания белковых комплексов | ||
+ | * '''Консультант''': Александр Катруца, автор задачи: Сергей Грудинин. | ||
+ | * '''Желательные навыки''': готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++) | ||
+ | |||
=== Задача 8 === | === Задача 8 === | ||
Строка 146: | Строка 145: | ||
* '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения. | * '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения. | ||
* '''Консультант''': Олег Бахтеев | * '''Консультант''': Олег Бахтеев | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
===Задача 13 === | ===Задача 13 === | ||
Строка 179: | Строка 157: | ||
* '''Консультант''': Радослав Нейчев | * '''Консультант''': Радослав Нейчев | ||
+ | ===Задача 14 === | ||
+ | * '''Название''': Порождение признаков в задаче прогнозирования. | ||
+ | * '''Задача''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций. | ||
+ | * '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура) | ||
+ | * '''Литература''': Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов. | ||
+ | **М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[http://strijov.com/papers/Kuznetsov2012Curvilinear.pdf] | ||
+ | * '''Базовый алгоритм''': Непараметрические порождающие функициии. | ||
+ | * '''Решение''': Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра. | ||
+ | * '''Новизна''': Предложен новый набор признаков для решения авторегрессионных задач. | ||
+ | * '''Консультант''': Роман Исаченко | ||
===Задача 15 === | ===Задача 15 === | ||
Строка 190: | Строка 178: | ||
* '''Новизна''': Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов | * '''Новизна''': Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов | ||
* '''Консультант''': Задаянчук Андрей | * '''Консультант''': Задаянчук Андрей | ||
+ | |||
+ | === Задача 20 === | ||
+ | * '''Название''': Модель порождения объектов в задаче прогнозирования временных рядов | ||
+ | *'''Задача''': Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования. | ||
+ | * '''Данные''': Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона | ||
+ | * '''Литература''': | ||
+ | **Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets | ||
+ | **Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space | ||
+ | **Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию | ||
+ | **Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Karasikov2015TimeSeriesClassification/doc/Karasikov2015TimeSeriesClassification.pdf?format=raw] | ||
+ | * '''Базовой алгоритм''': Различные эвристики | ||
+ | * '''Постановка задачи''': Формулировка и подробное описание задачи приведено по ссылке [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/Goncharov2016Consult.pdf?format=raw] | ||
+ | * '''Новизна''': рассмотрение модели порождения данных в подобной задаче | ||
+ | * '''Консультант''': Гончаров Алексей | ||
+ | |||
+ | === Задача 21 === | ||
+ | * '''Название''': Алгоритм прогнозирования структуры локально-оптимальных моделей | ||
+ | *'''Задача''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой. | ||
+ | * '''Данные''': Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур. | ||
+ | * '''Литература''': | ||
+ | **А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw] | ||
+ | **Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw] | ||
+ | * '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. | ||
+ | * '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели. | ||
+ | * '''Консультант''': Кулунчаков Андрей | ||
+ | |||
+ | === Задача 24 === | ||
+ | * '''Название''': Анализ клиентских сред и задача непрерывного аукциона: экстремальная многоклассовая классификация | ||
+ | * '''Задача''': Ранжирующая модель выбирается из класса случайных решающих деревьев. Исследуются свойства процедуры случайного построения моделей. | ||
+ | * '''Данные''': | ||
+ | *#[http://webscope.sandbox.yahoo.com/ Yahoo!], | ||
+ | *# [http://research.microsoft.com/en-us/um/beijing/projects/letor/letor3dataset.aspx Microsoft]. | ||
+ | * '''Литература''': | ||
+ | *# [http://www.ngdata.com/icml-2013-tutorial-multi-target-prediction/ ICML'13 (tutorial)], | ||
+ | *# [http://www.cs.put.poznan.pl/kdembczynski/pdf/multi-target_prediction.pdf Slides], | ||
+ | *# [http://www.kermit.ugent.be/big-multi-target-prediction/ ECML'15 workshop], | ||
+ | *# [http://research.microsoft.com/apps/video/default.aspx?id=256158 Manik Varma presentation on multi-label multi-class classification]. | ||
+ | * '''Базовой алгоритм''': [http://research.microsoft.com/pubs/245233/PrabhuVarmaKDD14.pdf FastXML] | ||
+ | * '''Новизна''': Построение универсальной модели для решения широкого класса задач, в которых над множеством меток классов определена алгебраическая структура. | ||
+ | * '''Консультант''': В.В. Стрижов | ||
Строка 226: | Строка 254: | ||
* '''Новизна''': Такого сервиса в русскоязычном интернете пока нет. | * '''Новизна''': Такого сервиса в русскоязычном интернете пока нет. | ||
* '''Консультант''': Марина Суворова. | * '''Консультант''': Марина Суворова. | ||
- | |||
- |
Версия 11:20, 18 февраля 2016
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.
- Описание курса
- Результаты предыдущего курса
- Требования к слушателям
- Короткая ссылка на эту страницу: http://bit.ly/1NgyDXx
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | Рецензент | Доклад | Буквы | Сумма | Оценка | Журнал |
---|---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSW | 12 | 10 | ИИП |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».
Задачи
Шаблон описания научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Список проектов
Задача 2
- Название: Темпоральная тематическая модель коллекции пресс-релизов.
- Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
- Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
- Литература:
- Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
- Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
- Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
- Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
- Консультант: Никита Дойков, автор задачи К.В.Воронцов.
Задача 4
- Название: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
- Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов и определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
- Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
- Литература: выдадим :)
- Базовой алгоритм: Модели классификации В.Целых, тематическая модель С.Цыгановой.
- Решение: Тематическая модель, реализованная с помощью библиотеки BigARTM.
- Новизна: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
- Консультант: Светлана Цыганова, автор задачи К.В.Воронцов.
Задача 6
- Название: Sparse Regularized Regression on Protein Complex Data
- Задача: найти лучшую модель регрессии на данных связывания белковых комплексов
- Данные: признаковое описание белковых комплексов и константы связывания для них
- Литература: статьи по регрессии и сравнению методов на схожих данных
- Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
- Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
- Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
- Консультант: Александр Катруца, автор задачи: Сергей Грудинин.
- Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
Задача 8
- Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
- Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
- Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
- Литература:
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
- Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
- Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
- Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
- Консультант: Олег Бахтеев
Задача 13
- Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
- Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
- Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[1]
- Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
- Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
- Новизна: Метод Белсли применяется для векторной авторегрессии.
- Консультант: Радослав Нейчев
Задача 14
- Название: Порождение признаков в задаче прогнозирования.
- Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
- Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- Литература: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[2]
- Базовый алгоритм: Непараметрические порождающие функициии.
- Решение: Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
- Новизна: Предложен новый набор признаков для решения авторегрессионных задач.
- Консультант: Роман Исаченко
Задача 15
- Название: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
- Задача: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
- Данные: Многомерные временные ряды с показаниями ECOG и данные о движении обезьян [3]
- Литература: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
- Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[4]
- Базовый алгоритм: Вейвлет-преобразование (англ. Wavelet transform)
- Решение: Выделение признаков из ECoG различными методами.
- Новизна: Анализ оптимальности Вейвлет-преобразования в задачах обработки ECoG сигналов
- Консультант: Задаянчук Андрей
Задача 20
- Название: Модель порождения объектов в задаче прогнозирования временных рядов
- Задача: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
- Данные: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
- Литература:
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [5]
- Базовой алгоритм: Различные эвристики
- Постановка задачи: Формулировка и подробное описание задачи приведено по ссылке [6]
- Новизна: рассмотрение модели порождения данных в подобной задаче
- Консультант: Гончаров Алексей
Задача 21
- Название: Алгоритм прогнозирования структуры локально-оптимальных моделей
- Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- Литература:
- Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Консультант: Кулунчаков Андрей
Задача 24
- Название: Анализ клиентских сред и задача непрерывного аукциона: экстремальная многоклассовая классификация
- Задача: Ранжирующая модель выбирается из класса случайных решающих деревьев. Исследуются свойства процедуры случайного построения моделей.
- Данные:
- Литература:
- Базовой алгоритм: FastXML
- Новизна: Построение универсальной модели для решения широкого класса задач, в которых над множеством меток классов определена алгебраическая структура.
- Консультант: В.В. Стрижов
Задача 25
- Название: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
- Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Задача заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
- Данные: электрокардиограммы в формате KDM.
- Литература: выдадим :)
- Базовой алгоритм: Линейный классификатор.
- Решение: Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
- Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
- Консультант: Виктор Сафронов (Научный центр им. В.И.Кулакова)
Задача 26
- Название: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
- Задача: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии и регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
- Данные: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
- Литература:
- Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
- Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
- Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
- Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
- Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
- Базовой алгоритм: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
- Решение: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, и поправки к предобусловливателю.
- Новизна: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения и быстродействие полученного алгоритма.
- Консультант: Владимир Анатольевич Гаранжа (ВЦ РАН).
Задача 27
- Название: Кросс-язычный тематический поиск научных публикаций.
- Задача: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке и выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
- Данные: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
- Литература: выдадим.
- Базовой алгоритм: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv и двуязычной англо-русской Википедии.
- Решение: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
- Новизна: Такого сервиса в русскоязычном интернете пока нет.
- Консультант: Марина Суворова.