Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа YАД, весна 2016
Материал из MachineLearning.
(→Задача 24) |
(→Задача 27) |
||
Строка 245: | Строка 245: | ||
* '''Решение''': Построение регуляризованной тематической модели средствами библиотеки [[BigARTM]]. Применение стандартных средств построения инвертированных индексов. | * '''Решение''': Построение регуляризованной тематической модели средствами библиотеки [[BigARTM]]. Применение стандартных средств построения инвертированных индексов. | ||
* '''Новизна''': Такого сервиса в русскоязычном интернете пока нет. | * '''Новизна''': Такого сервиса в русскоязычном интернете пока нет. | ||
- | * '''Консультант''': Марина Суворова. | + | * '''Консультант''': Марина Суворова (К.В. Воронцов). |
Версия 11:23, 18 февраля 2016
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты Кафедры анализа данных ФИВТ МФТИ.
- Описание курса
- Результаты предыдущего курса
- Требования к слушателям
- Короткая ссылка на эту страницу: http://bit.ly/1NgyDXx
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | Рецензент | Доклад | Буквы | Сумма | Оценка | Журнал |
---|---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSW | 12 | 10 | ИИП |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».
Задачи
Шаблон описания научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
Список проектов
Задача 2
- Название: Темпоральная тематическая модель коллекции пресс-релизов.
- Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
- Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
- Литература:
- Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
- Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
- Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
- Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
- Консультант: Никита Дойков, автор задачи К.В.Воронцов.
Задача 4
- Название: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
- Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов и определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
- Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
- Литература: выдадим :)
- Базовой алгоритм: Модели классификации В.Целых, тематическая модель С.Цыгановой.
- Решение: Тематическая модель, реализованная с помощью библиотеки BigARTM.
- Новизна: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
- Консультант: Светлана Цыганова, автор задачи К.В.Воронцов.
Задача 6
- Название: Sparse Regularized Regression on Protein Complex Data
- Задача: найти лучшую модель регрессии на данных связывания белковых комплексов
- Данные: признаковое описание белковых комплексов и константы связывания для них
- Литература: статьи по регрессии и сравнению методов на схожих данных
- Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
- Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
- Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
- Консультант: Александр Катруца, автор задачи: Сергей Грудинин.
- Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
Задача 8
- Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
- Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
- Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
- Литература:
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
- Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
- Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
- Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
- Консультант: Олег Бахтеев
Задача 13
- Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
- Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
- Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[1]
- Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
- Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
- Новизна: Метод Белсли применяется для векторной авторегрессии.
- Консультант: Радослав Нейчев
Задача 14
- Название: Порождение признаков в задаче прогнозирования.
- Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
- Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- Литература: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[2]
- Базовый алгоритм: Непараметрические порождающие функициии.
- Решение: Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
- Новизна: Предложен новый набор признаков для решения авторегрессионных задач.
- Консультант: Роман Исаченко
Задача 20
- Название: Модель порождения объектов в задаче прогнозирования временных рядов
- Задача: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
- Данные: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
- Литература:
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [3]
- Базовой алгоритм: Различные эвристики
- Постановка задачи: Формулировка и подробное описание задачи приведено по ссылке [4]
- Новизна: рассмотрение модели порождения данных в подобной задаче
- Консультант: Гончаров Алексей
Задача 21
- Название: Алгоритм прогнозирования структуры локально-оптимальных моделей
- Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- Литература:
- Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Консультант: Кулунчаков Андрей
Задача 25
- Название: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
- Задача: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Задача заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
- Данные: электрокардиограммы в формате KDM.
- Литература: выдадим :)
- Базовой алгоритм: Линейный классификатор.
- Решение: Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
- Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
- Консультант: Виктор Сафронов (Научный центр им. В.И.Кулакова)
Задача 26
- Название: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
- Задача: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии и регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
- Данные: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
- Литература:
- Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
- Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
- Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
- Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
- Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
- Базовой алгоритм: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
- Решение: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, и поправки к предобусловливателю.
- Новизна: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения и быстродействие полученного алгоритма.
- Консультант: Владимир Анатольевич Гаранжа (ВЦ РАН).
Задача 27
- Название: Кросс-язычный тематический поиск научных публикаций.
- Задача: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке и выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
- Данные: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
- Литература: выдадим.
- Базовой алгоритм: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv и двуязычной англо-русской Википедии.
- Решение: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
- Новизна: Такого сервиса в русскоязычном интернете пока нет.
- Консультант: Марина Суворова (К.В. Воронцов).