Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 374, весна 2016

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задача 7)
(Задача 7)
Строка 241: Строка 241:
=== Задача 7 ===
=== Задача 7 ===
-
* '''Название''': Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей
+
* '''Название''': Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
* '''Задача''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
* '''Задача''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.

Версия 22:53, 12 февраля 2016


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант Рецензент ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Автор Тема Три ссылки: код, статья, презентация Консультант Рецензент из группы

Расписание

Расписание будет изменено.


Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal, RevieW

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1 (черновик)

  • Данные: Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
  • Литература: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют и boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
  • Базовой алгоритм: Описан в постановке задачи
  • Решение: модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами и сделать выводы, в частности о связи наличия улучшения в качестве и разнообразия множеств опорных объектов, построенных разными SVM ами.
  • Новизна: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
  • Консультант: Александр Адуенко

Задача 2

  • Название: Темпоральная тематическая модель коллекции пресс-релизов.
  • Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
  • Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
  • Литература:
    1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
  • Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
  • Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
  • Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
  • Консультант: Никита Дойков, автор задачи К.В.Воронцов.

Задача 3

  • Название: Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов.
  • Задача: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания и построенные экспертом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе и удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически и по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
  • Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
  • Литература: выдадим :)
  • Базовой алгоритм: Линейный классификатор.
  • Решение: Методы линейной регрессии, линейной классификации, отбора признаков.
  • Новизна: Задача согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
  • Консультант: Влада Целых, автор задачи К.В.Воронцов.

Задача 4

  • Название: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
  • Задача: Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, и т.д.). Тематические модели дают интерпретируемые векторные представления слов и документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства и свободной от недостатков обеих моделей.
  • Данные: Коллекции социальных сетей ЖЖ и ВК.
  • Литература: выдадим :)
  • Базовой алгоритм: Тематические модели, ранее построенные на этих данных.
  • Решение: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
  • Новизна: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей и модели word2vec.
  • Консультант: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.

Задача 5

  • Название: Sparse Regularized Regression on Protein Complex Data
  • Задача: найти лучшую модель регрессии на данных связывания белковых комплексов
  • Данные: признаковое описание белковых комплексов и константы связывания для них
  • Литература: статьи по регрессии и сравнению методов на схожих данных
  • Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
  • Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
  • Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
  • Консультант: Александр Катруца / Михаил Карасиков, автор задачи: Сергей Грудинин.
  • Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ (для более полного исследования нужно будет попробовать библиотеки на С++)

Задача 6

  • Название: определение положения белков по электронной карте
  • Задача: неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы и вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей и вектором.
  • Данные: экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
  • Литература: статьи по методам решения задач квадратичного программирования и различным релаксациям
  • Базовой алгоритм: методы квадратичного программирования с различными релаксациями
  • Решение: минимизация суммарной энергии белкового комплекса
  • Новизна: применение методов квадратичного программирования и исследование их точности в задачах восстановления электронных карт
  • Консультант: Александр Катруца / Михаил Карасиков, автор задачи: Сергей Грудинин.
  • Желательные навыки: понимание и интерес к методам оптимизации, работа с пакетом CVX


Задача 7

  • Название: Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
  • Задача: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
  • Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
  • Литература:
    • Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
    • Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
    • Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в задачах классификации
    • LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
    • Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
  • Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
  • Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
  • Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
  • Консультант: Олег Бахтеев, автор задач: В.В.Стрижов
Личные инструменты