Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 374, весна 2016

Материал из MachineLearning.

Перейти к: навигация, поиск


Моя первая научная статья

Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.

Роли

Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.

Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.

Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.

Результаты

Автор Тема научной работы Ссылка Консультант Рецензент ДЗ-1 ДЗ-2 (Номер задачи) Буквы Сумма Оценка
Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Автор Тема Три ссылки: код, статья, презентация Консультант Рецензент из группы

Расписание

Расписание будет изменено.


Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 12 Вводная лекция. Задано ДЗ-1. --
19 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
26 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 5 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
12 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
19 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
26 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 2 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
9 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
16 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
23 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal, RevieW

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


Список проектов

Задача 1 (черновик)

  • Данные: данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
  • Литература: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют и boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
  • Базовой алгоритм: Описан в постановке задачи
  • Решение: модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами и сделать выводы, в частности о связи наличия улучшения в качестве и разнообразия множеств опорных объектов, построенных разными SVM ами.
  • Новизна: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
  • Консультант: Александр Адуенко

Задача 2

  • Название: Темпоральная тематическая модель коллекции пресс-релизов.
  • Задача: Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
  • Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
  • Литература:
    1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
  • Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
  • Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
  • Новизна: Критерии устойчивости и полноты тематических моделей являются новыми.
  • Консультант: Никита Дойков, автор задачи К.В.Воронцов.

Задача 3

  • Название: Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов.
  • Задача: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания, и построенные экспертом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе и удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически и по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности заболеваний на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
  • Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
  • Литература: выдадим :)
  • Базовой алгоритм: Линейный классификатор.
  • Решение: Методы линейной регрессии, линейной классификации, отбора признаков.
  • Новизна: Задача согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — модное направление, предложенное В.Н.Вапником несколько лет назад.
  • Консультант: Влада Целых, автор задачи К.В.Воронцов.

Задача 4

  • Название: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
  • Задача: .
  • Данные: Коллекции социальных сетей ЖЖ и ВК.
  • Литература: выдадим :)
  • Базовой алгоритм: Ранее построенные на данных коллекциях тематические модели.
  • Решение: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
  • Новизна: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей и модели word2vec.
  • Консультант: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.
Личные инструменты