Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Физтех)
(Сколтех)
Строка 216: Строка 216:
|
|
|-
|-
-
|}
+
|
 +
}
== Расписание ==
== Расписание ==

Версия 20:21, 17 февраля 2015

Результаты предыдущих курсов:


Планирование научных исследований

Участвуют эксперты, индивидуальные консультанты и студенты кафедры.


Результаты

Физтех

}

Сколтех

Автор Тема научной работы Ссылка Консультант Рецензенты Буквы
Газизуллина Римма Тема [1], pdf Консультант
Гринчук Алексей Тема
Гущин Александр Тема
Ефимова Ирина Формирование однородных обучающих выборок в задачах классификации [2], pdf Целых Влада
Жуков Андрей Тема
Игнатов Андрей Тема
Карасиков Михаил Тема
Кулунчаков Андрей Порождение структурно простых ранжирующих функций для задач информационного поиска [3], pdf Мотренко Анастасия
Липатова Анна Тема
Макарова Анастасия Тема
Плавин Александр Тема
Попова Мария Тема
Швец Михаил Тема
Шинкевич Михаил Тема
Авдюхов Дмитрий Тема
Гиззатуллин Анвар Тема
Костюк Анна Тема
Сухарева Анжелика Классификация научных текстов по отраслям знаний
Автор Тема научной работы Ссылка Консультант Рецензенты Буквы
Роман Прилепский (Ск) Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов
Михаил Матросов (Ск) Прогнозирование сложноорганизованных наборов временных рядов
Владимир Жуйков Тема
АВ Тема
Антон Киселев Тема
Александра Кудряшова Detection of emotions using video record
Алвис Логинс EVERGREEN: Spatial join-oriented data structure

}

Расписание

Дата ДЗ Тема лекции Результат для обсуждения Код
Февраль 11 Вводная лекция. Задано ДЗ-1. --
18 1 Начало, демонстрация интерфейсов. Выбор задачи пробного программирования Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты. --
Дата ДЗ Что делаем Результат для обсуждения Код
25 2 Решить пробную задачу, написать код. Выбор задачи Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии. Test
Март 4 3 Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. Abstract, Introduction, Literature
11 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
18 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
25 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 1 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
8 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
17 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
22 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


1. Порождение структурно простых ранжирующих функций для задач информационного поиска

  • Задача: Решается проблема порождения ранжирующих функций в задачах информационного поиска. Ранжирующая функция ищется в виде суперпозиции некоторых заданных порождающих функций. Предлагается генетический алгоритм порождения структурно-простых суперпозиций, который затем сравнивается с алгоритмом полного перебора. Функционалами качества при этом являются MAP и P@10. Оптимальность полученных функций предлагается исследовать с помощью метрик на моделях и данных. Ссылка на подробную постановку задачи.
  • Данные: Выборка состоит из нескольких коллекций документов. Каждой коллекции экспертом приписано множество запросов и для некоторых из ее документов заданы оценки релевантности данным запросам. Ссылка на данные и ссылка на запросы и экcпертные оценки.
  • Литература:

Постановка задачи для переборного алгоритма.

Постановка задачи для генетического алгоритма на моделях любой сложности.

Алгоритм порождения суперпозиций.

  • Базовой алгоритм: В данный момент используется генетический алгоритм MVR порождения моделей с простым удалением всех моделей, имеющих избыточную сложность.
  • Решение: Предлагается использовать более гибкие способы контроля сложности порождаемых моделей путем варьирования функционала качества моделей. Кроме этого, предлагается подключить метрику на моделях для улучшения сходимости и выбивания из локальных минимумов. Возможно, потребуется добавить некоторые эвристики в MVR для ускорения сходимости.
  • Новизна: На данный момент известно два наиболее продуктивных подхода к поиску ранжирующей функции: переборный и генетический алгоритм. Переборный алгоритм [Goswami et al., 2014] находит структурно-простую ранжирующую функцию и гарантирует ее оптимальность в небольшом множестве функций (на данный момент просмотрены функции структурной сложности не более 8). Генетический алгоритм [Fan et. al., 2004] работает заметно быстрее, но находимые им функции неинтерпретируемы и заметно переусложнены. В настоящей работе предлагается использовать регуляризатор для контроля структурной сложности модели и метрику для ускорения сходимости. Цель: ускорить алгоритм в работе [Goswami et al., 2014], получить те же результаты на структурно простых моделях, показать их устойчивость относительно начального приближения и исследовать структурно более сложные функции.

Примечания

Личные инструменты