}
Расписание
Дата
|
| ДЗ
| Тема лекции
| Результат для обсуждения
| Код
|
Февраль
| 11
|
| Вводная лекция.
| Задано ДЗ-1.
| --
|
| 18
| 1
| Начало, демонстрация интерфейсов. Выбор задачи пробного программирования
| Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты.
| --
|
Дата
|
| ДЗ
| Что делаем
| Результат для обсуждения
| Код
|
| 25
| 2
| Решить пробную задачу, написать код. Выбор задачи
| Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии.
| Test
|
Март
| 4
| 3
| Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.
| Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле.
| Abstract, Introduction, Literature
|
| 11
| 4
| Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма.
| Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко).
| Statement, Basic code, Report
|
| 18
| 5
| Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.
| Код, визуализация полученных результатов, анализ ошибки, анализ качества.
| Code, Visualization
|
| 25
| 6
| Описание алгоритма.
| Алгоритмическая часть статьи (второй / третий раздел).
| Theory
|
Апрель
| 1
| 7
| Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.
| Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение».
| Document
|
| 8
| 8
| Завершение вычислительного эксперимента.
| Описание эксперимента с анализом ошибок.
| Error
|
| 17
| 8
| Контрольная точка — показ статьи в целом.
| Доработанная статья.
| сHeck
|
| 22
| 9
| Доклады и обсуждение.
| Статья подана в журнал.
| Show, Journal
|
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
Задачи
Шаблон описания научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
1. Порождение структурно простых ранжирующих функций для задач информационного поиска
- Задача: Решается проблема порождения ранжирующих функций в задачах информационного поиска. Ранжирующая функция ищется в виде суперпозиции некоторых заданных порождающих функций. Предлагается генетический алгоритм порождения структурно-простых суперпозиций, который затем сравнивается с алгоритмом полного перебора. Функционалами качества при этом являются MAP и P@10. Оптимальность полученных функций предлагается исследовать с помощью метрик на моделях и данных. Ссылка на подробную постановку задачи.
- Данные: Выборка состоит из нескольких коллекций документов. Каждой коллекции экспертом приписано множество запросов и для некоторых из ее документов заданы оценки релевантности данным запросам. Ссылка на данные и ссылка на запросы и экcпертные оценки.
Постановка задачи для переборного алгоритма.
Постановка задачи для генетического алгоритма на моделях любой сложности.
Алгоритм порождения суперпозиций.
- Базовой алгоритм: В данный момент используется генетический алгоритм MVR порождения моделей с простым удалением всех моделей, имеющих избыточную сложность.
- Решение: Предлагается использовать более гибкие способы контроля сложности порождаемых моделей путем варьирования функционала качества моделей. Кроме этого, предлагается подключить метрику на моделях для улучшения сходимости и выбивания из локальных минимумов. Возможно, потребуется добавить некоторые эвристики в MVR для ускорения сходимости.
- Новизна: На данный момент известно два наиболее продуктивных подхода к поиску ранжирующей функции: переборный и генетический алгоритм. Переборный алгоритм [Goswami et al., 2014] находит структурно-простую ранжирующую функцию и гарантирует ее оптимальность в небольшом множестве функций (на данный момент просмотрены функции структурной сложности не более 8). Генетический алгоритм [Fan et. al., 2004] работает заметно быстрее, но находимые им функции неинтерпретируемы и заметно переусложнены. В настоящей работе предлагается использовать регуляризатор для контроля структурной сложности модели и метрику для ускорения сходимости. Цель: ускорить алгоритм в работе [Goswami et al., 2014], получить те же результаты на структурно простых моделях, показать их устойчивость относительно начального приближения и исследовать структурно более сложные функции.
Примечания
|