Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, осень 2014
Материал из MachineLearning.
Заметки и планы осеннего семестра. Материал будет убран на методическую страницу к концу августа. В сентябре тут будут опубликованы разделы Результаты, Расписание, Постановка задач. --Strijov 02:09, 15 мая 2014 (MSD) |
Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:
- эксплуатационная документация в формате systemdoics,
- код вычислительного эксперимента и тесты,
- версия кода для эксплуатаци[1],
- доклады и презентация.
Результаты предыдущих курсов
Результаты
Автор | Тема научной работы | Ссылка | Консультант | Доклады | Буквы | Сумма | Оценка |
---|---|---|---|---|---|---|---|
Газизуллина Римма | Про | [2], pdf | |||||
Гринчук Алексей | Выб | [3], pdf | |||||
Гущин Александр | Пос | [4], pdf | |||||
Ефимова Ирина | Диф | [5], pdf | |||||
Жуков Андрей | Пос | [6], pdf | |||||
Игнатов Андрей | Обу | [7], pdf | |||||
Карасиков Михаил | Пои | [8], pdf | |||||
Кулунчаков Андрей | Обн | [9], pdf | |||||
Липатова Анна | Обн | [10], pdf | |||||
Макарова Анастасия | Исп | [11], pdf | |||||
Плавин Александр | Опт | [12], pdf | И.О. Консультанта | ||||
Попова Мария | Выб | [13], pdf | |||||
Швец Михаил | Инт | [14], pdf | |||||
Шинкевич Михаил | Вли | [15], pdf | |||||
Sk | Что | ||||||
Sk | Что | ||||||
ВШЭ | Что | ||||||
ВШЭ | Что |
Расписание (до начала курса будет уточняться)
Дата | Что сделано | Результат для обсуждения | Буква | |
---|---|---|---|---|
Сентябрь | 3 | Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности). | Обсудим прошлый семестр. | |
10 | Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте. | Запись в ML. | ||
17 | Собрана литература, написаны комментарии. | Список литературы и мини-сообщение. | Literatura | |
24 | Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. | Примерно страница текста. | Statement | |
Октябрь | 1 | Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). | Описание, IDEF0. | Idef |
8 | Детализирован интерфейс, написан код первого приближения. | Код для синтетических данных. | Code | |
15 | Написаны юнит-тесты и модуль, их запускающий. | Юнит-тесты. | Unit-test | |
22 | Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. | Данные, вторая схема IDEF0, модули. | Data | |
29 | Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. | Тесты, рецензия. | Tests | |
Ноябрь | 5 | Код оптимизирован. | Отчет профайлера до и после. | Profiler |
12 | Сделан визуальный отчет. | Завершенный тех.отчет. | Report | |
19 | Разработан веб-интерфейс. | Код на сайте. | Web | |
26 | Сделан пользовательский интерфейс и неколько примеров использования системы. | Обсуждение результатов, доклад первой группы. | Show | |
Декабрь | 3 | Подготовлен доклад, приведены в порядок документация и код. | Доклад второй группы. | Show |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».
Задачи
Шаблон описания научной статьи[1]
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на простой алгоритм, решающий эту задачу.
Список проектов
1. ... в вероятностных тематических ... регуляризатора ... (переформулировать в прикладном ключе)
- Консультант: А.А. Потапенко
- Задача: Вероятностная тематическая модель (постановка К.В. Воронцова)
- Данные: Краткое описание прикладной модели.
- Литература:
- Описание задачи и предлагаемые пути решения
- Воронцов К. В. Вероятностное тематическое моделирование. — 2014.
http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
- Базовый алгоритм: Регуляризованный EM-алгоритм (ссылка).
2. ... диагностика заболеваний ...
- Консультант: В.Р. Целых
- Задача: Описание заадачи с прикладной точки зрения (постановка К.В. Воронцова) .
- Данные: Краткое описание и ссылка
- Литература:
- Ссылка на более подробное описание задачи
- Базовый алгоритм: Метрический алгоритм (чего?) с жадным отбором признаков.
3. ... устойчивость вероятностной модели ... (новое название в прикладном ключе)
- Консультант: М.A. Дударенко
- Задача: Вероятностная тематическая модель описывает написать что надо получить с прикладной точки зрения ()
- Данные: Коллекция документов задаётся частотами слов. Поскольку для
решения задачи необходимо знать «истинные» матрицы эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.
- Литература:
- Аддитивная регуляризация (это общий материал, можно узкоспециальное описание?)
- тематическое ...
Базовый алгоритм: ссылка на описание алгоритма
4. Премодерация сообщений
- Консультант: И.С. Гуз
- Задача:
- Данные: Краткое описание и ссылка.
- Литература:
- ??
- ??
Базовый алгоритм:
5. Интерпретация движений человека с помощью носимого акселерометра
- Консультант: А.П. Мотренко
- Задача:
- Литература:
-
- Базовой алгоритм: Что было разработано?
6. Ранжирование документов с помощью структурно-простых моделей
- Консультант: А.П. Мотренко
- Задача:
- Данные: Данные по текстовым коллекциям LIG.
- Литература:
- Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
- Базовой алгоритм: Алгорим полного перебора допустимых суперпозиций порождающих функций.
7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным
- Консультант:
- Задача:
- Данные: Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
- Литература:
- Tools for the
- ...
- Базовой алгоритм:
Черновик описания курса
Анализ свойств включает следующие основные элементы:
- тестирование постановки задачи и принятых (статистических) гипотез порождения данных
- анализ ошибки или анализ регрессионных остатков,
- анализ адекватности модели,
- анализ условий применимости модели,
- анализ сложности модели,
- анализ вычислительной сложности алгоритмов построения или эксплуатации модели.
Результат:
- модуль для построения модели на языке Матлаб,
- юнит-тесты модуля,
- вычислительный эксперимент, системные тесты: анализ свойств модели (то же),
- модуль эксплуатации модели, код на языке эксплуатации (С, ++, #, Python, Java, CUDA, Ruby, VHDL, ...),
- юнит-тесты эксплуатируемой части,
- конструкторская документация в формате Systemdocs, в частности:
- мотивация проекта,
- формальная постановка задачи,
- IDEF модуля построения модели,
- IDEF модуля эксплуатации модели (если требуется),
- описание интерфейсов,
- описание системных тестов и их результатов,
- описание юнит-тестов,
- анализ производительности.
Эксплуатация модели предполагается в одном из вариантов, доступных для широкого круга пользователей:
- Модуль на Google Play / Apple Store,
- Модуль на сервере mvr.jmlda.org.
Научная статья: написание научной статьи приветствуется, но не входит в расписание проекта. Это связано с повышением требования к качеству статей студентов четвертого курса. Так как на третьем курсе мы подали ряд статей в журналы ВАК, то имеет смысл для некоторых работ обсудить формат статьи в журнал WebOfKnowledge.
Требования к слушателям: слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе.
Мотивация
Время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом: 1) ставим задачу в формальном наиболее детализированном варианте, 2) делаем вычислительные эксперименты на Матлабе, 3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.
Сделать
Написать методические рекомендации для руководителей по планированию и проверке результатов работ.