Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, осень 2014

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Список проектов)
(25. Сравнение эффективности логических методов в задачах анализа данных)
Строка 577: Строка 577:
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
-
**
 
-
**
 
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие.
* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие.

Версия 12:47, 2 сентября 2014


Заметки и планы осеннего семестра. Материал будет убран на методическую страницу к концу августа. В сентябре тут будут опубликованы разделы Результаты, Расписание, Постановка задач. --Strijov 02:09, 15 мая 2014 (MSD)


Этот семестр посвящен постановке вычислительных экспериментов. Результатом эксперимента является анализ свойств математической модели, получаемой в результате решения поставленной задачи машинного обучения анализа данных. Построенная модель подготавливается к эксплуатации и представляется на языке, наиболее подходящем для эксплуатации. Cоздаются эксплуатационные интерфейсы. Результатами работы являются:

  1. эксплуатационная документация в формате systemdoics,
  2. код вычислительного эксперимента и тесты,
  3. версия кода для эксплуатаци[1],
  4. доклады и презентация.

Результаты предыдущих курсов

Черновик описания курса

Анализ свойств модели (алгоритма распознания, классификации, прогнозирования) включает следующие основные элементы:

  • тестирование постановки задачи и принятых (статистических) гипотез порождения данных
  • анализ ошибки или анализ регрессионных остатков,
  • анализ адекватности модели,
  • анализ условий применимости модели,
  • анализ сложности модели,
  • анализ вычислительной сложности алгоритмов построения или эксплуатации модели.

Результат выполнения работ:

  • модуль для построения модели на языке Матлаб,
  • юнит-тесты модуля,
  • вычислительный эксперимент, системные тесты: анализ свойств модели (то же),
  • модуль эксплуатации модели, код на языке эксплуатации (С, ++, #, Python, Java, CUDA, Ruby, VHDL, ...),
  • юнит-тесты эксплуатируемой части,
  • конструкторская документация в формате Systemdocs, в частности:
    • мотивация проекта,
    • формальная постановка задачи,
    • IDEF модуля построения модели,
    • IDEF модуля эксплуатации модели (если требуется),
    • описание интерфейсов,
    • описание системных тестов и их результатов,
    • описание юнит-тестов,
    • анализ производительности.

Эксплуатация модели предполагается в одном из вариантов, доступных для широкого круга пользователей:

  • модуль на Google Play,
  • модуль на сервере mvr.jmlda.org.

Научная статья: написание научной статьи приветствуется, но не входит в расписание проекта. Это связано с повышением требования к качеству статей студентов четвертого курса. Так как на третьем курсе мы подали ряд статей в журналы ВАК, то имеет смысл для некоторых работ обсудить формат статьи в журнал WebOfKnowledge.

Требования к слушателям: слушатели знают базовый курс лекций К.В. Воронцова и программируют на Матлабе. Технология работы: время работы человека гораздо ценнее времени работы компьютера. Поэтому мы работаем следующим образом: 1) ставим задачу в формальном наиболее детализированном варианте, формально описываем аалгоритм, 2) делаем вычислительные эксперименты на Матлабе, 3) полученные модели переписываем на том языке, на котором модели будут эксплуатироваться. Это может быть VHDL, в котором результатом компиляции является микросхема-процессор специального назначения увеличивающий скорость вычисления в миллионы раз, CUDA для видеопроцессоров, Java для телефонов, PL-SQL для систем коллективного пользования, Ruby on Rails для интернета.

Результаты

Автор Тема научной работы Ссылка Консультант Доклады Буквы Сумма Оценка
Газизуллина Римма Поставьте в это поле название работы [2], pdf
Гринчук Алексей [3], pdf
Гущин Александр [4], pdf
Ефимова Ирина Формирование однородных обучающих выборок в информационном анализе ЭКГ-сигналов [5], pdf Целых Влада,
Зухба Анастасия
Жуков Андрей [6], pdf
Игнатов Андрей Полигон алгоритмов классификации для информационного анализа ЭКГ-сигналов [7], pdf Кто консультант?
Карасиков Михаил [8], pdf
Кулунчаков Андрей [9], pdf
Липатова Анна [10], pdf
Макарова Анастасия [11], pdf
Плавин Александр [12], pdf И.О. Консультанта
Попова Мария [13], pdf
Швец Михаил [14], pdf
Шинкевич Михаил [15], pdf
Sk Что
Sk Что
ВШЭ Что
ВШЭ Что

Расписание (до начала курса будет уточняться)

Дата Что сделано Результат для обсуждения Буква
Сентябрь 3 Первая лекция. Представление нового курса, мотивация, организация работ. Две вводные лекции для новых студентов (по возможности). Обсудим прошлый семестр.
10 Выбрана задача, рецензент. Доклад на 45 секунд о своем проекте. Запись в ML.
17 Собрана литература, написаны комментарии. Список литературы и мини-сообщение. Literatura
24 Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. Примерно страница текста. Statement
Октябрь 1 Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). Описание, IDEF0. Idef
8 Детализирован интерфейс, написан код первого приближения. Код для синтетических данных. Code
15 Написаны юнит-тесты и модуль, их запускающий. Юнит-тесты. Unit-test
22 Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. Данные, вторая схема IDEF0, модули. Data
29 Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. Тесты, рецензия. Tests
Ноябрь 5 Код оптимизирован. Отчет профайлера до и после. Profiler
12 Сделан визуальный отчет. Завершенный тех.отчет. Report
19 Разработан веб-интерфейс. Код на сайте. Web
26 Сделан пользовательский интерфейс и неколько примеров использования системы. Обсуждение результатов, доклад первой группы. Show
Декабрь 3 Подготовлен доклад, приведены в порядок документация и код. Доклад второй группы. Show

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон задачи[1]

  • Название: Название решаемой прикладной задачи.
  • Задача: Описание или постановка прикладной задачи. Также возможна ссылка на классическую постановку задачи.
  • Данные: Ссылка на выборку, краткое описание данных, используемых в вычислительном эксперименте.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на простой алгоритм, решающий эту задачу.

Список проектов

1. Визуализация и частичная разметка тематической структуры текстов

  • Консультант: А.А. Потапенко
  • Задача: Разработать среду визуализации, отображающую вероятности принадлежности слов к темам, полученные с помощью тематической модели. Предусмотреть возможность ручной разметки принадлежности слов к темам для дальнейшего использования в оценке качества модели или в частичном обучении. С помощью разработанной среды сравнить стандартную модель PLSA (Probabilistic Latent Semantic Analysis) и регуляризованную модель с разреженными различными предметными и сглаженными фоновыми темами.
  • Данные: Коллекция статей конференций ММРО-ИОИ за несколько лет.
  • Литература:

2. Формирование однородных обучающих выборок в информационном анализе электрокардиосигналов

  • Консультант: В.Р.Целых, А.В.Зухба
  • Задача:
    Дано: две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
    Найти: вычислительно эффективный способ очистки второй выборки от выбросов.
    Критерий: возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
  • Данные: выборки электрокардиограмм с диагнозами по 14 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
  • Базовый алгоритм: пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога.
  • Литература:
  • Воронцов К. В. Изображение:Voron-ML-Metric-slides.pdf. Лекции по машинному обучению. — 2014.
  • Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
  • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
  • Обзоры по outlier detection, anomaly detection, novelty detection, semisupervised learning.

3. ... устойчивость вероятностной модели ... (новое название в прикладном ключе)

  • Консультант: М.A. Дударенко
  • Задача: Вероятностная тематическая модель описывает написать что надо получить с прикладной точки зрения ()
  • Данные: Коллекция документов задаётся частотами слов. Поскольку для

решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

  • Литература:
    • Аддитивная регуляризация (это общий материал, можно узкоспециальное описание?)
    • тематическое ...

Базовый алгоритм: ссылка на описание алгоритма

4. Рекомендация товаров для совместной продажи

  • Консультант: А.А. Пимкова
  • Задача: Необходимо выделить группы товаров, продаваемых на Авито, которые являются дополняющими друг к другу (пример: автомобили и шины) и которые было бы интересно продавать совместно. При этом классический алгоритм выделения ассоциативных правил (пример - Apriori) не совсем эффективен, так как каждый товар описывается некоторой иерархией признаков (Пример: Авто -> Mazda -> 6 -> 2.0л) и эффективные правила могут содержать элементы различных иерархий (Вместе с "Авто -> Mazda -> 6" часто продаются "Шины -> Continental -> r16"). Необходимо формализовать и иметь возможность внедрить в алгоритм поиска подобных правил экспертные ограничения, запрещающие определенные классы правил, так как на их основе могут создаваться крайне не релевантные рекомендации.
  • Данные: История продаваемых совместно товаров, где каждый товар описывается набором атрибутов и принадлежит соответствующей товарной иерархии.
  • Литература:
    • Акобир Шахиди, Введение в анализ ассоциативных правил, 2002.
    • Акобир Шахиди, Apriori – масштабируемый алгоритм поиска ассоциативных правил, 2002 - http://www.basegroup.ru/library/analysis/association_rules/apriori/.
    • Сергей Ларин, Применение ассоциативных правил для стимулирования продаж>, 2003 - http://www.basegroup.ru/library/practice/salepromotion/.
    • R. Srikant, R. Agrawal, Mining Generalized Association Rules, In Proc. of the 21st International Conference on VLDB, Zurich, Switzerland, 1995.
    • J.S. Park, M.-S. Chen, and S.Y. Philip, An Effective HashBased Algorithm for Mining Association Rules, In Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1995.
    • R. Agrawal, R. Srikant, Fast algorithms for mining association rules, In Proc. of the VLDB Conference, Santiago, Chile, September 1994

Базовый алгоритм: Алгоритм выделения обобщенных ассоциативных правил.

5. Интерпретация движений человека с помощью носимого акселерометра

  • Консультант: А.П. Мотренко
  • Задача:
  • Литература:
    • ...
    • ...
  • Базовой алгоритм: Что было разработано?

6. Ранжирование документов с помощью структурно-простых моделей

  • Консультант: А.П. Мотренко
  • Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Цель: развить или улучшить результаты работы [Goswami et al, 2014]. В работе [Goswami et al, 2014] поиск осуществляется полным перебором суперпозиций, порожденных заданной грамматикой и удовлетворяющих ограничениям, определяемым спецификой задачи. Предложенные ограничения позволяют провести перебор суперпозиций сложности (длины) до восьми включительно и обнаружить ранжирующие функции, статистически не менее точные, чем некоторые из традиционно используемых ранжирующих функций большей сложности (например, BM25 сложности 25). Возможные пути развития:
    • предложить алгоритм направленного поиска суперпозиций большей сложности на основе полученных результатов.
    • модифицировать базовый алгоритм и найти более оптимальную ранжирующую функцию.
  • Данные: Данные по текстовым коллекциям LIG. Объектами выборки являются пары документ-запрос (d, q), документы коллекции отранжированы экспертно для каждого запроса. Для каждого слова w из запроса q вычисляются значение ранжирующей функции f(x, y, k), зависящей от трех переменных:
  1. x — нормализованная частота встречаемости слова w в документе d:  x = t_d^{w}\log(1 + c\cdot l_{avg}/l_d), где t_d^{w} — частота встречаемости слова w в документе d (вычисляется для каждого слова из q), l_{d} длина документа в коллекции, l_{avg} — средняя длина документа в коллекции, c\in{\mathbb{R}} — некий параметр.
  2. y — нормализованная частота встречаемости слова w в коллекции:  y = \frac{N_w}{N}, где N_w — количество документов в коллекции, содержащих слово w, N — общее число документов в коллекции.
  3. k — действительнозначный параметр.
  • Литература:
    • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Описание задачи.
  • Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

7. Уточнение прогноза железнодорожных грузоперевозок по биржевым данным

  • Консультант:
  • Задача:
  • Данные: Исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература:
    • Tools for the
    • ...
  • Базовой алгоритм:

8. Прогнозирование третичных структур белков: оптимизация

9. Прогнозирование четвертичных структур белков: нивелирование

10. Прогнозирование объемов потребоения электроэнегргии

  • Консультант: Маркус Хильдман
  • Задача: Сделать элегантную систему прогнозирования.
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

11. Про интергральные индикаторы

  • Консультант: М.П. Кузнецов
  • Задача:
  • Данные: Интернет
  • Литература:
    • ...
  • Базовой алгоритм:

12. Про копулы

  • Консультант: Биляна
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

13. Про медицину

  • Консультант: С.Г.
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

14. Про акселероменты -1

  • Консультант: А.А. Кузьмин
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

15. Про акселероменты -2

  • Консультант: А.А. Кузьмин
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

16. Последовательный выбор моделей распознавания физической активности чесловека

  • Консультант: А.А. Токмакова
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

17. Последовательный выбор моделей распознавания физической активности чесловека

  • Консультант: А.А. Токмакова
  • Задача:
  • Данные: Консультант.
  • Литература:
    • ...
  • Базовой алгоритм:

18. Прогнозрование вероятности клика по покупательским поисковым запросам

  • Консультант: М.П. Кузнецов
  • Задача:
  • Данные: Есть
  • Литература:
    • ...
  • Базовой алгоритм:

19. Свободный первый уровень

  • Консультант:
  • Задача:
  • Данные:
  • Литература:
    • ...
  • Базовой алгоритм:

20. Метапрогнозирование временных рядов

  • Консультант: А.С. Инякин
  • Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например,

среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

  • Данные: Библиотека квазипериодических и апериодических временных рядов
  • Литература:
    • Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных, 2011. T.1, №1. C.104-112.
    • Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных, 2011. T.1, №1. C.92-103.
    • Найти дополнительную обзорную литературу по автоматическому прогнозированию.

21. Идентификация человека по изображению радужной оболочки глаза

  • Консультант: И.А. Матвеев
  • Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является

отбраковка затенённых участков.

  • Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.
  • Литература:
    • Описание задачи и предлагаемые пути решения
    • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
    • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
    • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
    • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
    • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
  • Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

22. Построение скелета по (какому-то) изображению

  • Консультант: И.А. Рейер
  • Задача:
  • Данные:
  • Литература:
  • Базовый алгоритм:

23. Определение движения наземных инженерных сооружений по спутниковым снимкам(*)

  • Консультант: А.А. Адуенко
  • Задача:
  • Данные:
  • Литература:
  • Базовый алгоритм:

24. Автоматическое построение программы научных конференций

  • Консультант: А.А. Кузьмин
  • Задача:
  • Данные:
  • Литература:
  • Базовый алгоритм:

25. Сравнение эффективности логических методов в задачах анализа данных

  • Консультант: Ю.В. Максимов
  • Задача: состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
  • Данные: Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
  • Литература: приведена в файле
  • Базовый алгоритм: Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие.

Сделать

Написать методические рекомендации для руководителей по планированию и проверке результатов работ.


Примечания

Личные инструменты