Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2015

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задачи)
(8. Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов)
Строка 486: Строка 486:
-
===9. Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации.(Липатова А. Н.)
+
=== 9. Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации.===
* '''Задача''': Улучшить качество бинарной классификации наивного байесовского классификатора с сохранением свойств отбора признаков и низкого переобучения. Сравнить результат с классификацией с помощью логистической регрессии и др.
* '''Задача''': Улучшить качество бинарной классификации наивного байесовского классификатора с сохранением свойств отбора признаков и низкого переобучения. Сравнить результат с классификацией с помощью логистической регрессии и др.

Версия 05:44, 25 февраля 2015

Результаты предыдущих курсов:


Планирование научных исследований

Участвуют эксперты, индивидуальные консультанты и студенты кафедры.


Результаты

Физтех

Автор Тема научной работы Ссылка Консультант Доклады Буквы
Газизуллина Римма Исследование взаимосвязанности временных рядов [1], pdf Консультант N N
Гринчук Алексей Использование контекстной документной кластеризации для улучшения качества построения тематичсеких моделей [2], pdf Апишев Мурат, Ромов Пётр N N-
Гущин Александр Тема N0
Ефимова Ирина Формирование однородных обучающих выборок в задачах классификации [3], pdf Целых Влада N N
Жуков Андрей Тема N0
Игнатов Андрей Применение Deep Learning в задаче информационного анализа ЭКГ-сигналов [4], pdf Ишкина Шаура N N
Карасиков Михаил Тема N0
Костюк Анна Тема N0
Кулунчаков Андрей Порождение структурно простых ранжирующих функций для задач информационного поиска [5], pdf Мотренко Анастасия N
Липатова Анна Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации. [6], pdf N N-
Макарова Анастасия Тема N0
Плавин Александр Тема N0
Попова Мария Классификация временных рядов с использованием методов Deep Learning [7] [8] В. В. Стрижов N N
Сухарева Анжелика Классификация научных текстов по отраслям знаний N-
Швец Михаил Монотонные классификаторы для задач медицинской диагностики [9], pdf N N
Шинкевич Михаил Применение коллаборативной фильтрации, активного обучения и навигационной корреляции в задаче выделения селекторов N N
Логинс Алвис EVERGREEN: Spatial join-oriented data structure N N
Мунхоева Марина Тема N0
Усман Бен Тема N0
Червинский Федор Тема N0
Жуйков Владимир Тема N0
Киселев Антон Тема N0
Кудряшова Александра Detection of emotions using video record [10] N0
Матросов Михаил Прогнозирование сложноорганизованных наборов временных рядов N-
Прилепский Роман Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов [11] В. В. Стрижов N
АВ Тема N0

Расписание

Дата ДЗ Что делаем Результат для обсуждения Код
Февраль 11 Вводная лекция.
18 1 ??? Выбрать задачу, заполнить шаблон Name
25 2 ... Обзор и список литературы. Literature
Март 4 3 ...
11 4 Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко). Statement, Basic code, Report
18 5 Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. Код, визуализация полученных результатов, анализ ошибки, анализ качества. Code, Visualization
25 6 Описание алгоритма. Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 1 7 Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
8 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
17 8 Контрольная точка — показ статьи в целом. Доработанная статья. сHeck
22 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

ДЗ-1 (к 18.02)

  1. Заполнить на странице курса bit.ly/1BW1Sy8 шаблон описания задачи,
  2. Подготовить короткий доклад на 45 сек. с описанием задачи.

ДЗ-2 (к 25.02)

  1. Собрать список литературы по выбранной теме. Список литературы должен содержать около двадцати позиций. Позиции из списка можно условно разделить на секции
    • Ссылки на работы, содержащие идею исследования. Желательно, чтобы работы были написаны различными авторами.
    • Ссылки на работы, в которых предлагаемые в работе методы применяются для решения различных прикладных задач.
    • Ссылки на данные, их описание, описание прикладной задачи связанной с исследуемыми данными.
    • Дополнительная информация: ссылки на описание инструментов (если используются специальные библиотеки или программное обеспечение); работы, формирующие теоретическую базу исследования, обзоры работ по исследуемой теме.
  2. Сделать презентацию, состоящую из двух слайдов:
    1. На первом слайде кратко сформулировать цели исследования, решаемую задача (в чем она заключается и где актуальна), методы решения.
    2. На втором привести список основных источников.
  3. Создать шаблон статьи и заполнить в нем раздел «Related work», содержащий обзор собранной литературы.

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


1. Порождение структурно простых ранжирующих функций для задач информационного поиска

  • Задача: Решается проблема порождения ранжирующих функций в задачах информационного поиска. Ранжирующая функция ищется в виде суперпозиции некоторых заданных порождающих функций. Предлагается генетический алгоритм порождения структурно-простых суперпозиций, который затем сравнивается с алгоритмом полного перебора. Функционалами качества при этом являются MAP и P@10. Оптимальность полученных функций предлагается исследовать с помощью метрик на моделях и данных. Ссылка на подробную постановку задачи.
  • Данные: Выборка состоит из нескольких коллекций документов. Каждой коллекции экспертом приписано множество запросов и для некоторых из ее документов заданы оценки релевантности данным запросам. Ссылка на данные и ссылка на запросы и экcпертные оценки.
  • Литература:

Постановка задачи для переборного алгоритма.

Постановка задачи для генетического алгоритма на моделях любой сложности.

Алгоритм порождения суперпозиций.

  • Базовой алгоритм: В данный момент используется генетический алгоритм MVR порождения моделей с простым удалением всех моделей, имеющих избыточную сложность.
  • Решение: Предлагается использовать более гибкие способы контроля сложности порождаемых моделей путем варьирования функционала качества моделей. Кроме этого, предлагается подключить метрику на моделях для улучшения сходимости и выбивания из локальных минимумов. Возможно, потребуется добавить некоторые эвристики в MVR для ускорения сходимости.
  • Новизна: На данный момент известно два наиболее продуктивных подхода к поиску ранжирующей функции: переборный и генетический алгоритм. Переборный алгоритм [Goswami et al., 2014] находит структурно-простую ранжирующую функцию и гарантирует ее оптимальность в небольшом множестве функций (на данный момент просмотрены функции структурной сложности не более 8). Генетический алгоритм [Fan et. al., 2004] работает заметно быстрее, но находимые им функции неинтерпретируемы и заметно переусложнены. В настоящей работе предлагается использовать регуляризатор для контроля структурной сложности модели и метрику для ускорения сходимости. Цель: ускорить алгоритм в работе [Goswami et al., 2014], получить те же результаты на структурно простых моделях, показать их устойчивость относительно начального приближения и исследовать структурно более сложные функции.


2. Формирование однородных обучающих выборок в задачах классификации

  • Задача:
    Дано: две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
    Найти: вычислительно эффективный способ очистки второй выборки от выбросов.
    Критерий: возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
  • Данные: Выборки электрокардиограмм с диагнозами по 11 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
  • Литература:
    1. Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
    2. Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
    3. Chandola V. [at al.] Outlier detection: A Survey // ACM Computing Surveys. – July 2009. – V. 41(3), N 15.
    4. Singh K. [at al.] Outlier Detection: Applications And Techniques // International Journal of Computer Science Issues. – January 2012. – V. 9(1), N 3
  • Базовый алгоритм: Пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога. Ссылка.
  • Решение: Для пополнения первой выборки объектами второй выборки предлагается метод сближения ROC-кривых — жадный алгоритм, исключающий объекты второй выборки так, чтобы минимизировать расстояние между ROC-кривой обучающей подвыборки первой выборки и ROC-кривой второй выборки. Также предлагается рассмотреть различные модификации данного метода.
  • Новизна: Задача пополнения обучающей выборки ранее не рассматривалась. Есть похожие стандартные задачи: фильтрация шумов, частичное обучение. Но задача пополнения отличается от них тем, что возникает трудность: формирование пополненной обучающей выборки с помощью классификатора, обученного по первой выборке, может закрепить эффект переобучения.

3. Применение Deep Learning в задаче информационного анализа ЭКГ-сигналов

  • Задача: Решается задача диагностики заболеваний внутренних органов человека по его электрокардиограмме. Задача состоит из двух последовательных этапов: обработки исходных сигналов, включающей в себя построение признакового описания кардиограмм, и их классификации по полученным векторам признаков. В роли функционалов качества в данной задаче выступают AUC, FPR и FNR.
  • Данные: Выборка представляет собой множество электрокардиограмм с диагнозами по 14 заболеваниям. Каждая кардиограмма задается вектором, элементами которого являются пары интервал-амплитуда.
  • Литература:
    • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
    • Uspenskiy V.M., Vorontsov K. V., Tselykh V. R., Bunakov V.A. Information Function of the Heart: Discrete and Fuzzy Encoding of the ECG-Signal for Multidisease Diagnostic System. In: Advanced Mathematical and Computational Tools in Metrology – AMCTM 2014
    • Bengio Y., Courville A., Vincent P. Representation Learning: A Review and New Perspectives. In: IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.35, no. 8, pp. 1798-1828, 2013
    • Geoffrey E. Hinton. A Practical Guide to Training Restricted Boltzmann Machines. In: Neural Networks: Tricks of the Trade, рp. 599-619, 2012
  • Базовой алгоритм: Ручное выделение признаков с последующим применением наивного байесовского классификатора.
  • Решение: Предлагается использовать Deep Learning для выделения признаков из исходных электрокардиограмм. В качестве базовых алгоритмов рассматриваются автоэнкодеры, ограниченные машины больцмана и сверточные нейронные сети. Для решения поставленной задачи используется суперпозиция данных алгоритмов. Для улучшения качества обучения предлагается ряд эвристик.
  • Новизна: В настоящий момент применяется ручное выделение признаков, базирующееся на найденных экспертом закономерностях. Данный метод использует лишь часть информации, содержащейся в электрокардиограммах. Также он замедляет создание признаков для новых, еще не рассмотренных ранее болезней. В данной работе предлагается использовать Deep Learning для автоматической генерации признаков. Также данный метод использует большее количество входных данных, что позволяет более полно использовать содержащуюся в кардиограммах информацию.

4. Применение коллаборативный фильтрации и активного обучения в задаче выделения селекторов

  • Задача:

Дано: Результат A/B-тестирования каждого пользователя

Найти: Множество селекторов минимальной мощности, при котором результат голосования принадлежит доверительному интервалу

Критерий: Фактор мощности множества селекторов

  • Данные: Результат A/B-тестирования и навигационная корреляция
  • Литература:
    1. Benjamin Marlin, Collaborative filtering: a machine learning perspective. // Thesis for the degree of Master of Science Graduate Department of Computer Science University of Toronto
    2. Subhagata Chattopadhyay, Similarity based clustering // Computing and Informatics, Vol. 30, 2011, 701–720
    3. Ilham Esslimani, Armelle Brun, Anne Boyer. A collaborative filtering approach combining clustering and navigational based correlation // Universite ́ Nancy2, LORIA, 2008
  • Базовой алгоритм: Косинус угла между векторами объектов / пользователей. FLAME-кластеризация.
  • Решение: Сначала определяются параметры суперпозиции, экспертно заданных признаков близости пользователей. Далее пользователи разбиваются на кластеры при помощи FLAME кластеризации.

Проверяется попадание результата голосования селекторов в доверительный интервал "правильного" ответа.

  • Новизна: Прямое сравнение вкусов пользователей, а не косвенное через похожесть объектов. Сравнение происходит в общей метрике, а не уникальной системе каждого пользователя. Используется навигационная корреляция и активное обучение. Благодаря всему перечисленному, сравнение вкусов пользователей имеет наибольшую, по сравнению с предыдущими работами, точность.

5. Монотонные классификаторы для задач медицинской диагностики

  • Задача: На необработанной обучающей выборке есть множество объектов (класса больных и здоровых), которые участвуют в образовании нарушающих пар. Различные типы монотонизации соответствуют сдвигу разделяющей поверхности в сторону одного из классов. Фиксировав величину чувствительности (специфичности), построить монотонный классификатор, удовлетворяющий заданному условию.
  • Данные: выборки электрокардиограмм (в векторном представлении) с диагнозами по 14 заболеваниям.
  • Литература:
    1. Воронцов К.В., Махина Г.А. Принцип максимизации зазора для монотонного классификатора ближайшего соседа. Москва, 2014.
    2. Махина Г.А. О восстановлении монотонных булевых функций методом ближайшего соседа. ИОИ-9. 2012.

Базовый алгоритм: монотонный классификатор ближайшего соседа с предварительным отбором признаков.

6. Обнаружение взаимосвязанности временных рядов

  • Задача: Разработать метод выявления связей между временными рядами. Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература:

Описание алгоритма ССМ

    • G. Sugihara, R.M. May. Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series
    • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012)

Рассмотрение различных алгоритмов для обнаружения связаности рядов

    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
  • Решение: Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства.
  • Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей


7. EVERGREEN: Spatial join-oriented data structure

  • Задача: Given a dataset with objects from 3D space that belong to two classes. Find a list of pairs of objects, where each pair contains objects from both classes and the distance between objects in one pair is less then epsilon.
  • Данные: Generated dataset with different sizes, shapes and distances of objects and a dataset from BlueGene project of spatial destination of axons and dendrites of mouse's brain.
  • Литература:
    1. Sadegh Nobari, Panagiotis Karras et al., TOUCH: In-Memory Spatial Join by Hierarchical Data-Oriented Partitioning, ACM SIGMOD’13 – main article, the description of base algorithm for parallelization
    2. Thoinus Brinkhoff et al., Efficient Processing of Spatial Joins Using R-trees, SIGMOD’93 – some basic principles of R-trees
    3. Ibrahim Kamel, Parallel R-trees, SIGMOD’92 – the implementation of parallel R-trees
    4. Scott T. Leutenegger, STR: A SIMPLE AND EFFICIENT ALGORITHM FOR R-TREE PACKING, ICASE report 97-14 – description of R-tree boosting, fast creating of tree from known set of data (building from the bottom)
    5. CUDA C BEST PRACTICES GUIDE – manual for GPU API
  • Базовый алгоритм: EVERGREEN dTree, reTree, cTree.
  • Решение New algorithm for spatial join was developed with 3 different modifications. Each of them outperforms all others best solutions for mentioned problem.
  • Новизна The problem is well developed for disk-based approached. We develop state-of-the-art in-memory approach that is based of the assumption that whole built data structure can be placed in fast RAM memory.


8. Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов

  • Задача: Гипотеза – на данный момент выбор блоков суперпозиции осуществляется вручную и не меняется с течением времени. Либо существующие решения – коммерческие, и не подлежат разглашению академическому сообществу и публикации в открытом доступе. Необходимо разработать механизм создания оптимальной структуры сети глубокого обучения - автоматического выбора количества и типов блоков, их начальных параметров, автоматизированного дообучения всей суперпозиции (подстройки параметров отдельных, их добавление/удаление) на основе функционалов качества отдельных элементов и сети в целом. (постановка в виде задачи оптимизации (в формате argmin) будет выполнена позднее)
  • Данные: Показания акселерометра, трехмерные временные ряды. Выборка: WISDM.
  • Литература: Вся подборка научных работ по теме - в папке на OneDrive.
  • Базовой алгоритм: --- (будет определен позднее)
  • Решение: Создание признакового описания самой сети глубокого обучения. На основе признакового описания предлагается принять решение относительно изменения структуры суперпозиции, структуры отдельных блоков (в частности, числа параметров), а также решить задачу оптимизации значений параметров.
  • Новизна: ---


9. Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации.

  • Задача: Улучшить качество бинарной классификации наивного байесовского классификатора с сохранением свойств отбора признаков и низкого переобучения. Сравнить результат с классификацией с помощью логистической регрессии и др.
  • Данные: Данные ЭКГ.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Наивный байесовский классификатор, логистическая регрессия.
  • Решение: Предлагается добавление регуляризации к функции правдоподобия и решение задачи оптимизации параметров классификатора.
  • Новизна: ---.

Примечания

Личные инструменты