Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2015

Материал из MachineLearning.

Перейти к: навигация, поиск

Результаты предыдущих курсов:


Планирование научных исследований

Участвуют эксперты, индивидуальные консультанты и студенты кафедры.

Результаты

Физтех

Автор Тема научной работы Ссылка Консультант Доклады Буквы Сумма Оценка
Газизуллина Римма Построение композиций прогностических моделей и оценка качества прогноза временных рядов paper

code

Консультант N NL0I0S0C0V0R0T0D0 1 3
Гринчук Алексей Использование контекстной документной кластеризации для улучшения качества построения тематических моделей code, paper К. В. Воронцов N NLISCVRTD 9 9
Гущин Александр Методы ансамблирования обучающихся алгоритмов code, paper,slides N-LISC-V0R0TD0E0S 6.5 -
Ефимова Ирина Формирование однородных обучающих выборок в задачах классификации code, paper,slides Целых Влада NM NLISCVRTDS 10 10
Жуков Андрей Классификация движений в однонаправленном нейрокомпьютерном интерфейсе code, paper Рябенко Евгений NLISCVRTDE 10 10
Игнатов Андрей Deep Learning in information analysis of electrocardiogram signals for disease diagnostics [1] (no code), paper,slides Ишкина Шаура NM NLISCVRTDE 10 10
Карасиков Михаил Классификация временных рядов в пространстве параметров модели порождения их сегментов code,paper В. В. Стрижов N0L0I0S0C0V0R0T0D0 0 3
Костюк Анна Мультимодальная тематическая модель социальной сети N0L0I0S0C0V0R0T0D0 0 -
Кулунчаков Андрей Порождение структурно простых ранжирующих функций для задач информационного поиска code, paper, slides Мотренко Анастасия NLISCVR+TD- 9 9
Липатова Анна Выделение мультиграммных признаков в задачах классификации символьных последовательностей. code,

paper

Ишкина Шаура N N-LISCVRTDE 9,75 10
Макарова Анастасия Тема N0L0I0S0C0V0R0T0D0 0 -
Плавин Александр Отбор тем в задачах тематического моделирования paper code slides Потапенко Анна NL-ISC+VRT-D 8.75 9
Попова Мария Выбор оптимальной модели для многоклассовой классификации временных рядов code, paper В. В. Стрижов N NLISCVRTD 9 9
Швец Михаил Монотонные классификаторы для задач медицинской диагностики code, paper Зухба Анастасия N NLISCVRTDE 10 10
Шинкевич Михаил Применение коллаборативной фильтрации, активного обучения и навигационной корреляции в задаче выделения селекторов code, paper, slides К. В. Воронцов N NLISCVRTDS 10 10
Логинс Алвис EVERGREEN: Spatial join-oriented data structure code, paper,slides Мотренко Анастасия NM NLISCVRTDEHS 12 10
Мунхоева Марина Tensor-train decomposition for latent-variable PCFG parsing N0L0I0S0C0V0R0T0D0
Усман Бен Тема N0L0I0S0C0V0R0T0D0
Червинский Федор Тема N0L0S0C0V0R0T0D0
Жуйков Владимир Рекомендательная система подбора одежды, основанная на семантическом анализе рекламных описаний одежды. [2] Диплом
Киселев Антон Расстояние между временными рядами как расстояние между функциями распределения параметров их моделей Самостоятельная работа
Кудряшова Александра Detection of emotions using video record [3] Диплом
Матросов Михаил Прогнозирование сложноорганизованных наборов временных рядов [4], [5], paper, slides Диплом
Прилепский Роман Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов [6] Диплом
Фейзханов Рустем Распознавание рукописных меток на изображениях документов в реальном времени в системе компьютерного зрения paper, slides Диплом

Расписание

Дата ДЗ Результат для обсуждения Код
Февраль 11 Вводная лекция.
18 1 Выбрать задачу, заполнить шаблон Name
25 2 Обзор и список литературы. Literature
Март 4 3 Введение в формате квалификационной работы Introduction
11 4 Постановка задачи. Statement
18 5 Вычислительный эксперимент: код, визуализация полученных результатов, анализ ошибки, анализ качества. Первое приближение презентации проекта. Code, Visualization, Report
25 6 Алгоритмическая часть статьи (второй / третий раздел). Theory
Апрель 1 7 Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». Document
8 8 Завершение вычислительного эксперимента. Описание эксперимента с анализом ошибок. Error
17 8 Доработанная статья.
22 9 Доклады и обсуждение. Статья подана в журнал. Show, Journal

ДЗ

ДЗ-1 (к 18.02)

  1. Заполнить на странице курса bit.ly/1BW1Sy8 шаблон описания задачи,
  2. Подготовить короткий доклад на 45 сек. с описанием задачи.

ДЗ-2 (к 25.02)

  1. Собрать список литературы по выбранной теме. Список литературы должен содержать около двадцати позиций. Позиции из списка можно условно разделить на секции
    • Ссылки на работы, содержащие идею исследования. Желательно, чтобы работы были написаны различными авторами.
    • Ссылки на работы, в которых предлагаемые в работе методы применяются для решения различных прикладных задач.
    • Ссылки на данные, их описание, описание прикладной задачи связанной с исследуемыми данными.
    • Дополнительная информация: ссылки на описание инструментов (если используются специальные библиотеки или программное обеспечение); работы, формирующие теоретическую базу исследования, обзоры работ по исследуемой теме.
  2. Сделать презентацию, состоящую из двух слайдов:
    1. На первом слайде кратко сформулировать цели исследования, решаемую задача (в чем она заключается и где актуальна), методы решения.
    2. На втором привести список основных источников.
  3. Создать шаблон статьи и заполнить в нем раздел «Related work», содержащий обзор собранной литературы.

ДЗ-3 (к 04.03)

  1. Написать в файле Surname2015Title_Formal общую характеристику работы (формальное введение). Характеристика должна содержать разделы из следующих примеров:[7], [8] (и других выпускных работ).
  2. Особое внимание следует уделить разделу "Результаты, выносимые на защиту". Они находятся на последнем сайте презентации.

ДЗ-4 (к 11.03)

  • Написать постановку задачи по плану
    1. Описание выборки (и, возможно, допустимые операции над элементами выборки). Способ построения матрицы объект-признак.
    2. Статистические или иные предположения о характере выборки
    3. Описание (и, возможно, обоснование) функции ошибки, функции потерь или иной функции качества, согласно которой будет оцениваться качество решения задачи.
    4. Ограничения, накладываемые на решения задачи, способы разбиения выборки.
    5. Возможно, дополнительные функции качества
    6. Постановку argmin

ДЗ-4 (к 25.03)

  • Поставить вычислительный эксперимент: написать код, визуализировать и описать результаты.
  • Посмотреть шаблоны презентации на русском (pdf, tex) и английском (pdf, tex) из папки Group074/Kuznetsov2013SSAForecasting/doc/.
  • Сделать презентацию по плану:
    1. Титульный лист, 1 слайд.
    2. Цели исследования, решаемая задача, используемые методы, 1 слайд.
    3. Иллюстрация проблемы, 1-2 слайда (необязательно).
    4. Литература, 1 слайд.
    5. Постановка задачи, 1-2 слайда.
    6. Теоретическая часть, 1-10 слайдов (не ожидается).
    7. Цели эксперимента, 1 слайд.
    8. Эксперимент, 1-5 слайдов.
    9. Результаты эксперимента, 1-3 слайда.
    10. Заключение: результаты, выносимые на защиту (обязательно).
  • Подготовить короткий доклад по слайдам (2-3 мин.)

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  5. Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>».

Задачи

Шаблон описания научной статьи

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).


1. Порождение структурно простых ранжирующих функций для задач информационного поиска

  • Задача: Решается проблема порождения ранжирующих функций в задачах информационного поиска. Ранжирующая функция ищется в виде суперпозиции некоторых заданных порождающих функций. Предлагается генетический алгоритм порождения структурно-простых суперпозиций, который затем сравнивается с алгоритмом полного перебора. Функционалами качества при этом являются MAP и P@10. Оптимальность полученных функций предлагается исследовать с помощью метрик на моделях и данных. Ссылка на подробную постановку задачи.
  • Данные: Выборка состоит из нескольких коллекций документов. Каждой коллекции экспертом приписано множество запросов и для некоторых из ее документов заданы оценки релевантности данным запросам. Ссылка на данные и ссылка на запросы и экcпертные оценки.
  • Литература:

Постановка задачи для переборного алгоритма.

Постановка задачи для генетического алгоритма на моделях любой сложности.

Алгоритм порождения суперпозиций.

  • Базовой алгоритм: В данный момент используется генетический алгоритм MVR порождения моделей с простым удалением всех моделей, имеющих избыточную сложность.
  • Решение: Предлагается использовать более гибкие способы контроля сложности порождаемых моделей путем варьирования функционала качества моделей. Кроме этого, предлагается подключить метрику на моделях для улучшения сходимости и выбивания из локальных минимумов. Возможно, потребуется добавить некоторые эвристики в MVR для ускорения сходимости.
  • Новизна: На данный момент известно два наиболее продуктивных подхода к поиску ранжирующей функции: переборный и генетический алгоритм. Переборный алгоритм [Goswami et al., 2014] находит структурно-простую ранжирующую функцию и гарантирует ее оптимальность в небольшом множестве функций (на данный момент просмотрены функции структурной сложности не более 8). Генетический алгоритм [Fan et. al., 2004] работает заметно быстрее, но находимые им функции неинтерпретируемы и заметно переусложнены. В настоящей работе предлагается использовать регуляризатор для контроля структурной сложности модели и метрику для ускорения сходимости. Цель: ускорить алгоритм в работе [Goswami et al., 2014], получить те же результаты на структурно простых моделях, показать их устойчивость относительно начального приближения и исследовать структурно более сложные функции.


2. Формирование однородных обучающих выборок в задачах классификации

  • Задача:
    Дано: две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
    Найти: вычислительно эффективный способ очистки второй выборки от выбросов.
    Критерий: возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.
  • Данные: Выборки электрокардиограмм с диагнозами по 11 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.
  • Литература:
    1. Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
    2. Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
    3. Chandola V. [at al.] Outlier detection: A Survey // ACM Computing Surveys. – July 2009. – V. 41(3), N 15.
    4. Singh K. [at al.] Outlier Detection: Applications And Techniques // International Journal of Computer Science Issues. – January 2012. – V. 9(1), N 3
  • Базовый алгоритм: Пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога. Ссылка.
  • Решение: Для пополнения первой выборки объектами второй выборки предлагается метод сближения ROC-кривых — жадный алгоритм, исключающий объекты второй выборки так, чтобы минимизировать расстояние между ROC-кривой обучающей подвыборки первой выборки и ROC-кривой второй выборки. Также предлагается рассмотреть различные модификации данного метода.
  • Новизна: Задача пополнения обучающей выборки ранее не рассматривалась. Есть похожие стандартные задачи: фильтрация шумов, частичное обучение. Но задача пополнения отличается от них тем, что возникает трудность: формирование пополненной обучающей выборки с помощью классификатора, обученного по первой выборке, может закрепить эффект переобучения.

3. Применение Deep Learning в задаче информационного анализа ЭКГ-сигналов

  • Задача: Решается задача диагностики заболеваний внутренних органов человека по его электрокардиограмме. Задача состоит из двух последовательных этапов: обработки исходных сигналов, включающей в себя построение признакового описания кардиограмм, и их классификации по полученным векторам признаков. В роли функционалов качества в данной задаче выступают AUC, FPR и FNR.
  • Данные: Выборка представляет собой множество электрокардиограмм с диагнозами по 14 заболеваниям. Каждая кардиограмма задается вектором, элементами которого являются пары интервал-амплитуда.
  • Литература:
    • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
    • Uspenskiy V.M., Vorontsov K. V., Tselykh V. R., Bunakov V.A. Information Function of the Heart: Discrete and Fuzzy Encoding of the ECG-Signal for Multidisease Diagnostic System. In: Advanced Mathematical and Computational Tools in Metrology – AMCTM 2014
    • Bengio Y., Courville A., Vincent P. Representation Learning: A Review and New Perspectives. In: IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.35, no. 8, pp. 1798-1828, 2013
    • Geoffrey E. Hinton. A Practical Guide to Training Restricted Boltzmann Machines. In: Neural Networks: Tricks of the Trade, рp. 599-619, 2012
  • Базовой алгоритм: Ручное выделение признаков с последующим применением наивного байесовского классификатора.
  • Решение: Предлагается использовать Deep Learning для выделения признаков из исходных электрокардиограмм. В качестве базовых алгоритмов рассматриваются автоэнкодеры, ограниченные машины больцмана и сверточные нейронные сети. Для решения поставленной задачи используется суперпозиция данных алгоритмов. Для улучшения качества обучения предлагается ряд эвристик.
  • Новизна: В настоящий момент применяется ручное выделение признаков, базирующееся на найденных экспертом закономерностях. Данный метод использует лишь часть информации, содержащейся в электрокардиограммах. Также он замедляет создание признаков для новых, еще не рассмотренных ранее болезней. В данной работе предлагается использовать Deep Learning для автоматической генерации признаков. Также данный метод использует большее количество входных данных, что позволяет более полно использовать содержащуюся в кардиограммах информацию.

4. Применение коллаборативный фильтрации и активного обучения в задаче выделения селекторов

  • Задача:

Дано: Результат A/B-тестирования каждого пользователя

Найти: Множество селекторов минимальной мощности, при котором результат голосования принадлежит доверительному интервалу

Критерий: Фактор мощности множества селекторов

  • Данные: Результат A/B-тестирования и навигационная корреляция
  • Литература:
    1. Benjamin Marlin, Collaborative filtering: a machine learning perspective. // Thesis for the degree of Master of Science Graduate Department of Computer Science University of Toronto
    2. Subhagata Chattopadhyay, Similarity based clustering // Computing and Informatics, Vol. 30, 2011, 701–720
    3. Ilham Esslimani, Armelle Brun, Anne Boyer. A collaborative filtering approach combining clustering and navigational based correlation // Universite ́ Nancy2, LORIA, 2008
  • Базовой алгоритм: Косинус угла между векторами объектов / пользователей. FLAME-кластеризация.
  • Решение: Сначала определяются параметры суперпозиции, экспертно заданных признаков близости пользователей. Далее пользователи разбиваются на кластеры при помощи FLAME кластеризации.

Проверяется попадание результата голосования селекторов в доверительный интервал "правильного" ответа.

  • Новизна: Прямое сравнение вкусов пользователей, а не косвенное через похожесть объектов. Сравнение происходит в общей метрике, а не уникальной системе каждого пользователя. Используется навигационная корреляция и активное обучение. Благодаря всему перечисленному, сравнение вкусов пользователей имеет наибольшую, по сравнению с предыдущими работами, точность.

5. Монотонные классификаторы для задач медицинской диагностики

  • Задача: На необработанной обучающей выборке есть множество объектов (класса больных и здоровых), которые участвуют в образовании нарушающих пар. Различные типы монотонизации соответствуют сдвигу разделяющей поверхности в сторону одного из классов. Фиксировав величину чувствительности (специфичности), построить монотонный классификатор, удовлетворяющий заданному условию.
  • Данные: выборки электрокардиограмм (в векторном представлении) с диагнозами по 14 заболеваниям.
  • Литература:
    1. Воронцов К.В., Махина Г.А. Принцип максимизации зазора для монотонного классификатора ближайшего соседа. Москва, 2014.
    2. Махина Г.А. О восстановлении монотонных булевых функций методом ближайшего соседа. ИОИ-9. 2012.

Базовый алгоритм: монотонный классификатор ближайшего соседа с предварительным отбором признаков.

6. Обнаружение взаимосвязанности временных рядов

  • Задача: Разработать метод выявления связей между временными рядами. Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
  • Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
  • Литература:

Описание алгоритма ССМ

    • G. Sugihara, R.M. May. Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series
    • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012)

Рассмотрение различных алгоритмов для обнаружения связаности рядов

    • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
  • Решение: Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства.
  • Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей


7. EVERGREEN: Spatial join-oriented data structure

  • Задача: Given a dataset with objects from 3D space that belong to two classes. Find a list of pairs of objects, where each pair contains objects from both classes and the distance between objects in one pair is less then epsilon.
  • Данные: Generated dataset with different sizes, shapes and distances of objects and a dataset from BlueGene project of spatial destination of axons and dendrites of mouse's brain.
  • Литература:
    1. Sadegh Nobari, Panagiotis Karras et al., TOUCH: In-Memory Spatial Join by Hierarchical Data-Oriented Partitioning, ACM SIGMOD’13 – main article, the description of base algorithm for parallelization
    2. Thoinus Brinkhoff et al., Efficient Processing of Spatial Joins Using R-trees, SIGMOD’93 – some basic principles of R-trees
    3. Ibrahim Kamel, Parallel R-trees, SIGMOD’92 – the implementation of parallel R-trees
    4. Scott T. Leutenegger, STR: A SIMPLE AND EFFICIENT ALGORITHM FOR R-TREE PACKING, ICASE report 97-14 – description of R-tree boosting, fast creating of tree from known set of data (building from the bottom)
    5. CUDA C BEST PRACTICES GUIDE – manual for GPU API
  • Базовый алгоритм: EVERGREEN dTree, reTree, cTree.
  • Решение New algorithm for spatial join was developed with 3 different modifications. Each of them outperforms all others best solutions for mentioned problem.
  • Новизна The problem is well developed for disk-based approached. We develop state-of-the-art in-memory approach that is based of the assumption that whole built data structure can be placed in fast RAM memory.


8. Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов

  • Задача: Гипотеза – на данный момент выбор блоков суперпозиции осуществляется вручную и не меняется с течением времени. Либо существующие решения – коммерческие, и не подлежат разглашению академическому сообществу и публикации в открытом доступе. Необходимо разработать механизм создания оптимальной структуры сети глубокого обучения - автоматического выбора количества и типов блоков, их начальных параметров, автоматизированного дообучения всей суперпозиции (подстройки параметров отдельных, их добавление/удаление) на основе функционалов качества отдельных элементов и сети в целом. (постановка в виде задачи оптимизации (в формате argmin) будет выполнена позднее)
  • Данные: Показания акселерометра, трехмерные временные ряды. Выборка: WISDM.
  • Литература: Вся подборка научных работ по теме - в папке на OneDrive.
  • Базовой алгоритм: --- (будет определен позднее)
  • Решение: Создание признакового описания самой сети глубокого обучения. На основе признакового описания предлагается принять решение относительно изменения структуры суперпозиции, структуры отдельных блоков (в частности, числа параметров), а также решить задачу оптимизации значений параметров.
  • Новизна: ---


9. Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации.

  • Задача: Улучшить качество бинарной классификации наивного байесовского классификатора с сохранением свойств отбора признаков и низкого переобучения. Сравнить результат с классификацией с помощью логистической регрессии и др.
  • Данные: Данные ЭКГ.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Наивный байесовский классификатор, логистическая регрессия.
  • Решение: Предлагается добавление регуляризации к функции правдоподобия и решение задачи оптимизации параметров классификатора.
  • Новизна: ---.


10. Отбор тем в задачах тематического моделирования

  • Задача: Разработать и обосновать метод отбора тем в тематической модели, который будет применим для различных коллекций документов и различных типов моделей (например, иерархических). Рассматриваются вероятностные тематические модели с регуляризаторами (ARTM). Также требуется сравнить предложенный метод с существующими альтернативами.
  • Данные: В качестве коллекций документов используются сборники статей конференций NIPS, MMRO и IOI, а также сгенерированные реалистичные модельные данные.
  • Литература:
    • Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. T. 455, №3.
    • Воронцов К. В. Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
    • Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization. // Analysis of Images, Social Networks, and Texts — CCIS 436, Springer.
    • Y. W. Teh, M. I. Jordan, M. J. Beal, D. M. Blei Hierarchical Dirichlet Processes // Journal of The American Statistical Association – 2006.
    • Hossein Soleimani and David J. Miller Parsimonious Topic Models with Salient Word Discovery.
  • Базовой алгоритм: Альтернативные подходы: Hierarchical Dirichlet Processes и Parsimonious Topic Models. В рамках ARTM, на котором основывается предлагаемый метод, устоявшегося решения для отбора тем нет.
  • Решение: Предлагается использовать регуляризатор строкового разреживания в качестве основы метода удаления излишних тем. Требуется также решить вопросы применимости к различным коллекциям и выбора траекторий регуляризации.
  • Новизна: Существующие методы отбора и добавления тем недостаточно общие, имеют сложности в интерпретации и показывают неустойчивые результаты. Выбор параметров алгоритма в них обычно не обосновывается или обосновыватся недостаточно. Предлагаемый подход на основе регуляризаторов ARTM, как ожидается, не будет иметь этих проблем.


11. Tensor-train decomposition for latent-variable PCFG parsing

  • Задача: Probabilistic context-free grammars (PCFGs) provide a model for the structure of language and are widely-applied in natural language processing systems. However PCFG's main weakness prevents the model to capture important linguistic regularities. An extension of PCFG has been introduced by Matsuzaki et al to address this issue by using latent annotations. The prediction problem is to assign to a given sentence a parse tree. Unfortunately, with latent-variable PCFG the problem is NP-hard. It has been shown that allowing approximate parsing results in better time perfomance with dependency on the rank of the tensor decomposition.
  • Данные: For training and test data we will use Ontonotes 5.0, which is available at no charge from Linguistic Data Consortium. The data consists of various genre texts with structural information.
    • Marcus, Mitchell P., Mary Ann Marcinkiewicz, and Beatrice Santorini. "Building a large annotated corpus of English: The Penn Treebank." Computational linguistics 19.2 (1993): 313-330.
    • OntoNotes 5.0
  • Литература:
    • Oseledets, Ivan V. "Tensor-train decomposition." SIAM Journal on Scientific Computing 33.5 (2011): 2295-2317.
    • Cohen, Shay B., Giorgio Satta, and Michael Collins. "Approximate PCFG Parsing Using Tensor Decomposition." HLT-NAACL. 2013.
    • Collins, Michael, and Shay B. Cohen. "Tensor decomposition for fast parsing with latent-variable PCFGs." Advances in Neural Information Processing Systems. 2012.
    • Matsuzaki, Takuya, Yusuke Miyao, and Jun'ichi Tsujii. "Probabilistic CFG with latent annotations." Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005.
    • Petrov, Slav, et al. "Learning accurate, compact, and interpretable tree annotation." Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006.
  • Базовой алгоритм: Inside-outside algorithm with tensor-train decomposition
  • Решение: The proposed solution is to use TT-decomposition in inside-outside algorithm for latent-variable PCFG parsing, which is presumably faster than canonical polyadic decomposition used by Cohen et al. The criteria are F1-score for parsing quality and speed (seconds per sentence) for comparing TT and CP decomposition use.
  • Новизна: Faster modification of inside-outside algorithm for parsing with latent-variable PCFG.


12. Мультимодальная тематическая модель социальной сети

  • Задача: Проверяется гипотеза, что мультимодальная модель выделяет темы точнее, чем модель LDA; задача - выделить темы, имеющие отношение к обсуждениям вопросов этничности, определить географические и временные закономерности в таких обсуждениях
  • Данные: коллекция документов Живого Журнала
  • Литература:
    • Воронцов К.В., Потапенко А.А. Аддитивная регуляризация тематических моделей // 2014
    • Qiaozhu Mei, Deng Cai, Duo Zhang, ChengXiang Zhai Topic Modeling with Network Regularization // WWW '08 Proceedings of the 17th international conference on World Wide Web Pages 101-110
  • Базовый алгоритм: BigARTM
  • Решение: (позже)
  • Новизна: модель LDA недостаточно точна; рассмотрение модели ARTM с дополнительными регуляризаторами должно это исправить.


13. Классификация временных рядов в пространстве параметров модели порождения их сегментов

  • Задача: Построить классификатор временных рядов, использующий в качестве описаний объектов параметры модели порождения сегментов временных рядов.

http://www.cis.fordham.edu/wisdm/dataset.php, http://www.physionet.org/physiobank/database/mitdb/

  • Литература:
    • PHILIPPE ESLING, CARLOS AGON. Time-Series Data Mining, 2012. pdf
    • Konstantinos Kalpakis, Dhiral Gada, and Vasundhara Puttagunta. Distance Measures for Effective Clustering of ARIMA Time-Series, 2001. pdf
    • M. Sinn, K. Keller, B. Chen. Segmentation and classification of time series using ordinal pattern distributions, 2013. link
    • Fabian Morchen. Time series feature extraction for data mining using DWT and DFT, 2003. pdf
  • Базовый алгоритм: DFT/DWT/ARIMA, SVM.
  • Решение: Выделение из временного ряда сегментов, оценка параметров модели их порождения, классификация в пространстве параметров модели.
  • Новизна: Описанный подход позволяет без предварительной обработки классифицировать периодические временные ряды, учитывая встречающиеся в них нерегулярности. Метод восстановления распределения параметров модели порождения сегментов временных рядов ранее не рассматривался.

14. Использование контекстной документной кластеризации для улучшения качества построения тематических моделей

  • Задача:
    Дано: вероятностная тематическая модель, построенная по технологии ARTM.
    Найти: способ применить контекстную документную кластеризацию (CDC) для улучшения качества тематической модели (лучшей интерпретируемости тем)
    Критерии качества: перплексия, когерентность, разреженность, ядерные метрики
  • Данные: Различные коллекции текстовых документов: от небольших (NIPS ~ 1500 документов, KOS ~ 3500 документов) и до огромных (Pubmed ~ 8.2 миллиона документов)
  • Литература:
    1. Dobrynin, V.; Patterson, D. W. & Rooney, N. Contextual Document Clustering. Advances in Information Retrieval, 26th European Conference on IR Research, ECIR 2004, Sunderland, UK, April 5-7, 2004, Proceedings, 2004, 167-180
    2. Jason Chuang, Sonal Gupta, Christopher D. Manning & Jeffrey Heer. Topic Model Diagnostics: Assessing Domain Relevance via Topical Alignment, 2013
    3. Niall Rooney, David Patterson, Mykola Galushka, Vladimir Dobrynin, and Elena Smirnova. An investigation into the stability of contextual document clustering. JASIST 59(2):256-266 (2008)
    4. Niall Rooney, Hui Wang 0001, Fiona Browne, Fergal Monaghan, Jann Müller, Alan Sergeant, Zhiwei Lin, Philip S. Taylor, and Vladimir Dobrynin. An Exploration into the Use of Contextual Document Clustering for Cluster Sentiment Analysis. RANLP, page 140-145. RANLP 2011 Organising Committee, (2011)
  • Базовый алгоритм: Аддитивная регуляризация тематических моделей (ARTM), алгоритм контекстной документной кластеризации (CDC).
  • Решение: При помощи контекстной документной кластеризации мы сможем лучше выделить тематическое окружение слова или документа, т.к. у нас будет информация об их ближайшем окружении.
  • Новизна: Решение данной задачи поможет приблизиться к отказу от формата "мешка слов", которым пользуются все современные библиотеки тематического моделирования. Вследствии этого вероятностные тематические модели будут лучше соответствовать действительности. Объединение кластеризации на множестве документов и тематического моделирования - новаторский подход, который может избавить вероятностную тематическую модель от некоторых её недостатков.

Примечания

Личные инструменты