Участник:AntonVoronov
Материал из MachineLearning.
Содержание |
2019
Задача 1
- Название: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
- Задача: Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
- Данные:
- Финансовые данные: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
- Текстовые данные: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
- Литература:
- Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
- Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
- Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
- Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
- Базовый алгоритм: Метод, использованный в статье (4).
- Решение: Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: В.В. Стрижов (эксперт), К.В. Воронцов (эксперт), Иван Запутляев (консультант)
Задача 2
- Название: Исследование опорных объектов в задаче метрической классификации временных рядов.
- Задача: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов.
Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше. Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центриода, и использовать его в модифицированной функции расстояния weighted-DTW.
- Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
- Литература:
- Базовый алгоритм: Реализовать базовые методы:
- Выбор подмножества объектов обучающей выборки как опорных
- Предварительная обработка аномальных объектов
- Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
- Использование метода DBA для построения опорных объектов
- Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
- Решение: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.
Исследование литературы и комбинация up-to-date методов.
- Новизна: Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
- Авторы: Алексей Гончаров.
Задача 3
- Название: Динамическое выравнивание многомерных временных рядов.
- Задача: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
- Данные: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
- Литература:
- Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
- Базовый алгоритм: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
- Решение: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
- Новизна: Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
- Авторы: Алексей Гончаров.
Задача 4
- Название: Автоматическая настройка параметров АРТМ под широкий класс задач.
- Задача: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что задача настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
- Данные: Несколько наборов текстовых коллекций, для которых известно оптимальное решение.
- Литература:
- ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
- Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
- Черновик с формулами: (файл будет позже)
- Базовый алгоритм: PLSA / LDA / логрегрессия.
- Решение: bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
- Новизна: Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
- Авторы: Виктор Булатов.
Задача 5
- Название: Нахождение парафразов.
- Задача: Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Задача детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.
Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".
- . Данные: Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
- Литература:
- Будет позже
- Базовый алгоритм: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
- Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
- Новизна: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
- Авторы: Артём Попов.
Задача 6
- Название: Исследование конформационных изменениий белков с использованием коллективных движений в пространстве углов кручения и регуляризации L1.
- Задача: Торсионные углы являются наиболее естественными степенями свободы для описания движений полимеров, таких как белки. Это связано с тем, что длины связей и углы связи сильно ограничены ковалентными силами. Таким образом, были предприняты многочисленные попытки описать динамику белка в пространстве углов кручения. Например, один из авторов разработал модель упругой сети (ENM) [1] в области крутильных углов, называемую Torsional Network Model (TNM) [2].
Функциональные конформационные изменения в белках можно описать в декартовом пространстве, используя только подмножество коллективных координат [3] или даже разреженное представление этих [4]. Последнее требует решения задачи оптимизации LASSO [5]. Целью текущего проекта является изучение того, может ли разреженное подмножество коллективных координат в крутильном подпространстве описывать функциональные конформационные изменения в белках. Это потребует решения проблемы регрессии хребта с ограничением регуляризации L1. Отправной точкой будет рецептура LASSO. (This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.)
- . Данные: Экспериментальные конформации будут извлечены из Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) и нескольких других.
Модель TNM можно загрузить с https://ub.cbm.uam.es/tnm/tnm_soft_main.php
- Литература:
- Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
- Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
- SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
- Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
- https://en.wikipedia.org/wiki/Lasso_(statistics)
- E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
- Базовый алгоритм: Отправной точкой будет комбинация методов из ссылок 2 и 4. Она должна быть формулировкой LASSO с векторами направления, восстановленными из внутренних координат. Качество будет вычисляться на основе измерения RMSD между прогнозом и решением на нескольких тестах. Результаты будут представлены статистическими графиками (см. Примеры в ссылках 3-4.)
- Решение: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
- Новизна: Это важный и открытый вопрос в вычислительной структурной биоинформатике - как эффективно представлять переходы между белковыми структурами. В подпространстве крутильных углов (внутренних координатах) [6] сделано не так много, и почти ничего не было сделано с использованием L1-регуляризации [4].
- Авторы: Сергей Грудинин, Ugo Bastolla.