Участник:Strijov/Черновики
Материал из MachineLearning.
(→Задача 12) |
(→Задача 13) |
||
Строка 145: | Строка 145: | ||
=== Задача 13 === | === Задача 13 === | ||
- | * 'Название''': Deep learning for RNA secondary structure prediction | + | * '''Название''': Deep learning for RNA secondary structure prediction |
* '''Задача''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model. | * '''Задача''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model. | ||
* '''Данные''': RNA sequences in form of strings of characters | * '''Данные''': RNA sequences in form of strings of characters |
Версия 07:31, 15 февраля 2018
Содержание |
Задача 1
- Название: Аппроксимация границ радужки глаза
- Задача: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
- Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[1], [2].
- Литература:
- Адуенко А.А. Выбор мультимоделей в задачах классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [3]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
- Базовый алгоритм: Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
- Решение: См. Iris_circle_problem.pdf
- Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
- Консультант: Александр Адуенко (автор Стрижов В.В., эксперт Матвеев И.А.)
Задача 2
- Название: Оценка оптимального объема выборки
- Задача: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
- Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
- Литература:
- Базовый алгоритм: Алгоритмы оценки объема выборки при .
- Решение: Исследование свойств пространства параметров при пополнении выборки.
- Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
- Авторы: А.М. Катруца, В.В. Стрижов, эксперт А.П. Мотренко
Задача 3
- Название: Восстановление структуры прогностической модели по вероятностному представлению
- Задача: Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
- Данные: Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
- Литература:
- Работы Tommy Yakkola и других в LinkReview [6].
- Базовый алгоритм: Метод ветвей и границ, динамическое пограммирование при построении полносвязного графа.
- Решение: Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
- Новизна: Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
- Авторы: А.М. Катруца, В.В. Стрижов
Задача 4
- Название: Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
- Задача: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
- Данные: Шрифты в растровом представлении.
- Литература: Список работ [7], в частности arXiv:1611.03199 и
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Авторы: Л.М. Местецкий, И.А. Рейер, В.В. Стрижов
Задача 5
- Название: Порождение признаков с помощью локально-аппроксимирующих моделей
- Задача: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
- Данные:
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471-1483.[8]
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
- Базовый алгоритм: Описан в работе Кузнецова, Ивкина.
- Решение: Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные.
- Новизна: Создан стандарт построения локально-аппроксимирующих моделей.
- Авторы: С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов
Задача 6
- Название: Декодирование сигналов мозга и прогнозирование намерений
- Задача: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
- Данные: neurotycho.org [9]
- Литература:
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
- MLAlgorithms: Motrenko, Isachenko (submitted)
- Базовый алгоритм: Partial Least Squares[11]
- Решение: Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
- Новизна: Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной.
- Авторы: Р.В. Исаченко, В.В. Стрижов
Задача 7
- Название: Автоматическое определение релевантности параметров нейросети.
- Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров и удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
- Данные: Выборка рукописных цифр MNIST
- Базовый алгоритм: Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
- Литература:
- Авторы: О.Ю. Бахтеев, В.В. Стрижов
Задача 8
- Название: Предсказание графовой структуры нейросетевой модели.
- Задача: Рассматривается задача нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
- Данные: Выборки MNIST, CIFAR-10
- Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
- Литература:
- Авторы: О.Ю. Бахтеев. В.В. Стрижов
Задача 9
- Название: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
- Задача: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
- Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
- Литература: Our previous 3D CNN: [19] Invariance of CNNs (and references therein): [20], [21]
- Базовой алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [22]
- Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [23],
[24] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
- Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
- Авторы: эксперт : Sergei Grudinin, консультанты : Guillaume Pages, Vadim Strijov
Задача 10
- Название: Semi-supervised representation learning with attention
- Задача: обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
- Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) и PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
- Литература:
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198). 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726). 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).
- Базовый алгоритм: решение [3] или векторные представления, полученные с использованием seq2seq [].
- Решение: в задаче предлагается обучить векторные представления для фраз, используя механизм attention и метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований и сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной и feed-forward сети.
- Новизна: новый метод.
- Авторы: Рита Кузнецова, консультант
Задача 11
- Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
- Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
- Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
- Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
- Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Авторы: А.В. Гончаров, В.В. Стрижов.
Задача 12
- Название: Порождение признаков, инвариантных к изменению частоты временного ряда.
- Задача: Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима и при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) и получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, ..., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима и при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.
f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.
- Данные: Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ и акселерометрам.
- Литература: См выше про Акселерометры
- Базовой алгоритм: Преобразование Фурье.
- Решение: Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
- Новизна: Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как и кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках и во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x и y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации и предсказания временных рядов.
- Авторы: Р. Г. Нейчев, В.В. Стрижов.
Задача 13
- Название: Deep learning for RNA secondary structure prediction
- Задача: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
- Данные: RNA sequences in form of strings of characters
- Литература: https://arxiv.org/abs/1609.08144
- Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
- Решение: Deep learning recurrent encoder-decoder model with attention
- Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
- Авторы: консультант Мария Попова
Прежние задачи
Задача 1
- Название: Классификация видов деятельности человека по измерениям фитнес-браслетов.
- Задача: По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов, Р.Г. Нейчев
Задача 2
- Название: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
- Задача: В рамках решения задачи декодирования сигналов ECoG решается задача классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
- Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
- Литература:
- Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
- Базовой алгоритм: PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
- Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
- Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
- Авторы: В.В. Стрижов, консультант ??
Задача 5
- Название: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
- Задача: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
- Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Базовой алгоритм: [Карасиков 2016]
- Решение: См. описание задачи.
- Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
- Авторы: В.В. Стрижов
Задача 10
- Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
- Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
- Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
- Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
- Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Авторы: А.А. Адуенко, В.В. Стрижов.
Задача 11
- Название: Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов.
- Задача: Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
- Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
- Литература: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
- Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
- Решение: построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
- Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
- Авторы: А.М. Катруца, В.В. Стрижов.
Задача Стрижова и Кулунчакова +
- Название: Creation of delay-operators for multiscale forecasting by means of symbolic regression
- Задача: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
- Данные: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
- Литература: to be handed by V.V.Strijov
- Базовой алгоритм: to be handed by V.V.Strijov
- Решение: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
- Новизна: to be handed by V.V.Strijov
- Авторы: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov
Задача 21
- Название: Алгоритм прогнозирования структуры локально-оптимальных моделей
- Задача: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Задача состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- Литература:
- Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Консультант: Кулунчаков Андрей
Задача 13
- Название: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
- Задача: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
- Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- Литература: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[27]
- Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
- Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
- Новизна: Метод Белсли применяется для векторной авторегрессии.
- Консультант: Радослав Нейчев