Участник:Strijov/Drafts
Материал из MachineLearning.
Строка 512: | Строка 512: | ||
=2020= | =2020= | ||
- | * Story [[ | + | * Story [[Automation of scientific research in machine learning (practice, Strizhov V.V.)/ Group 674, spring 2019|2019 (674)]] — [[Automation of scientific research in machine learning (practice, Strizhov V.V.)/ Group 694, spring 2019|2019 (694)]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 574, spring 2018 | 2018]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 474, spring 2017 | 2017]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 374, spring 2016 | 2016]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 274, spring 2015 | 2015]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 174, spring 2014 | 2014]] — [[Numerical Methods for Case-Based Learning (practice, Strizhov V.V.)/Group 074, spring 2013 | 2013]] |
{|class="wikitable" | {|class="wikitable" |
Версия 21:26, 9 февраля 2023
2021
- Story 2020 (774, 794) — 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Author | Topic | Links | Consultant | Letters | Reviewer |
---|---|---|---|---|---|
Grebenkova Olga (example) | Variational optimization of deep learning models with model complexity control | LinkReview | Oleg Bakhteev | AILP+UXBR+HCV+TEDWSS | Shokorov Vyacheslav |
Pilkevich Anton | Existence conditions for hidden feedback loops in recommender systems | GitHub | Khritankov Anton | AILB*P-X+R-B-H1CVO*T-EM*H1WJSF | Gorpinich Maria |
Antonina Kurdyukova| | Determining the phase and disorder of human movement based on the signals of wearable devices | LinkReview | Georgy Kormakov | AILB*PXBRH1CVO*TEM*WJSF | Pilkevich Anton |
Yakovlev Konstantin | A differentiable search algorithm for model architecture with control over its complexity | LinkReview | Grebenkova Olga | AILB*PXBRH1CVO*TEM*WJSF | Pyrau Vitaly |
Gorpinich Maria | Trajectory Regularization of Deep Learning Model Parameters Optimization Based on Knowledge Distillation | LinkReview | Oleg Bakhteev | AILB*P+XBRC+VH1O*TEM*WJSF | Kulakov Yaroslav |
Alexandr Tolmachev | Analysis of the QPFS Feature Selection Method for Generalized Linear Models | LinkReview | Aduenko Alexander | AILB*PXB-R-H1CVO*TEM*WJSF | Antonina Kurdyukova |
Kulakov Yaroslav | BCI: Selection of consistent models for building a neural interface | LinkReview | Isachenko Roman | AILB*PXBRH1CVO*TEM*WJ0SF | Zverev Egor |
Pyrau Vitaly | Experimental comparison of several problems of operational planning of biochemical production. | LinkReview | Trenin Sergey Alekseevich | AILB*PXBRH1CVO*TEM*WJSF | Yakovlev Konstantin |
Bazhenov Andrey | Search for the boundaries of the iris by the method of circular projections | LinkReview | Matveev Ivan Alekseevich | AILB*PXB0RH1CVO*TEM*WJ0SF | |
Zverev Egor | Learning co-evolution information with natural language processing for protein folding problem | LinkReview | Sergei Grudinin, Ilya Igashov | AILB*PXBRH1CVO*TEM*WJSF | Alexandr Tolmachev |
Gorchakov Vyacheslav | Importance Sampling for Chance Constrained Optimization | LinkReview | Yuri Maksimov | AILB*PX0B0R0H1C0V0O*0T0E0M*0W0JS0F | Bazhenov Andrey |
Lindemann Nikita | Training with an expert for a sample with many domains | LinkReview | Andrey Grabovoi | AILPXBRH1C0V0O*TE0M*0W0J0SF0 |
Task 74
- Name: Existence conditions for hidden feedback loops in recommender systems
- Problem description: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних and тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
- Task: Понятно, что алгоритм не знает интересов пользователя and пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения and нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t and выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
- Data: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
- References:
- Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
- Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
- Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
- Basic algorithm: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
- Solution: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров and оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
- Novelty: Исследуемый эффект положительной обратной связи наблюдается в реальных and модельных системах and описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях Task ранее не ставилась and не решалась для рекомендательных систем. Для задачи регрессии решение известно.
- Authors: Expert, consultant - Anton Khritankov
Task 77
- Name: Определение фазы and разладки движения человека по сигналам носимых устройств
- Task: Исследуется широкий класс периодических движений человека или животного. Требуется найти начало and конец движения. Требуется понять, когда заканчивается один тип движения and начинается другой. Для этого решается Task сегментации временных рядов. Строится фазовая траектория одного движения and отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории and указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
- Data: Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх and вниз по лестнице and т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета UCI HAR
- References:
- A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476 1.(Сегментация временных рядов с периодическими действиями: решалась Task сегментации с использованием фазового пространства фиксированной размерности.) PDFURL
- A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14. ( Классификация человеческой активности с помощью сегментации временных рядов : исследовались классификаторы над получаемыми сегментами.) PDFURL
- Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты : исследовались методы сегментации с использованием анализа главных компонент and перехода в фазовое пространство.) Text Slides DOI
- Basic algorithm: Базовый алгоритм описан в 1 and 3 работах, код тут, код работы 3 у автора.
- Solution: Предлагается рассмотреть различные алгоритмы понижения размерности and сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
- Novelty: В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг and в течение полутора шагов это поняли) - вообще будет замечательно.
- Authors: consultants: Kormakov G.V., Tikhonov D.M., Expert Strizhov V.V.
Task 78
- Name: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
- Task: Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, Task минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов and потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях Task не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети and решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.
- Problem statement: найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) and численно показать эффективность применения семплирования в этой задаче.
- Data: Данные доступны в пакетах pypower and matpower в виде csv файлов.
- References: Основу предлагаемых алгоритмов составляют 3 статьи:
- Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
- A. Nemirovski. On safe tractable approximations of chance constraints [1]
- S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
- Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
- Basic algorithm: Список базовых алгоритмов представлен в этой лекции [2]
- Solution: в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) and с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная Task, имея равные длины выборки сравнить качество решения)
- Novelty: Task давно известна в коммьюнити and scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
- Authors: Expert – Yuri Maksimov, consultant – Yuri Maksimov and Alexander Lukashevich, student.
Task 79
- Name: Improving Bayesian Inference in Physics Informed Machine Learning
- Task: Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить and найти тот, который требует минимального размера выборки (эмпирическое сравнение).
- Data: Эксперимент предлагается провести на модельных and реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
- References:
- Art Owen. Quasi Monte Carlo Sampling. LINK
- Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [3]
- A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [4]
- Polson and Solokov. Deep Learning: A Bayesian Perspective [5]
- Кроме того: у авторов задачи есть черновик работы по этой теме
- Basic algorithm: Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [6]). Task построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область and область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:
E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [7]
- Solution: методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) and (Owen, Maximov, Chertkov, 2017) and их приложения к ML/DL для физических задач
- Novelty: в существенном снижении сложности выборки and явном использовании имеющихся and аналитических результатов and лернинга для решения физических задач, до этого ML подходы and аналитические решения шли по большей части параллельными курсами
- Authors: Expert Yuri Maksimov, consultant Yuri Maksimov and Alexander Lukashevich, student.
Task 81
- Name: NAS — Порождение and выбор архитектур нейронных сетей
- Task: Task выбора оптимальной архитектуры нейросети ставится как Task семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности and устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры and отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе Potanin-1
- Data: : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным and общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет and ноутбук для загрузки данных данные.
- References:
- Potanin - 1
- Potanin - 2. Еще одна работа, текст передается заинтересованному studentу, но без публикации.
- Стрижов завлаб Функция ошибки
- Informtica
- WANN
- DARTS
- Symbols
- NEAT
- Basic algorithm: Ближайшая по теме работа, and ее код реализации. Актуальный код от consultantа.
- Solution: Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать and улучшить. А именно, выделить два модуля: порождение and отклонение and сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
- Novelty: Нейронные сети отлично справляются с Taskми компьютерного зрения, обучения с подкреплением and обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей and свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому Task выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
- Authors: consultant Mark Potanin, Expert Strizhov V.V.
Task 82
- Name: Training with an Expert for a sample with many domains.
- Task: Рассматривается Task аппроксимации multi-domain выборки единой мультимоделью — смесью Expertов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная Task оптимизации на основе ЕМ-алгоритма.
- Data: В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
- References:
- Basic algorithm and Solution: Базовое решение представлено тут. В работе используется метод смеси Expertов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен по ссылке.
- Novelty: На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
- Authors: Grabovoi A.V., Strizhov V.V.
Task 17
- Name: BCI: Выбор согласованных моделей для построения нейроинтерфейса
- Task: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но and целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства and свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
- Data: Наборы данных сигналов мозга ECoG/EEG.
- Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ and движения руки) http://bnci-horizon-2020.eu/database/data-sets
- neyrotycho — наши старые данные.
- References::
- Яушев Ф.Ю., Исаченко Р.В., Strizhov V.V. Модели согласования скрытого пространства в задаче прогнозирования // Системы and средства информатики, 2021, 31(1). PDF
- Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. PDF
- Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [8]
- Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
- Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
- Базовый алгоритм: Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга and движение рук. СверхTask: довести до ума первую работу. Также код and работы тут.
- Solution: Рассматривается случай, когда исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность and устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная Task, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так and потоки.
- Novelty: Анализ прогноза and латентного пространства, получаемых парой гетерогенных моделей.
- Authors: consultant Roman Isachenko, Expert Strizhov V.V.
Task 69
- Name: Graph Neural Network in Reaction Yield prediction
- Task: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
- Data: Database of reaction from US patents [9]
- References::
- Basic algorithm: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
- Solution: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
- Novelty: A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
- Authors:: Nikitin Filipp, Isayev Olexandr, Strizhov V.V.
Task 84
- Name: Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний
- Task: Рассматривается Task оптимизации параметров модели глубокого обучения. Рассматривается случай, когда при оптимизации доступны ответы более сложной модели (модели-учителя). Классическим подходом к решению такой задачи является обучение с учетом ответов сложной модели (дистилляция знаний). Назначение гиперпараметров производится эмпирически на основе результатов работы модели на отложенной выборке. В данной работе предлагается рассмотреть модификацию подхода к дистилляции знаний, в котором гиперпараметрами выступает коэффициент значимости дистиллирующего слагаемого, а также его градиенты. Обе эти группы параметров позволяют скорректировать оптимизацию параметров модели. Для оптимизации гиперпараметров предлагается рассматривать задачу оптимизации как двухуровневую задачу оптимизации, где на первом уровне оптимизации решается Task оптимизации параметров модели, а на втором --- приближенно решается Task оптимизации гиперпараметров по значению функции потерь на отложенной выборке.
- Data: выборка изображений CIFAR-10
- References:
- Basic algorithm: оптимизация модели без дистилляции and со стандартным подходом к дистилляции
- Solution: Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
- Novelty: Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
- Authors: Oleg Bakhteev, Strizhov V.V.
Task 85
- Name: Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности
- Task: рассматривается Task выбора структуры модели глубокого обучения с заранее заданной сложностью. Требуется предложить метод поиска модели, позволяющий контролировать её сложность с небольшими вычислительными затратами.
- Data: MNIST, CIFAR
- References:
- Basic algorithm: DARTS
- Solution: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
- Novelty: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
- Authors: Oleg Bakhteev, Grebenkova O. S.
Task 86
- Name: Learning co-evolution information with natural language processing for protein folding problem
- Task: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
- Problem description:: request
- Authors: Sergei Grudinin, Maria Kadukova.
Task 87
- Name: Байесовский выбор структур обобщенно-линейных моделей
- Task: Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров and выявление зависимости между признаками and целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
- Novelty: Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав and проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории and списка априорных предположений.
- Data: Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
- References: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
- Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183. PDF
- Strizhov V.V. Функция ошибки в Taskх восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. PDF
- Зайцев А.А., Strizhov V.V., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. PDF
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
- Катруца А.М., Strizhov V.V. Проблема мультиколлинеарности при выборе признаков в регрессионных Taskх // Информационные технологии, 2015, 1 : 8-18. PDF
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. PDF
- Basic algorithm: Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
- Solution: Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров and структурных параметров. Сравнить различные априорные предположения.
- Novelty: Статистический анализ пространства структурных параметров and визуализация
- Authors: Alexander Aduenko — consultant, Strizhov V.V.
Task 88
- Name: Поиск границ радужки методом круговых проекций
- Task: Дано монохромное растровое изображение глаза, см. примеры. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
- Data: около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения and проверки создаваемого метода.
- Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- References: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
- Author: Matveev I.A.
Task 53
- Name: Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
- Task: Целью задачи является решение задачи оптимизации с функциями потерь классификации and регрессии в применении к биологическим данным.
- Data: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве and 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
- References::
- Basic algorithm: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная Task, с реализации которой можно начать.
- Solution: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
- Novelty: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации and регрессии видится нам очень естественной регуляризацией.
- Authors: Sergei Grudinin, Maria Kadukova.
Task 75
- Name: Выравнивание элементов изображений с помощью метрических моделей.
- Task: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем and шумовым классам.) Известно, что каждое изображение может быть and помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так and отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение and пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
- Data: Синтетические and реальные 1) картинки - лица and символы с трансформацией вращения and растяжения, 2) лица and автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
- References:
- опорная работы - выравнивание картинок с помощью 2D DTW,
- опорная работа - выравнивание картинок с помощью нейросетей,
- работы по выравниванию DTW в 2D,
- работы по параметрическому выравниванию.
- Basic algorithm: из работы 1.
- Solution: В прилагаемом файле pdf.
- Novelty: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
- Authors: Alexey Goncharov, Strizhov V.V.
Task 80
- Name: Обнаружение корреляций между активностью в социальных сетях and капитализацией компаний
- Task: в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании and успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента and активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании and предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети and тп). Данная Task часть большого проекта по анализу анализу рынков and влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
- Data: Task имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT and reddit (кроулинг and парсинг делается стандартными инструментами). У studentа, работающего над этой задачей, должны быть сильные инженерные навыки and желание заниматься как практикой машинного обучения, так and инженерными частями Taskми.
- References:
- Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [14]
- Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
- Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [15]
- Basic algorithm: Базовые алгоритмы это LSTM and Graph neural networks.
- Solution: Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
- Novelty: В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
- Authors: Expert Yuri Maksimov, consultant Yuri Maksimov, student.
Task 88b
- Name: Поиск зрачка на изображении глаза методом проекций яркости
- Task: Дано монохромное растровое изображение глаза, см. примеры. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.
- Data: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- References: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
- Author: Matveev I.A.
Task 88c
- Name: Поиск века на изображении как параболического контура методом проекций.
- Task: Дано монохромное растровое изображение глаза, см. примеры. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
- Data: около 200 тыс. изображений глаз. При некоторых (около 2500) Expertом-человеком размечено положение параболы, приближающей веко.
- Basic algorithm: Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) and в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, and считать что таким образом определена искомая парабола — веко.
- References: Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
- Author: Matveev I.A.
Task 62
- Name: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
- Task: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается Task построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков. - Data:
- Измерения активность мозга обезьян
- Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой and против часовой стрелки)
- References::
- Basic algorithm: L2 расстояние между парой измерений.
- Solution: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м and j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м and j-м измерениями (dtw внутри dtw).
Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i and j. - Novelty: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
- Authors: Expert - Strizhov V.V., consultants - Gleb Morgachev, Alexey Goncharov.
Task 58
- Name: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
- Task: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
- Data: а данными обращаться к consultantу (3GB).
References::
- [16] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [17] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [18] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [19] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
- Basic algorithm: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого and обратного Фурье преобразования.
- Solution: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях and экспертные знания.
- Novelty: Использование информации о физических ограничениях and экспертные знания при построении функции ошибки.
- Authors:: Experts Sergei Grudinin, Yuri Chushkin, Strizhov V.V., consultant Mark Potanin
Task 63
- Name: Иерархическое выравнивание временных последовательностей.
- Task: Рассматривается Task выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” and есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить and оперировать именно им.
Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них. - References:
- Обзорная презентация о DTW
- DTW-based kernel and rank-level fusion for 3D gait recognition using Kinect Multi-Dimensional Dynamic Time Warping for Gesture Recognition
- Time Series Similarity Measure via Siamese Convolutional Neural Network
- Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping
- Basic algorithm: классический DTW.
- Solution: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных and рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
При этом DTW вычисляется отдельно между нижними, между средними and между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания and точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы. - Novelty: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания and повысить скорость их работы.
- Authors: Strizhov V.V. - Expert, Gleb Morgachev, Alexey Goncharov - consultants.
Task 57
- Name:Аддитивная регуляризация and в Taskх привилегированного обучения при решении задачи прогнозирования состояния океана
- Task: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
- Data: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха and температура поверхности моря с разрешением от 10 минут до 1 часа.
- References:
- Basic algorithm: Использование простой нейросети.
- Solution:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя and ученика согласно привилегированному подходу.
- Novelty: Исследование пространства параметров учителя and ученика and их изменение. Возможно настроить отдельно модели учителя and ученика and проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
- Authors:: Strizhov V.V., Mark Potanin
Task 52
- Name: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
- Task: Целью данной работы является создание and исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (Task регрессии на узлах графа).
- Data: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
- References::
- Basic algorithm: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [24].
- Solution: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать and применять сферические фильтры независимо от топологии графа.
- Novelty: В общем случае графы являются нерегулярными структурами, а во многих Taskх обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
- Authors: Sergei Grudinin, Ilya Igashov.
Task 44+
- Name: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
- Task: Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
- Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
- Data: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
- References::
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
- Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.
- Solution: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
- Authors: consultant - Malinovsky G., Strizhov V.V. (Expert)
Task 12
- Name: Обучение машинного перевода без параллельных текстов.
- Task: Рассматривается Task построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная Task возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
- Data: Выборка статей из Wikipedia на двух языках.
- References::
- Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
- Solution: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
- Novelty: Предложен способ построения модели перевода с учетом графовых описаний предложений.
- Authors: Oleg Bakhteev, Strizhov V.V.,
Task 8
- Name: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
- Task: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
- Data: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- References::
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
- Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
- Solution: Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные. Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Novelty: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Authors: Expert - Strizhov V.V., consultants - Alexandra Galtseva, Danil Sayranov.
2020
- Story 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013
Author | Topic | Links | Consultant | Letters | Reviewer |
---|---|---|---|---|---|
Гребенькова Ольга | Вариационная оптимизация моделей глубокого обучения с контролем сложности модели | LinkReview | Oleg Bakhteev | AILP+UXBR+HCV+TEDWS | Шокоров Вячеслав |
Шокоров Вячеслав | Распознавание текста на основе скелетного представления толстых линий and сверточных сетей | LinkReview | Денис Ожерелков | AIL | Гребенькова Ольга |
Филатов Андрей | Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга | LinkReview | Валерий Маркин | AILPHUXBRCVTEDWS | Христолюбов Максим |
Исламов Рустем | Анализ свойств ансамбля локально аппроксимирующих моделей | LinkReview | Андрей Грабовой | AILPHUXBRCVTEDWS | Гунаев Руслан |
Жолобов Владимир | Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели. | LinkReview | Григорий Малиновский | AILPHUXBRCVTEWSF | Вайсер Кирилл |
Вайсер Кирилл | Аддитивная регуляризация and ее метапараметры при выборе структуры сетей глубокого обучения | LinkReview | Mark Potanin | AILP+HUX+BRCV+TEDWS | Жолобов Владимир |
Бишук Антон | Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. | LinkReview | Maria Kadukova | AILPHUXBRCVTEDH | Филиппова Анастасия
[Антон, не та ссылка] |
Филиппова Анастасия | Step detection for IMU navigation via deep learning | LinkReview | Тамаз Гадаев | AIL0PUXBRCVSF | Бишук Антон |
Савельев Николай | Распределенная оптимизация в условиях Поляка-Лоясиевича | LinkReview | А. Н. Безносиков | AILPHUXBRCVTEDWS | Харь Александра |
Харь Александра | Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам. | LinkReview | Gleb Morgachev, Alexey Goncharov | AILPHUXBRCVTEDCWS | Савельев Николай |
Христолюбов Максим | Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов) | LinkReview | Alexandra Galtseva, Danil Sayranov | AILPH | Филатов Андрей |
Мамонов Кирилл | Нелинейное ранжирование результатов разведочного информационного поиска. | LinkReview | Максим Еремеев | AILPHU+XBRC+V+TEDHWJSF | |
Павличенко Никита | Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах. | LinkReview | Sergei Grudinin, Ilya Igashov | AILPUXBRHCVTEDH | |
Содиков Махмуд, Скачков Даниель | Agnostic neural networks | Code | Радослав Нейчев | AILPHUXBRC+VTEDHWJSF | Кулагин Петр |
Гунаев Руслан | Graph Neural Network in Reaction Yield prediction | LinkReview | Филипп Никитин | AILPUXBRHCVTEDHWSF | Исламов Рустем |
Яушев Фарух | Исследование способов согласования моделей с помощью снижения размерности пространства | LinkReview | Roman Isachenko | AILPUXBRHCVTEDHWJS | Жолобов Владимир |
Task 51
- Name: Анализ свойств ансамбля локально аппроксимирующих моделей.
- Task: В данной работе рассматривается Task построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
- Требуется: построить алгоритм оптимизации параметров локальных моделей and параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
- Data:
- Синтетически сгенерированные данные.
- Данные прогнозирования потребления энергии. В качестве локальных моделей перелагается использовать модели: рабочий день, выходной день. (EnergyConsumption, Turk Electricity Consumption GermanSpotPrice).
- References::
- Обзор методов для оценки объема выборки
- лекции Воронцова по композициям
- лекции Воронцова по композициям
- Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
- Павлов К.В. Выбор многоуровневых моделей в Taskх классификации, 2012
- Базовый алгоритм: В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации and на следующей итерации производится оптимизация параметров шлюзовой функции.
- Authors: Грабовой А. В. (consultant), Strizhov V.V. (Expert)
Task 54
- Name: Поиск зрачка на изображении глаза методом проекций яркости.
- Task: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).
Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.
- Data: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
- Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- References:: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
- Authors: Matveev I.A.
Task 55
- Name: Поиск границ радужки методом круговых проекций
- Task: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
- Data: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
- Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
- References:: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
- Authors: Matveev I.A.
Task 56
- Name: Построение локальных and универсальных интерпретируемых скоринговых моделей
- Task: Построить простую and интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах and признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры and параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков and объектов.
- Data:
- Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
- Данные от Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data
- References::
- Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
- Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
- Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение and анализ данных. — 2011. — № 2. — С. 140-155
- S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
- Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования
- Basic algorithm: Итерационный взвешенный МНК (описан в (2))
- Solution: Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков and объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков and объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
- Novelty:
- Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
- Учет неравноценности объектов при отборе признаков
- Authors: Пугаева И. В. (consultant), Strizhov V.V. (Expert)
Task 59
- Name: Распределенная оптимизация в условиях Поляка-Лоясиевича
- Task: Ставится Task эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
- Solution: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
- Basic algorithm: предложенный метод сравнивается с градиентным спуском and ускоренным градиентным спуском
- References:
- Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
- Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
- Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
- Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf
- Novelty: сведение задачи распределенной оптимизации к задаче композитной оптимизации and ее решение в условиях Поляка-Лоясиевича
- Authors: Expert — А.В. Гасников, consultant — А.Н. Безносиков
- Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе Task будет плохо совместима с курсом.
Task 17
- Name: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
- Task: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая Task решалась с помощью выделения признаков из частотных характеристик сигналов.
- Data: Наборы данных сигналов мозга ECoG/EEG.
- References::
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
- Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
- Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
- Solution: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал and построить прогностическую модель на основе локального описания.
- Novelty: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
- Authors: Strizhov V.V., Roman Isachenko - Experts, consultants – Валерий Маркин, Алина Самохина
Task 9
- Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
- Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
- Data: Шрифты в растровом представлении.
- References:: Список работ [29], в частности arXiv:1611.03199 and
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации and аппроксимации скелетных графов бинарных изображений // Машинное обучение and анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
- Жукова К.В., Рейер И.А. Связность базового скелета and параметрический дескриптор формы // Машинное обучение and анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Solution: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Novelty: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Authors: Experts И.А. Рейер, Strizhov V.V., Mark Potanin, consultant Денис Ожерелков
Task 60
- Name: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
- Task: рассматривается Task оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью and небольшими вычислительными затратами.
- Data:MNIST, CIFAR
- References:
- [1] вариационный вывод для нейронных сетей https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks.pdf
- [2] гиперсети https://arxiv.org/abs/1609.09106
- [3] фабрики сетей https://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf
- Basic algorithm: случайный поиск
- Solution: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
- Novelty: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию and дообучение.
- Authors: Oleg Bakhteev, Strizhov V.V.
Task 61
- Name: Выбор модели глубокого обучения на основе триплетной связи модели and выборки
- Task: рассматривается Task one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
- Data:MNIST, синтетические данные
- References:
- [1] обучение предсказаний модели на парах <выборка, модель> https://www.ri.cmu.edu/pub_files/2016/10/yuxiongw_eccv16_learntolearn.pdf
- [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
- Basic algorithm: случайный поиск
- Solution: Предлагается рассматривать пространство параметров and моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
- Novelty: Новый метод one-shot обучения моделей
- Authors: Oleg Bakhteev, Strizhov V.V.
Task 64
- Name: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
- Task: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, and исследовать использование таких методов к пространственно-временным рядам.
При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации. - References:
- Solution: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти and собрать в одном месте доказательства того, что функция является ядром.
Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.) - Novelty: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) and его модификаций к пространственно-временным рядам.
- Authors: Strizhov V.V. - Expert, Gleb Morgachev, Alexey Goncharov - consultants.
Task 66
- Name: Agnostic neural networks
- Task: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
- Data: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
- References::
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [30]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [31]
- https://habr.com/ru/post/465369/
- https://weightagnostic.github.io/
- Basic algorithm: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
- Solution: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) and моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
- Novelty: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
- Authors: Expert Strizhov V.V., Радослав Нейчев - consultant
Task 13
- Name: Deep learning for RNA secondary structure prediction
- Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
- Data: RNA sequences in form of strings of characters
- References:: https://arxiv.org/abs/1609.08144
- Basic algorithm: https://www.ncbi.nlm.nih.gov/pubmed/16873527
- Solution: Deep learning recurrent encoder-decoder model with attention
- Novelty: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
- Authors: consultant Мария Попова, Александр Исаев (ждем от них отклика, без отклика Task снимается)
Task 65
- Name: Аппроксимация выборок малой размерности разнородными моделями
- Task: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
- Data: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
- References::
- Дипом Нейчева Информативные априорные предположения в задаче привилегированного обучения, презентация
- Работы Hinton Knowledge distilling, обращать внимание на функции ошибки
- Basic algorithm: описан в работе Нейчева
- Novelty: Исследование различных способов построения выборки
- Solution: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить and визуализировать функции правдоподобия
- Authors: consultants Mark Potanin, (попросить помощи у Андрея Грабового) Strizhov V.V.
Task 67
- Name: Отбор тем в тематических моделях для разведочного информационного поиска.
- Task: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность and полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
- Data: Текстовые коллекции сайтов habr.com and techcrunch.com. Размеченные выборки: запросы and релевантные им документы.
- References::
- Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
- Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
- Basic algorithm: тематическая модель с регуляризаторами and модальностями, описанная в статье (имеется исходный код).
- Novelty: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
- Solution: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности and определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, and их отбрасывание увеличивает точность and полноту поиска на несколько процентов.
- Authors: К.В.Воронцов, consultant Анастасия Янина.
Task 68
- Name: Метаобучение тематических моделей классификации.
- Task: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
- Data: Описание датасетов, Папка с датасетами.
- References::
- Basic algorithm: Тематические модели классификации для нескольких датасетов.
- Novelty: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
- Solution: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
- Authors: К.В.Воронцов, consultant Юлиан Сердюк.
Task 70
- Name: Исследование структуры целевого пространства при построении предсказательной модели
- Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
- Data: Гетерогенные Data: картинка - текст, картинка - речь and тд
- Basic algorithm: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
- Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.
Task 71
- Name: Исследование способов согласования моделей с помощью снижения размерности пространства
- Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
- Data: Синтетические данные с известной гипотезой порождения данных
- Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
- Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.
Task 72
- Name: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
- Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой and целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
- Data: Гетерогенные Data: картинка - текст, картинка - речь, текст - текст and тд
- Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
- Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.
Task 73
- Name: Нелинейное ранжирование результатов разведочного информационного поиска.
- Task: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
- Data: Часть Википедии and эталонный граф чтения, получаемый из категорий Википедии.
- References::
- Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
- Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
- James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
- Basic algorithm: описан в статье G.Koutrika.
- Novelty: Task мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
- Solution: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
- Authors: К.В.Воронцов, consultant Максим Еремеев.
2019
Author | Topic | Links | Consultant | Reviewer | |
---|---|---|---|---|---|
Северилов Павел | Task поиска символов в текстах | LinkReview | Мурат Апишев | ||
Григорьев Алексей | Распознавание текста на основе скелетного представления толстых линий and сверточных сетей | LinkReview | Илья Жариков | рецензия Вареник Наталия | |
Гришанов Алексей | Автоматическая настройка параметров BigARTM под широкий класс задач | LinkReview code, paperslides | Виктор Булатов | рецензия Герасименко Николай | |
Юсупов Игорь | Динамическое выравнивание многомерных временных рядов | LinkReview code paper slides video | Alexey Goncharov | ||
Вареник Наталия | Spherical CNN for QSAR prediction | LinkReview, code, paper, slides video | Мария Попова | рецензия Григорьев Алексей | |
Безносиков Александр | Z-learning of linearly-solvable Markov Decision Processes | LinkReview | Yury Maximov | ||
Панченко Святослав | Получение простой выборки на выходе слоя нейронной сети | LinkReview, | Гадаев Тамаз | ||
Веселова Евгения | Deep Learning for reliable detection of tandem repeats in 3D protein structures | Code link review paper slides video | Guillaume Pages, Sergei Grudinin | ||
Аминов Тимур | Предсказание качества для процедуры выбора признаков | LinkReview code paper | Roman Isachenko | ||
Маркин Валерий | Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга | LinkReview | Roman Isachenko | ||
Абдурахмон Садиев | Порождение признаков с помощью локально-аппроксимирующих моделей | LinkReview | Анастасия Мотренко | ||
Тагир Саттаров | Обучение машинного перевода без параллельных текстов. | LinkReview code paper, slides video | Oleg Bakhteev | ||
Герасименко Николай | Тематический поиск схожих дел в коллекции актов арбитражных судов. | LinkReview code paper slides video | Екатерина Артёмова | рецензияГришанов Алексей |
Task 40
- Name: Предсказание качества для процедуры выбора признаков.
- Task: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
- Data: Синтетические данные + простые выборки
- References::
- Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
- Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
- Базовый алгоритм: популярные методы выбора признаков.
- Solution: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
- Novelty: Предлагается конструктивно новый подход к решению задачи выбора моделей.
- Authors: Strizhov V.V., Tetiana Aksenova, consultant – Roman Isachenko
Task 42
- Name: Z-learning of linearly-solvable Markov Decision Processes
- Task: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
- Data: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
- References::
- E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
- Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
- Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
- Basic algorithm: Principal comparison should be made with Q learning described in [3]
- Solution: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
- Novelty: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
- Authors: Yury Maximov (consultant, expert), Michael Chertkov (expert)
Task 1
- Name: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
- Task: Построить and исследовать модель прогнозирования направления движения цены. Задано множество новостей S and множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, and временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
- Data:
- Финансовые Data: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена and объем.
- Текстовые Data: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
- References:
- Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
- Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
- Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
- Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
- Basic algorithm: Метод, использованный в статье (4).
- Solution: Использование тематического моделирования (ARTM) and локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
- Novelty: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
- Authors: Иван Запутляев (consultant), Strizhov V.V., К.В. Воронцов (Experts)
Task 3
- Name: Динамическое выравнивание многомерных временных рядов.
- Task: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
- Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
- References:
- Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
- Basic algorithm: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
- Solution: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
- Novelty: Нет полного обзора and исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
- Authors: Alexey Goncharov - consultant, Expert, Strizhov V.V. - Expert
Task 43
- Name: Получение простой выборки на выходе слоя нейронной сети
- Task: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки and её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
- Data: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
- References:: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
- Basic algorithm: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
- Solution: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков and выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим and реальным данным.
- Authors: Гадаев Т. Т. (consultant) Strizhov V.V., Грабовой А. В. (Experts)
Task 14
- Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
- Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
- Data: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
- References:: Our previous 3D CNN: [32] Invariance of CNNs (and references therein): [33], [34]
- Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [35]
- Solution: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [36], [37] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
- Novelty: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
- Authors: Expert Sergei Grudinin, consultants Guillaume Pages
Task 46
- Name: Task поиска символов в текстах
- Task: В простейшем случае эта Task сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой Expertной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной and качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer and т.п.).
- Data: Словарь символов , Размеченные художественные тексты
- References: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
- Basic algorithm: HMM, RNN
- Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
- Novelty: Предлагаемый подход к анализу текста используется Expertами в ручном режиме and не был автоматизирован
- Authors: М. Апишев (consultant), Д. Лемтюжникова
Task 47
- Name: Deep learning for RNA secondary structure prediction
- Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
- Data: RNA sequences in form of strings of characters
- References:: https://arxiv.org/abs/1609.08144
- Basic algorithm: https://www.ncbi.nlm.nih.gov/pubmed/16873527
- Solution: Deep learning recurrent encoder-decoder model with attention
- Novelty: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
- Authors: consultant Мария Попова Chapel-Hill
Task 4
- Name: Автоматическая настройка параметров АРТМ под широкий класс задач.
- Task: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что Task настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации and автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
- Data: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
- References:
- ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
- Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
- Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
- Basic algorithm: PLSA / LDA / логрегрессия.
- Solution: bigARTM с фоновыми темами and регуляризаторами сглаживания, разреживания and декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
- Novelty: Потребность в автоматизированной настройке параметров модели and отсутствие подобных реализаций в научном сообществе.
- Authors: consultant Виктор Булатов, Expert К.В.Воронцов.
Task 50
- Name: Тематический поиск схожих дел в коллекции актов арбитражных судов.
- Task: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
- Data: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
- References:
- Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
- Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
- Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
- Basic algorithm: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
- Solution: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем and стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
- Novelty: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
- Authors: consultant Екатерина Артёмова, Expert К.В.Воронцов.
Group 2
Author | Topic | Links | Consultant | Reviewer | |
---|---|---|---|---|---|
Вишнякова Нина | Optimal Approximation of Non-linear Power Flow Problem | LinkReview paper code presentation video | Yury Maximov | рецензент Логинов Роман | |
Кудрявцева Полина | Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса. | code | Roman Isachenko | Нечепуренко Иван | |
Логинов Роман | Мультимоделирование как универсальный способ описания выборки общего вида | code | Адуенко А. А. | Макаров Михаил review | |
Михаил Макаров | Определение местоположения по сигналам акселерометра | code | Анастасия Мотренко | Черепков Антон: review | |
Козинов Алексей | Task поиска символов в изображениях | LinkReview | М. Апишев,
Д. Лемтюжникова | Грачёва Анастасия (рецензия) | |
Бучнев Валентин | Раннее прогнозирование достаточного объема выборки для обобщенной линейной модели. | LinkReview | Грабовой А. В. | рецензент | |
Нечепуренко Иван | Мультимоделирование, привилегированное обучение | code, | Р. Г. Нейчев | Кудрявцева Полина | |
Грачева Анастасия | Оценка энергии связывания белка and маленьких молекул | code | Sergei Grudinin,
Maria Kadukova | рецензент | |
Черепков Антон | Привилегированное обучение в задаче аппроксимации границ радужки глаза | paper, slides, code, LinkReview | Р. Г. Нейчев | Лепехин Михаил | |
Лепехин Михаил | Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей | code | Андрей Кулунчаков | Вишнякова Нина, рецензия | |
Гридасов Илья | Автоматическое построение нейросети оптимальной сложности | LinkReview | О. Ю. Бахтеев, В. В. Стрижов | Бучнев Валентин | |
Теленков Дмитрий | Декодирование сигналов мозга and прогнозирование намерений | LinkReview | Андрей Задаянчук | рецензент |
Task 18
- Name: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
- Task: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
- Data: Наборы данных сигналов мозга ECoG/EEG.
- References::
- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
- Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
- Solution: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности and выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
- Novelty: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
- Authors: Strizhov V.V., Tetiana Aksenova, consultant – Roman Isachenko
Task 41
- Name: Optimal Approximation of Non-linear Power Flow Problem
- Task: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
- Data: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
- References::
- Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
- The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
- Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
- Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
- Basic algorithm: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
- Solution: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
- Novelty: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
- Authors: Yury Maximov (consultant and expert), Michael Chertkov (expert)
- Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic
Task 2
- Name: Исследование опорных объектов в задаче метрической классификации временных рядов.
- Task: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов and использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом and центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, and влияние таких совпадений на значение расстояния должна быть выше.
Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, and использовать его в модифицированной функции расстояния weighted-DTW.
- Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
- References:
- Basic algorithm: Реализовать базовые методы:
- Выбор подмножества объектов обучающей выборки как опорных
- Предварительная обработка аномальных объектов
- Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
- Использование метода DBA для построения опорных объектов
- Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
- Solution: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.
Исследование литературы and комбинация up-to-date методов.
- Novelty: Не проводилось комплексного исследования различных способов построения центроидов and опорных элементов вместе с выбором их оптимального числа.
- Authors: Alexey Goncharov - consultant, Expert, Strizhov V.V. - Expert
Task 7
- Name: Привилегированное обучение в задаче аппроксимации границ радужки глаза
- Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
- Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[38], [39].
- References::
- Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель Strizhov V.V.). Московский физико-технический институт, 2017. [40]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
- Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
- Solution: См. Iris_circle_problem.pdf
- Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
- consultant: Радослав Нейчев (автор Strizhov V.V., Expert Matveev I.A.)
Task 44
- Name: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
- Task: Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
- Data: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
- References::
- [Обзор методов для оценки объема выборки]
- http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
- Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
- Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.
- Solution: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
- Authors: Грабовой А. В. (consultant), Гадаев Т. Т Strizhov V.V. (Experts)
- Примечание: для определения простоты выборки предлагается новое определение сложности (Сергей Иванычев). Это отдельная работа, +1 Task 44a (? Катруца).
Task 15
- Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [41]
- Task: С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
- Data:
- Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
- References::
- Базовый алгоритм: [45] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
- Solution: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
- Novelty: В первую очередь, интерес представляет объединение задач классификации and регрессии. Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
- Авторы Sergei Grudinin, Maria Kadukova
Task 27
- Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
- Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Data:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- References::
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [46]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [47]
- Basic algorithm: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код and эксперимент.
- Solution: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Authors: consultant Андрей Кулунчаков (Inria Montbonnot), Expert В. В. Стрижов
Task 26
- Name: Определение местоположения по сигналам акселерометра
- Task: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (Task SLAM)
- Data: из работы [1], данные, собранные самостоятельно.
- References::
- Базовый алгоритм: из работы [1].
- Solution: Поиск априорной and дополнительной информации, которая позволяет повысить точность позиционирования.
- Novelty: Постановка задачи в терминах Projection to Latent Spaces
- Authors: consultant Анастасия Мотренко, Expert Илья Гарцеев, В. В. Стрижов
Task 45
- Name: Task поиска символов в изображениях
- Task: Данная Task в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении and определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным and т.п.
- Data: Словарь символов Сайты-музеи Image-net
- References:
- Basic algorithm: CNN
- Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска and классификации объектов. Определить применимость методов.
- Novelty: Предлагаемый подход к анализу изображений используется Expertами в ручном режиме and не был автоматизирован
- Authors: М. Апишев (consultant), Д. Лемтюжникова
Task 28
- Name: Мультимоделирование как универсальный способ описания выборки общего вида
- Task: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка and сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
- Data: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
- References:
- Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
- Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
- MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
- Адуенко А. А. «Выбор мультимоделей в Taskх классификации» кандидатская диссертация
- Motrenko, Anastasiya, Strizhov V.V., and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.
- Basic algorithm: Алгоритм построения адекватных мультимоделей из #4.
- Solution: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности and ее связи со статистической значимостью.
- Novelty: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности and статистической значимости для некоторых классов моделей.
- Authors: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)
Task 11
- Name: Автоматическое построение нейросети оптимальной сложности
- Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
- Data: Выборки Boston, MNIST, CIFAR-10
- References::
- Бахтеев О.Ю., Strizhov V.V. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика and телемеханика, 2018.
- Смердов А.Н., Бахтеев О.Ю., Strizhov V.V. Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза // Информатика and ее применения, 2018.
- [48] Вариационный вывод.
- [49] Релаксация на основе вариационного вывода.
- [50] DARTS.
- Basic algorithm: случайный поиск and алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
- РешениеПредлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
- Novelty: Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели and позволяющий находить наиболее устойчивые модели.
- Authors: Oleg Bakhteev, Strizhov V.V.
Task 48
- Name: Мультимоделирование, привилегированное обучение
- Task: Рассматривается Task обучения одной модели с помощью другой
- Data: Выборки временных рядов
- References::
- Basic algorithm: Смесь Expertов, привилегоированное обучение, дистилляция
- Решение Выполнить эксперимент, иллюстрирующий эти подходы
- Novelty: Предложен метод прогнозирования, использующий апроорную информацию о принадлежности выборки модели (опубликовать полученные результаты).
- Authors: Р.Г. Нейчев (consultant), Strizhov V.V.
Task 49
- Name: Декодирование сигналов мозга and прогнозирование намерений
- Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
- Data: neurotycho.org [9] (или пальцы)
- References:
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
- Basic algorithm: Partial Least Squares[11]
- Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
- Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
- Authors: Андрей Задаянчук, Strizhov V.V.
2018
Autumn 2018
Number | Project name | materials | Team | |
---|---|---|---|---|
0 | (пример) Метрическая классификация временных рядов | code, | Alexey Goncharov*, Максим Савинов | |
1 | Прогнозирование направления движения цены биржевых инструментов по новостному потоку0 | Code, | Александр Борисов,
Дробин Максим, Говоров Иван, Мухитдинова София, Валентин Родионов, Валентин Ахияров | |
2 | Построение опорных объектов для множества многомерных временных рядов | Code | Исхаков Ришат, | |
3 | Динамическое выравнивание многомерных временных рядов | Code | Gleb Morgachev, | |
4 | Автоматическая настройка параметров АРТМ под широкий класс задач | Code, | Голубева Татьяна,
Иванова Екатерина, Матвеева Светлана, Трусов Антон, Царицын Михаил, Черноног Вячеслав | |
5 | Нахождение парафразов | Code, | Stas Okrug, Nikita Mokrov
Fedor Kitashov, Polina Proskura, Natalia Basimova, Roman Krasnikov, Akhmedkhan Shabanov | |
6 | On conformational changes of proteins using collective motions in torsion angle space and L1 regularization | Code, | Ryabinina Raisa, Emtsev Daniil | |
7 | Privileged training in the problem of approximating the borders of the iris | Code, | Pavel Fedosov, Alexey Gladkov, | |
8 | Порождение признаков с помощью локально-аппроксимирующих моделей | Code, | Ибрагим Курашов, Наиль Гильмутдинов, | |
9 | Распознавание текста на основе скелетного представления толстых линий and сверточных сетей | Code, LiteratureReview, Slides, report | Kutsevol Polina
Lukoyanov Artem Korobov Nikita Boyko Alexander Litovchenko Leonid Valukov Alexandr Badrutdinov Kamil Yakushevskiy Nikita Valyukov Nikolay Tushin Kirill
| |
10 | Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста | Code, LinkReview, Discussion, Presentation | Гайдученко Николай | |
11 | Автоматическое построение нейросети оптимальной сложности | Code, LinkReview, report, slides | Николай Горян
Александр Улитин Товкес Артем Таранов Сергей Губанов Сергей Криницкий Константин Забазнов Антон Валерий Маркин | |
12 | Обучение машинного перевода без параллельных текстов. | Code, | Александр Артеменков
Ангелина Ярошенко Андрей Строганов Егор Скиднов Анастасия Борисова Рябов Федор Мазуров Михаил | |
13 | Глубокое обучение для предсказания вторичной структуры РНК | Code | Дорохин Семён
Пастухов Сергей Пикунов Андрей Нестерова Ирина Курилович Анна chat | |
14 | Deep Learning for reliable detection of tandem repeats in 3D protein structures | Code | Веселова Евгения | |
15 | Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул | Code | Меркулова Анастасия | |
16 | Оценка оптимального объема выборки для исследований в медицине | Code | Артемий Харатян,
Михаил Михеев, Евгин Александр, Сеппар Александр, Коноплёв Максим, Мурлатов Станислав, Макаренко Степан | |
17 | Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга | Code, | Наталия Болоболова, | |
18 | Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса. | Code, | Иван Наседкин, Галия Латыпова, | |
19 | Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии. | Code, | Вячеслав Резяпкин, Алексей Русскин, | |
20 | Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста | Code | Агафонов Алексей, Рякин Илья,Литвиенко Владимир, | |
21 | Методы выпуклой оптимизации высокого порядка | Code, | Селиханович Даниил, | |
23 | Фрактальный анализ and синтез оптических изображений морского волнения | code, | Каныгин Юрий | |
24 | Максимизация энтропии при различных видах преобразований над изображением | code, | Никита Воскресенский,
Алиса Шабалина, Ярослав Мурзаев, Алексей Хохлов, Алексей Казаков, Ольга Грибова, Александр Белозерцев | |
25 | Автоматическое детектирование and распознавание объектов на изображениях | code,
code_A, Slides_for_demo, Report2018Project25_30 Report2018Project25_31 slides_30 slides_25_31 LinkReview | Юлия Демидова
Иван Разумов Владислав Томинин Ярослав Томинин Никита Дудоров Леонид Ерлыгин Прошутинский Дмитрий Баймаков Владимир Зубков Александр Черненкова Елена | |
26 | Определение местоположения по сигналам акселерометра | Code, | Эльвира Зайнулина | |
28 | Мультимоделирование как универсальный способ описания выборки общего вида | Code, | Владимир Качанов | |
29 | Cross-Language Document Extractive Summarization with Neural Sequence Model | Code, | Павел Захаров | |
31 | Pairwise energy matrix construction for inverse folding problem | Code, | Рубинштейн Александр | |
32 | Smooth orientation-dependent scoring function | Code | Носкова Елизавета |
Task 5
- Name: Нахождение парафразов.
- Task: Парафразы — разные вариации одного and того же текста, одинаковые по смыслу, но отличающиеся лексически and грамматически, например: "Куда поехала машина" and "В каком направлении поехал автомобиль". Task детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного and того же предложения.
Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".
- . Data: Есть открытые датасеты вопросов для тестирования and обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
- References:
- Будет позже
- Basic algorithm: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
- Solution: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
- Novelty: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
- Authors: Артём Попов.
Task 6
- Name: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
- Task: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
- . Data: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
- References:
- Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
- Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
- SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
- Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
- https://en.wikipedia.org/wiki/Lasso_(statistics)
- E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
- Basic algorithm: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
- Novelty: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
- Authors: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)
Task 10
- Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
- Task: Automatically Detect Text in Natural Images.
- Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
- References:: COCO benchmark, One of a state-of-the-art architecture
- Basic algorithm: code + морфологические методы, Avito 2014 winner’s solution.
- Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
- Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
- Authors: И. Н. Жариков.
- Expert: Л. М. Местецкий (морфологические методы).
Task 16
- Name: Оценка оптимального объема выборки для исследований в медицине
- Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
- Data: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
- References::
- Базовый алгоритм: Серия эмпирических алгоритмов оценки объема выборки.
- Solution: Исследование свойств пространства параметров при пополнении выборки.
- Novelty: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
- Authors: А.М. Катруца, Strizhov V.V., координатор Тамаз Гадаев
Task 19
- Name: Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.
- Task: Необходимо исследовать зависимость качества распознавания онтологических объектов на различных уровнях гипонимии понятий. Классическая постановка задачи распознавания именованных сущностей: https://en.wikipedia.org/wiki/Named-entity_recognition
- Data: Гипонимии из https://wordnet.princeton.edu/ , тексты разных доменов предположительно из WebOfScience.
- References: Релевантные статьи для классической постановки http://arxiv-sanity.com/search?q=named+entity+recognition
- Basic algorithm: В качестве алгоритма может использоваться https://arxiv.org/pdf/1709.09686.pdf или упрощенная его версия, исследования производятся с использованием библиотеки DeepPavlov.
- Solution: Необходимо собрать датасет гипонимии (вложенности понятий) объектов с использованием WordNet, произвести автоматическую разметку онтологических объектов текстов различных доменов для нескольких уровней обобщения понятий, провести ряд экспериментов для определения качества распознавания онтологических объектов для разных уровней вложенности.
- Novelty: Подобные исследования не производились, готовые датасеты с иерархической разметкой объектов отсутствуют. Распознавание онтологических объектов на различных уровнях гипонимии может быть использовано для производства дополнительных признаков при решении различных NLP (Natural language processing) задач, а также определения являются ли объекты парой гипоним-гипероним.
- Authors: Бурцев Михаил Сергеевич (Expert), Баймурзина Диляра Римовна (consultant).
Task 20
- Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
- Task: Задан фрагмент текста and несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального and конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) and 1 (входит в ответ).
- Data: Предоставляется размеченный датасет с фрагментами текста and наборами вопросов с ответами в диалоге
- References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
- Basic algorithm: Базовый алгоритм описан статьях and реализован (QuAC2018, BiDAF2017).
- Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) and исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
- Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
- Authors: Антон Сергеевич Хританков
Task 21
- Name: Методы выпуклой оптимизации высокого порядка
- Task: Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго and третьего порядка [1], метод из работы [2] второго and третьего порядка and обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так and по общему времени работы.
- References:
- https://alfresco.uclouvain.be/alfresco/service/guest/streamDownload/workspace/SpacesStore/aabc2323-0bc1-40d4-9653-1c29971e7bd8/coredp2018_05web.pdf?guest=true
- https://arxiv.org/pdf/1809.00382.pdf
- https://arxiv.org/pdf/1711.00394.pdf
- Author: Евгения Алексеевна Воронцова (доцент ДВФУ, Владивосток), Александр Владимирович Гасников
Task 22
- Name: Cutting plane methods for copositive optimization
- Task: Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. Подробнее тут
- Data: The algorithm will be tested on randomly generated instances
- References:
- [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
- [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
- [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
- Basic algorithm: The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
- Solution: The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
- Novelty: The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
- Автор: Roland Hildebrand
Task 23
- Name: Фрактальный анализ and синтез оптических изображений морского волнения
- Task: Разнообразные физические процессы and явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах and явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины and занимают промежуточное положение между линиями and двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества and может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Task состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн and фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца and пространственном разрешении изображений.
- References:
- Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
- Мурынин А. Б. Восстановление пространственных спектров морской поверхности по оптическим изображениям в нелинейной модели поля яркости // Исследования Земли из космоса, 1990. № 6. С. 60-70.
- Author: Иван Алексеевич Матвеев
Task 24
- Название Максимизация энтропии при различных видах преобразований над изображением
- Task: Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Task паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения and мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
- Необходимо провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта and допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
- References:
- Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория and системы управления, 2017, № 6.
- Author: Иван Алексеевич Матвеев
Task 25
- Name: Автоматическое детектирование and распознавание объектов на изображениях
- Task: Автоматическое детектирование and распознавание объектов на изображениях and видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта and классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.
Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные and интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости and освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта and сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом. Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера and др.), решающие деревья and леса, метрические (ближайшие К-соседей, парзеновские окна и т. д.) and ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, and классу изображений, не содержащих объект (изображениям фона).
- References: and более подробно тут
- Author: Иван Алексеевич Матвеев
Task 29
- Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
- Task: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) and исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке and параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском and русском наборах.
- Data: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
- References: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
- Basic algorithm: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
- Solution: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) and варианты объединения моделей сокращения and перевода. Базовые модели and предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch and Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
- Novelty: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке and указание условий для этого переноса расширит область применения модели and укажет необходимые новые доработки модели или предобработки данных.
- Authors: Алексей Романов (consultant), Anton Khritankov (Expert).
Task 30
- Name: Метод построения HG-LBP дескриптора на основе гистограмм градиентов для детектирования пешеходов.
- Task: Предлагается разработать новый дескриптор, обобщающий LBP дескриптор на основе гистограмм модулей градиентов, имеющий свойства композиции HOG-LBP для задачи детектирования пешеходов на изображении. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
- Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
- References:
- 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, July, 2002.
- 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot,, «On the Role and the Importance of Features for Background Modeling and Foreground Detection», https://arxiv.org/pdf/1611.09099v1.pdf
- 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
- 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
- 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
- 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
- 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
- 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
- 9. http://www.cse.oulu.fi/CMV/Research
- Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
- Solution: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG and LBP. Необходимо модифицировать исходный код реализации LBP and вставить подсчет модулей градиента and накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных and модифицированных дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR.
- Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
- Authors: Гнеушев Александр Николаевич
Task 31
- Name: Использование HOG дескриптора для обучения нейронной сети в задаче детектирования пешеходов
- Task: Предлагается заменить линейный SVM классификатор в классическом алгоритме HOG простой сверточной нейронной сетью небольшой глубины, при этом HOG дескриптор должен представляться трехмерным тензором, сохраняющим пространственную структуру локальных блоков. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
- Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
- References:
- 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
- 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491—1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
- 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp. 743—761
- 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
- 6. https://en.wikipedia.org/wiki/Pedestrian_detection
- 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
- 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
- 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
- 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
- Basic algorithm:
- 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
- 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
- Solution: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG and классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные and одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA and на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
- Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре and спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе and представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
- Authors: Гнеушев Александр Николаевич
YEAR
Author | Topic | Links | Consultant | Reviewer | Report | Letters | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Астахов Антон | Восстановление структуры прогностической модели по вероятностному представлению | folder | Александр Катруца | Кислинский Вадим | BHF | A-I-L0S0B0R0C0V0T0 [A-I-L-S-B0R0C0V0T0E0D0W0S] + [AILSBRCBTEDWS] | 2+4 | |
Гаврилов Юрий | Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга | folder | А.В. Гончаров | Остроухов Петр | BF | A+IL-S0B-R0 [A+ILSBRC-VT0E0D0W0S] + (W) | 2+9+1 | |
Гадаев Тамаз | Оценка оптимального объема выборки | folder | Александр Катруца | Шульгин Егор | BHF | A-IL>SB-R-C0V0T0 [AILSBR0CVT0E-D0W0S] | 2+9 | |
Гладин Егор | Экономия заряда акселерометра на основе прогнозирования временных рядов | folder | Мария Владимирова | Козлинский Евгений | .F | AILS [A-I-L-SB0R0C000V0T0E0D0W0S] | 1+4 | |
Грабовой Андрей | Автоматическое определение релевантности параметров нейросети. | folder | Бахтеев О.Ю. | Кульков Александр | BHMF | A+ILS+BRC+VTE>D> [AILSBRCVTEDWS] [] | 3+13 | |
Нурланов Жакшылык | Deep Learning for reliable detection of tandem repeats in 3D protein structures | folder | С. В. Грудинин, Guillaume Pages | Плетнев Никита | BHF | AILB [A-I-LS-BRC0V0T-E0D0W0S] | 2+7 | |
Рогозина Анна | Deep learning for RNA secondary structure prediction | folder | Мария Попова | Гадаев Тамаз | BHMF | AILSBR> [AILSBRC0V0T0E0D0W0S]+CW | 3+9 | |
Терехов Олег | Порождение признаков с помощью локально-аппроксимирующих моделей | folder | С.Д. Иванычев, Р.Г.Нейчев | Гладин Егор | BHM | AILSBRCVTDSW [AIL0SB0R0C0V0TE0D0W0S] | 2+12 | |
Шульгин Егор | Порождение признаков, инвариантных к изменению частоты временного ряда | folder | Р.Г.Нейчев | Терехов Олег | BHM | AIL [AI-LS-BR0CV0T0E0D0W0S] | 2+5 | |
Малиновский Григорий | Предсказание графовой структуры нейросетевой модели | folder | Бахтеев О.Ю. | Грабовой Андрей | BHMF | A+I+L+SBR>C>V>T>E>D> [AILSBRC0VTED0WS]+(C) | 3+11 | |
Кульков Александр | Декодирование сигналов мозга and прогнозирование намерений | folder | Р.В. Исаченко | Малиновский Григорий | BHMF | AILSBR [AILSBRCVTED0W0S] | 3+11 | |
Плетнев Никита | Аппроксимация границ радужки глаза | paper
slides [ video] | Alexander Aduenko | Нурланов Жакшылык | BF | AILSB>R> [AILSTWS] | 2+7 | |
Остроухов Петр | Selection of models superposition for identification of a person on the basis of a ballistocardiogram | folder | Александр Прозоров | Гаврилов Юрий | BhF | AIL>S?B?R? [AILSBRCVT-E0D0W0S] | 2+10 | |
Кислинский Вадим | Предсказание музыкальных плейлистов пользователей в рекомендательной системе. | folder | Евгений Фролов | Астахов Антон | .F | (AIL)------(SB)---(RCVT)-- [AILS-BRCVTED0W0S] | 1+11 | |
Козлинский Евгений | Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов. | folder | Роза Айсина | Рогозина Анна | BHMF | AILSBR>CV> [AILSBR0C0V0TE0D0WS]+(С) | 3+8+1 |
Task 1
- Name: Аппроксимация границ радужки глаза
- Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
- Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[53], [54].
- References::
- Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель Strizhov V.V.). Московский физико-технический институт, 2017. [55]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
- Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
- Solution: См. Iris_circle_problem.pdf
- Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
- consultant: Alexander Aduenko (автор Strizhov V.V., Expert Matveev I.A.)
Task 2
- Name: Оценка оптимального объема выборки
- Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
- Data: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
- References::
- Базовый алгоритм: Алгоритмы оценки объема выборки при .
- Solution: Исследование свойств пространства параметров при пополнении выборки.
- Novelty: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
- Authors: А.М. Катруца, Strizhov V.V., Expert А.П. Мотренко
Task 3
- Name: Восстановление структуры прогностической модели по вероятностному представлению
- Task: Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
- Data: Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
- References::
- Работы Tommy Yakkola and других в LinkReview [58].
- Базовый алгоритм: Метод ветвей and границ, динамическое пограммирование при построении полносвязного графа.
- Solution: Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
- Novelty: Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
- Authors: А.М. Катруца, Strizhov V.V.
Task 4
- Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
- Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
- Data: Шрифты в растровом представлении.
- References:: Список работ [59], в частности arXiv:1611.03199 and
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Solution: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Novelty: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Authors: Л.М. Местецкий, И.А. Рейер, Strizhov V.V.
Task 5
- Name: Порождение признаков с помощью локально-аппроксимирующих моделей
- Task: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
- Data:
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- (Временной ряд (библиотека примеров), раздел Accelerometry).
- References::
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471-1483.[60]
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.URL
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. URL
- Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
- Базовый алгоритм: Описан в работе Кузнецова, Ивкина.
- Solution: Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные.
- Novelty: Создан стандарт построения локально-аппроксимирующих моделей.
- Authors: С.Д. Иванычев, Р.Г. Нейчев, Strizhov V.V.
Task 6
- Name: Декодирование сигналов мозга and прогнозирование намерений
- Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
- Data: neurotycho.org [61]
- References::
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [62]
- MLAlgorithms: Motrenko, Isachenko (submitted)
- Базовый алгоритм: Partial Least Squares[63]
- Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
- Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной.
- Authors: Р.В. Исаченко, Strizhov V.V.
Task 7
- Name: Автоматическое определение релевантности параметров нейросети.
- Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров and удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
- Data: Выборка рукописных цифр MNIST
- Базовый алгоритм: Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
- References::
- Authors: Oleg Bakhteev, Strizhov V.V.
Task 8
- Name: Предсказание графовой структуры нейросетевой модели.
- Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
- Data: Выборки MNIST, CIFAR-10
- Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
- References::
- Authors: Oleg Bakhteev. Strizhov V.V.
Task 9
- Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
- Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
- Data: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
- References:: Our previous 3D CNN: [71] Invariance of CNNs (and references therein): [72], [73]
- Basic algorithm: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [74]
- Solution: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [75],
[76] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
- Novelty: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
- Authors: Expert Sergei Grudinin, consultants Guillaume Pages, Strizhov V.V.
Task 10
- Name: Semi-supervised representation learning with attention
- Task: обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
- Data: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) and PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
- References::
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198). 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726). 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).
- Базовый алгоритм: решение [3] или векторные представления, полученные с использованием seq2seq [].
- Solution: в задаче предлагается обучить векторные представления для фраз, используя механизм attention and метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований and сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной and feed-forward сети.
- Novelty: новый метод.
- Authors: Рита Кузнецова, consultant
Task 11
- Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
- Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Data: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
- References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Basic algorithm: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
- Solution: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
- Novelty: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Authors: А.В. Гончаров, Strizhov V.V..
Task 12
- Name: Порождение признаков, инвариантных к изменению частоты временного ряда.
- Task: Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима and при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) and получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, .., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима and при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.
f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.
- Data: Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ and акселерометрам.
- References:: См выше про Акселерометры
- Basic algorithm: Преобразование Фурье.
- Solution: Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
- Novelty: Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как and кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках and во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x and y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации and предсказания временных рядов.
- Authors: Р. Г. Нейчев, Strizhov V.V..
Task 14
to be done
- Name: Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
- Task:
- Data: конкурса конференции RecSys'18.
- References::
- Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
- Basic algorithm:
- Solution: построение тематической модели с помощью библиотеки BigARTM.
- Novelty:
- Authors: К.В.Воронцов.
Task 15
to be done
- Name: Иерархическое тематическое моделирование текстовой коллекции
- Task: (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
- Data:
- References::
- Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
- Basic algorithm:
- Solution: построение тематической модели с помощью библиотеки BigARTM.
- Novelty:
- Authors: К.В.Воронцов
Task 16
to be done
- Name: Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
- Task:
- Data:
- References::
- Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
- Basic algorithm:
- Solution: построение тематической модели с помощью библиотеки BigARTM.
- Novelty:
- Authors: К.В.Воронцов, consultants Роза Айсина, Филипп Никитин.
Task 17
to be done
- Name: Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
- Task:
- Data:
- References::
- Basic algorithm:
- Solution: построение тематической модели с помощью библиотеки BigARTM.
- Novelty: Task восстановления структуры товарно-денежных потоков в отрасли по банковским транзакционным данным ранее не ставилась.
- Authors: К.В.Воронцов, consultant Роза Айсина.
Task 18
- Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
- Task: Automatically Detect Text in Natural Images.
- Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
- References:: COCO benchmark, One of a state-of-the-art architecture
- Basic algorithm: code + морфологические методы, Avito 2014 winner's solution.
- Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
- Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
- Authors: И.Н. Жариков.
- Expert: Л.М. Местецкий (морфологические методы).
YEAR
Group 594
Author | Topic | Link | Consultant | Reviewer | Report | Letters | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Белых Евгений Проскурин Александр | Классификация суперпозиций движений физической активности | paper | Мария Владимирова, Александра Малькова | Романенко Илья, Поповкин Андрей, review | MF | AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD | 2+9 | |
Зуева Надежда | Style Change Detection | paper | Рита Кузнецова | Игашов Илья, review | BHMF | AIL-S-B-R- [AILSBRCV0TE0D0WS] | 3+10 | |
Игашов Илья | Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. | paper | Sergei Grudinin, Maria Kadukova | Манучарян Вардан, review, correction | BHMF | AILBS+BRHC>V> [AILSBRCVTE0D0WS] | 3+11 | |
Калугин Дмитрий | Предсказание графовой структуры нейросетевой модели | paper | Бахтеев Олег | Зуева Надежда review | BHM | AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS] | 2+11 | |
Манучарян Вардан | Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей | paper, | Sergei Grudinin, Maria Kadukova | Фаттахов Артур review | BMF | AILS>B> [AILSB0R0CV0TE0D0WS] VED | 3+7 | |
Муравьев Кирилл | Определение параметров нейросети, подлежащих оптимизации. | paper, | Бахтеев Олег | Калугин Дмитрий review | BHMF | A+IL-S-B-RCVTED [AILSBRCV0TE0DWS] | 3+12 | |
Мурзин Дмитрий Данилов Андрей | Распознавание текста на основе скелетного представления толстых линий and свёрточных сетей | paper, slides, code
[video] | Л. М. Местецкий, Иван Рейер, Жариков И. Н. | Муравьев Кирилл review | BHMF | A+IL> [AILSB0R0CV0TE0D0WS] | 3+8 | |
Поповкин Андрей Романенко Илья | Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей | paper | Кулунчаков Андрей, В. В. Стрижов | Проскурин Александр, Белых Евгений, review | BHMF | AILS0BC>V> [AILSBRC0VTED0WS] | 3+11 | |
Фаттахов Артур | Style Change Detection | paper | Рита Кузнецова | Данилов Андрей, Мурзин Дмитрий, рецензия | BMF | AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS] | 3+11 |
Task 1 (1-2)
- Name: Классификация суперпозиций движений физической активности
- Task: Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.
Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.)
- Data:
- Собираются самостоятельно
- Данные строителей
- Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- References::
- Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471—1483. [URL]
- Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Basic algorithm: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
- Solution: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Novelty: Предложен способ классификации and анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
- Authors: Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,
Task 2 (1)
- Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
- Task: Automatically Detect Text in Natural Images.
- Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
- References:: COCO benchmark, One of a state-of-the-art architecture
- Basic algorithm: code + морфологические методы, Avito 2014 winner’s solution.
- Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
- Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
- Authors: И. Н. Жариков.
- Expert: Л. М. Местецкий (морфологические методы).
Task 3 (1-2)
- Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
- Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
- Data: Шрифты в растровом представлении.
- References:: Список работ [77], в частности arXiv:1611.03199 и
- Базовый алгоритм: Сверточная сеть для растрового изображения.
- Solution: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
- Novelty: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
- Authors: Л. М. Местецкий, И. А. Рейер, В. В. Стрижов
Task 4 (1-2)
- Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
- Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Data:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- References::
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [78]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [79]
- Basic algorithm: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Solution: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- Authors: Кулунчаков Андрей, В. В. Стрижов
Task 5 (1)
- Name: Определение параметров нейросети, подлежащих оптимизации.
- Task: Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
- а) Параметры модели, подлежащие оптимизации
- б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.
Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.
- Data: Выборка рукописных цифр MNIST
- Базовый алгоритм: Случайный выбор параметров.
- References::
- Novelty: полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления and удаления слоев.
- Authors: Бахтеев Олег, В. В. Стрижов
Task 6 (1)
- Name: Предсказание графовой структуры нейросетевой модели.
- Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
- Data: Выборки MNIST, CIFAR-10
- Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
- References::
- Authors: Бахтеев Олег, В. В. Стрижов
Task 7 (1)
- Name: Style Change Detection.
- Task: Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
- Data: PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)
PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)
- References::
1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)
- Базовый алгоритм: решение, описанное в [3, 4].
- Solution: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
- Novelty: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
- Authors: Рита Кузнецова (consultant), В. В. Стрижов
Task 8 (1)
- Name: Получение оценок правдоподобия с использованием автокодировщиков
- Task: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
- Data: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
- References::
- Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
- Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
- Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)
- Базовый алгоритм:
- Solution: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
- Novelty: получение оценок правдоподобия данных and правдоподобия модели, порождение текстов с помощью полученных оценок.
- Authors: Рита Кузнецова (consultant).
Task 9 (1)
- Name: Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей.
- Task: Multilabel classification using convolutional neural networks (CNN) on graphs.
Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты and химические элементы атомов, длины связей and величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов and типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, and типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, and было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин and рёбер молекулярных графов :
- тип атома (тип вершины графа, около 150 классов),
- гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
- тип связи (вспомогательный признак, тип ребра, 5 классов).
Тип атома (вершины графа) основан на информации о его гибридизации and свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.
- Data: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты and химический элемент. Дополнительно посчитаны длины связей, величины углов and двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл and является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.
Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.
- References::
- Basic algorithm: Предсказание гибридизаций and порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
- Solution: Предлагаемое решение задачи and способы проведения исследования.
Способы представления and визуализации данных and проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) and сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.
- Novelty: Предложенные молекулярные графы обладают 3D структурой and внутренней иерархией, что делает их идеальным объектом применения CNN.
- Authors: Sergei Grudinin, Maria Kadukova, В. В. Стрижов.
Task 10 (1)
- Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [87]
- Task:
С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
- Data:
- Данные для бинарной классификации.
Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии.
Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
- Solution: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.
Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
- Novelty:' В первую очередь, интерес представляет объединение задач классификации and регрессии.
Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
- Авторы Sergei Grudinin, Maria Kadukova, В. В. Стрижов.
2017
Author | Topic | Link | Consultant | Reviewer | Report | Letters | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Алексеев Василий | Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций | code | Виктор Булатов | Захаренков Антон | BMF | AILSB+RC+V+TDHW | ||
Аникеев Дмитрий | Локальная аппроксимация временных рядов для построения прогностических метамоделей | code | Strizhov V.V. | Смердов Антон | BMF | AILS>B0R0C0V0T0D0H0W0 | ||
Гасанов Эльнур | Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме | code paper | Анастасия Мотренко | Ковалев Дмитрий | BMF | AILSBRCVTDH0W0 | ||
Захаренков Антон | Massively multitask deep learning for drug discovery | code | Мария Попова | Алексеев Василий | BMF | AILSBRCVT>D>H0W0 | ||
Ковалев Дмитрий | Unsupervised representation for molecules | code | Мария Попова | Гасанов Эльнур | BMF | AILSBRCVT>D>H0W0 | ||
Новицкий Василий | Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов | paper | Александр Катруца | B - F | AILS>B0R0C0V0T0D0H0W0 | |||
Селезнева Мария | Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента | paper | Ирина Ефимова | Шолохов Алексей | BMF | A+IL+SBRCVTDHW | ||
Смердов Антон | Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза | paper | Oleg Bakhteev | Дмитрий Аникеев | BMF | AIL+SB+RC>V+M-T>D0H0W0 | ||
Уваров Никита | Оптимальный алгоритм для восстановления динамических моделей | paper | Yuri Maksimov | BMF | AILS0B0R0C0V0T0D0H0W0 | |||
Усманова Карина | Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices) | paper | Михаил Карасиков | Иннокентий Шибаев | BMF | AILSBRC+VT+EDH>W | ||
Шибаев Иннокентий | Convex relaxations for multiple structure alignment (synchronization problem for SO(3)) | paper | Михаил Карасиков | Карина Усманова | BMF | AILS-BRCVT>D>H>W | ||
Шолохов Алексей | Помехоустойчивость методов информационного анализа ЭКГ-сигналов | Влада Бунакова | Селезнева Мария | BMF | AILSBRCVTDHW |
Академ или новые
Author | Topic | Link | Consultant | Reviewer | Report | Letters | ||
---|---|---|---|---|---|---|---|---|
Кульков Александр | Адаптивные релаксации NP трудных задач через машинное обучение | paper | Yuri Maksimov | академ | A>I>L>B0R0C0V0T0D0H0W0 | |||
Калошин Павел | Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных. | Anton Khritankov | - MF | AIL-SBRC-VT+D>H>W0 | ||||
Малиновский Григорий | Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга | paper | Alexander Aduenko | академ B - - | AILS-B>R>C>V>T0D0H0W0 | |||
Плетнев Никита | Детектирование внутреннего плагиата | paper | Рита Кузнецова | академ - - - | A-I-L-S>B0R0C0V0T0D0H0W0 | |||
Гревцев Александр | Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN | Каринэ Абгарян | ||||||
Зайцев Никита | Автоматическая классификация научных статей по кристаллографии | Евгений Гаврилов | ||||||
Дилигул Александр | Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным and результатам квантово-механических расчетов | Каринэ Абгарян | ||||||
Дарья Фокина | Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов | Алексей Романов | AILSB0R0C0V0T0D0H0W0 |
Task 1
- Name: Классификация видов деятельности человека по измерениям фитнес-браслетов.
- Task: По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
- Data: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- References::
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Basic algorithm: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
- Solution: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Novelty:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Authors: Strizhov V.V., М.П. Кузнецов, П.В. Левдик.
Task 2
- Name: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
- Task: В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки and является избыточным. Требуется предложить метод снижения размерности признакового пространства.
- Data: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
- References::
- Макарчук Г.И., Задаянчук А.И. Strizhov V.V. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
- Basic algorithm: PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
- Solution: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
- Novelty: Предложен новый метод восстановления движений на основе электрокортикограмм.
- Authors: Strizhov V.V., А.П. Мотренко
Task 3
- Name: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
- Task: Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
- Data: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
- References:: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.
Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905. Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
- Basic algorithm: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
- Solution: Вычисление гессианов (C++ код у Сергея), изучение and запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
- Novelty: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
- Authors: Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.
Task 4
- Name: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
- Task: Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
- Data: Структуры белков в PDB формате в различных состояниях and системах координат.
- References::
- Multiple structural alignment:
- Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
- Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
- Diamond,R. (1992) Protein Sci., 1, 1279-1287.
- May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
- Synchronisation problem:
- O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
- L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
- Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
- Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
- Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
- Spectral relaxation for SO(2)
- A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
- Spectral relaxation for SO(3)
- M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
- A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
- Multiple structural alignment:
- Basic algorithm: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions
Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569
- Solution: Два варианта постановки оптимизационных задач (через матрицы поворота and через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом and релаксациями (spectral relaxation, SDP).
- Novelty: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
- Authors: Грудинин Сергей, consultant: Карасиков Михаил.
Task 5
- Name: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
- Task: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
- Data: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями and соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
- References::
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Basic algorithm: [Карасиков 2016]
- Solution: См. описание задачи.
- Novelty: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
- Authors: Strizhov V.V.
Task 6
- Name: Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
- Task: Задана выборка пар предложений с метками <<похожие>> and <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
- Data: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) and PPDB (набор коротких сегментов, не всегда корректная разметка)
- References::
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
- [3] Optimal Brain Damage
- Базовый алгоритм: В качестве базового алгоритма могут выступать:
- Решение без прореживания
- Решение, описанное в [3]
- Otimal Brain Damage
- Solution: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
- Novelty: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
- Authors: Oleg Bakhteev, consultant
Task 7
- Name: Детектирование внутреннего плагиата
- Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
- Data: Предлагается рассмотреть корпус PAN-2011, PAN-2016
- References::
- Базовый алгоритм: В качестве базового алгоритма может выступать решение, описанное в [4].
- Solution: Предлагается рассмотреть метод, описанный в [2] and строить стилевую функцию, основываясь на выходах нейронной сети.
- Novelty: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
- Authors: Рита Кузнецова, consultant
Task 8
- Name: Адаптивные релаксации NP трудных задач через машинное обучение
- Task: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач and в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. and последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов and более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве and в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
- References:: Методы семплинга/машинного обучения:
- Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
- Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
- Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
- Data: данные ieee + matpower содержащие описания энергетических сетей and режимов их функционирования.
- Novelty: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
- Автор: consultant: Yuri Maksimov, Expert: Михаил Чертков
Task 9
- Name: Оптимальный алгоритм для восстановления динамических моделей.
- Task: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы and получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение and являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа and параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения and имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
- Data: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
- References::
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
- Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
- Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
- Basic algorithm: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
- Novelty: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
- Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков
Task 10
- Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
- Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Data: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
- References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Basic algorithm: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
- Solution: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
- Novelty: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Authors: А.А. Адуенко, Strizhov V.V..
Task 11
- Name: Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
- Task: Решается Task прогнозирования биомедицинских сигналов and сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так and независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
- Data: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
- References:: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
- Basic algorithm: PLS, алгоритм квадратичной оптимизации для выбора признаков.
- Solution: построить матрицу плана с субоптимальным набором объектов and признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
- Novelty: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
- Authors: А.М. Катруца, Strizhov V.V..
Task 12
- Name: Massively multitask deep learning for drug discovery
- Task: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
- Data: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
- References:: https://arxiv.org/pdf/1502.02072
- Basic algorithm: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
- Solution: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу and предсказывает её биологическую активность против всех протеинов в выборке.
- Novelty: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
- Authors: Expert -- Александр Исаев, consultant -- Мария Попова
Task 13
- Name: Unsupervised representation for molecules
- Task: Разработать unsupervised метод для репрезентации молекул
- Data: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
- References:: https://www.cs.toronto.edu/~hinton/science.pdf
- Basic algorithm: в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
- Solution: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
- Novelty: построение end-to-end модели для получения информативных признаков
- Authors: Expert -- Александр Исаев, consultant -- Мария Попова
Task 14
- Name: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
- Task: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически and хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана and Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости and когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
- Data: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
- References::
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013.
- D.Newman et al. Automatic evaluation of topic coherence, 2010
- D.Mimno et al. Optimizing semantic coherence in topic models, 2011
- http://palmetto.aksw.org/palmetto-webapp/
- Basic algorithm: Стандартные методы оценивания интерпретируемости and когерентности тем в тематических моделях.
- Solution: Новый метод измерения интерпретируемости and когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости and когерентности, аналогичные [D.Newman, 2010].
- Novelty: внутритекстовые меры интерпретируемости and когерентности ранее не предлагались.
- Authors: К.В.Воронцов. consultants: Виктор Булатов, Анна Потапенко, Артём Попов.
Task 15
- Name: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
- Task: Реализовать and сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
- Data: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
- References::
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение and анализ данных, 2016. T. 2. № 2.
- Basic algorithm: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
- Solution: Построить тематическую модель с модальностями источников and выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
- Novelty: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
- Authors: К.В.Воронцов. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
Task 16
- Name: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
- Task: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность and поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC and MAP ранжирования диагнозов.
- Data: Выборка электрокардиограмм с известными диагнозами.
- References::
- Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика and информация», 2008. - 116с
- Технология информационного анализа электрокардиосигналов.
- Basic algorithm: Методы классификации .
- Solution: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC and MAP (ранжирования диагнозов).
- Novelty: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
- Authors: К.В.Воронцов. consultants: Влада Целых.
Task Vorontsov +
- Title: Dynamic hierarchical thematic model of the news flow.
- Task: Develop an algorithm for classifying topics in news flows into new and ongoing ones. Apply the obtained criteria for creating new topics at all levels of the topic model hierarchy when adding the next piece of data to the text collection (for example, all news for one day).
- Data: Collection of news in Russian. A subsample of news classified into two classes: new and ongoing topics.
- Literature:
- Vorontsov K.V. Review of probabilistic thematic models, 2017.
- Chirkova N. A, Vorontsov K. V. Additive regularization of multimodal hierarchical topic models // Machine Learning and Data Analysis , 2016. T. 2. No. 2.
- Basic Algorithm: An algorithm for constructing a thematic hierarchy in BigARTM, implemented by Nadezhda Chirkova. Known Topic Detection & Tracking algorithms.
- Solution: Using BigARTM, selecting regularizers and their parameters, using the topic selection regularizer. Building an algorithm for classifying topics into new and ongoing.
- Novelty: Additive regularization of topic models has not been applied to this problem before.
- Authors: KV Vorontsov. Consultants: Alexander Romanenko, Artyom Popov.
Task Antiplagiarism +
- Name: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
- Task: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
- Data: PAN
- References::
- Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
- Базовый алгоритм: метод шинглов с построением обратного индекса.
- Solution: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) and последующий поиск ближайших объектов в многомерном метрическом пространстве.
- Novelty: новый подход к решению задачи.
- Authors: Алексей Романов (consultant)
Additional tasks
Task Vorontsov +
- Name: Тематическое моделирование отрасли экономики по транзакционным данным банка.
- Task: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений and найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
- Data: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
- References::
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- Basic algorithm: Стандартные методы неотрицательных матричных разложений.
- Solution: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
- Novelty: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
- Authors: К.В.Воронцов. consultants: Виктор Сафронов, Роза Айсина.
Task scoring +
- Name: Порождение and выбор признаков при построении модели кредитного скоринга.
- Task: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
- Data: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
- References:: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
- Basic algorithm: Алгоритм построения скоринговой модели, рекомендуемый SAS.
- Solution: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
- Novelty: Предложена функция ошибки, при использовании который порождение and выбор признаков, а также оптимизация параметров модели выполняются совместно.
- Authors: Т.В. Вознесенская, Strizhov V.V..
Task Popova +
- Name: Representation of molecules in 3D
- Task: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной and трансляционной инвариантности.
- Data: Миллионы молекул, заданные 3D координатами
- References:: https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
- Basic algorithm: low rank matrix/tensor factorization
- Solution: Молекулы имеют различное число атомов, and поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
- Novelty: существующие алгоритмы зависят от числа атомов в молекуле
- Authors: Expert -- Александр Исаев, consultant -- Мария Попова
Task Maksimov +
- Name: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY and Гейзенберга).
- Task: Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- and трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
- Data: Симулированные конфигурации блочных спиновых моделей.
- References::
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
- Basic algorithm: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
- Novelty: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
- Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков
Task Khritankova (Transfer Learning)
- Name: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
- Task:
- Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, and который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
- Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
- Data: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
- References::Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.
Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
- Basic algorithm: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
- Solution: Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда and применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) and предложить доработку для повышения устойчивости (robustness).
- Novelty: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
- Authors: Хританков
Task INRIA-МТФИ +
- Name: Оценка энергии связывания белка and маленьких молекул.
- Task: Моделирование связывания белка and маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка and лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, and несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
- Data: Около 10000 комплексов: для каждого из них есть 1 нативная поза and 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением and использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- References:: PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
- Basic algorithm: Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
- Solution: Необходимо свести использованную ранее задачу SVM к задаче регрессии and решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так and несколько других тестовых сетов с аналогичными Taskми, но другими данными.
- Novelty: Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.
Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения and оптимизации интерес представляет объединение задач классификации and регрессии.
- Добавление Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) and несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но and вычислительная сложность предсказания.
- Authors: Sergei Grudinin, Maria Kadukova
Task Strizhov and Kulunchakov +
- Name: Creation of delay-operators for multiscale forecasting by means of symbolic regression
- Task: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
- Data: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
- References:: to be handed by V.V.Strijov
- Basic algorithm: to be handed by V.V.Strijov
- Solution: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
- Novelty: to be handed by V.V.Strijov
- Authors: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov
2016
Author | Topic | Link | Consultant | Reviewer | Report | Letters | Grade | Magazine |
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | 10 | ИИП |
Баяндина Анастасия | Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях | paper | Анна Потапенко | Олег Городницкий | BF | AILSB++RCVTDEWHS | 10 | |
Белозерова Анастасия | Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов | code | Влада Целых | Малыгин Виталий | BF | AILSB+RC+VTD>E0WH>S | 10 | |
Владимирова Мария | Бэггинг нейронных сетей в задаче предсказания биологической активности клеточных рецепторов | code | Мария Попова | Володин Сергей | BMF | AILSBRCVTD>E>WHS | 10 | |
Володин Сергей | Вероятностный подход для задачи предсказания биологической активности ядерных рецепторов | code paper slides | Мария Попова | Мария Владимирова | BMF | AILSBRCVTDEWHS | 10 | |
Городницкий Олег | Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям | code | Михаил Трофимов | Анастасия Баяндина | M | A++I++L++S+B+R+C++VTDE+WH | 10 | |
Иванычев Сергей | Синергия алгоритмов классификации (SVM Multimodelling) | code | Alexander Aduenko | BM | A+I+L++S+BRCVTDEW+H | 10 | ||
Ковалева Валерия | Регулярная структура редких макромолекулярных кластеров | code | Ольга Вальба, Yuri Maksimov | Дмитрий Федоряка | BM | A+IL+SBRCVTD0E0WH | 10 | |
Макарчук Глеб | Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян | code, | Андрей Задаянчук | BF | AI+L+S+BRС>V>T+D>E0WH>S | 10 | ||
Малыгин Виталий | Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков в задаче медицинской диагностики методом В. М. Успенского | code, | Шаура Ишкина | Белозёрова Анастасия | B | AILSBRCVTDEWH | 10 | |
Молибог Игорь | Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата | Анастасия Мотренко | Сафин Камиль | BMF | AILSBRCVTDEWHS | 10 | ||
Погодин Роман | Определение положения белков по электронной карте | code, paper, slides | Александр Катруца | Андрей Рязанов | BMF | AILSBRСVTDEWHS | 10 | |
Рязанов Андрей | Восстановление первичной структуры белка по геометрии его главной цепи | folder | Михаил Карасиков | Роман Погодин | BMF | AIL+SBRC++VTD+EWHS | 10 | |
Сафин Камиль | Определение заимствований в тексте без указания источника | code, paper | Михаил Кузнецов | Молибог Игорь | BMF | AIL+SBRC>V>T>D>E0WHS | 10 | |
Федоряка Дмитрий | Смеси моделей векторной авторегрессии в задаче прогнозирования временных рядов | code, | Радослав Нейчев | Ковалева Валерия | BM | AILSBRCV-T>D0E0WH> | 10 | |
Цветкова Ольга | Построение скоринговых моделей в системе SAS | code, | Раиса Джамтырова | Чигринский Виктор | BF | A+I+L+S+B+R+C+V0T0D0E0WH>S | 10 | |
Чигринский Виктор | Аппроксимация границ радужки глаза | code paper | Юрий Ефимов | B | AI+L+SBRCV+TDEHFS | 10 |
Task 1
- Data: Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
- References:: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют and boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
- Basic algorithm: Описан в постановке задачи
- Solution: модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами and сделать выводы, в частности о связи наличия улучшения в качестве and разнообразия множеств опорных объектов, построенных разными SVM ами.
- Novelty: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
- consultant: Alexander Aduenko
Task 2
- Name: Темпоральная тематическая модель коллекции пресс-релизов.
- Task: Разработка методов анализа тематической структуры большой текстовой коллекции and её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости and полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности and событийности.
- Data: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
- References::
- Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
- Basic algorithm: Классический LDA Д.Блэя c post-hoc анализом времени.
- Solution: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости and полноты.
- Novelty: Критерии устойчивости and полноты тематических моделей являются новыми.
- consultant: Никита Дойков, автор задачи К.В.Воронцов.
Task 3
- Name: Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов.
- Task: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания and построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе and удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически and по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
- Data: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
- References:: выдадим :)
- Basic algorithm: Линейный классификатор.
- Solution: Методы линейной регрессии, линейной классификации, отбора признаков.
- Novelty: Task согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
- consultant: Влада Целых, автор задачи К.В.Воронцов.
Task 4
- Name: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
- Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов and определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
- Data: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
- References:: выдадим :)
- Basic algorithm: Модели классификации В.Целых, тематическая модель С.Цыгановой.
- Solution: Тематическая модель, реализованная с помощью библиотеки BigARTM.
- Novelty: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
- consultant: Светлана Цыганова, автор задачи К.В.Воронцов.
Task 5
- Name: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
- Task: Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, and т.д.). Тематические модели дают интерпретируемые векторные представления слов and документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства and свободной от недостатков обеих моделей.
- Data: Коллекции социальных сетей ЖЖ and ВК.
- References:: выдадим :)
- Basic algorithm: Тематические модели, ранее построенные на этих данных.
- Solution: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
- Novelty: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей and модели word2vec.
- consultant: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.
Task 7
- Name: определение положения белков по электронной карте
- Task: неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы and вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей and вектором.
- Data: экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
- References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
- Basic algorithm: методы квадратичного программирования с различными релаксациями
- Solution: минимизация суммарной энергии белкового комплекса
- Novelty: применение методов квадратичного программирования and исследование их точности в Taskх восстановления электронных карт
- consultant: Александр Катруца, автор задачи: Sergei Grudinin.
- Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX
Task 8
- Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
- Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
- Data: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
- References::
- Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
- Basic algorithm: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
- Solution: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
- Novelty: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
- consultant: Oleg Bakhteev
Task 9
- Name: восстановление первичной структуры белка по геометрии его главной цепи
- Task: на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
- Data: на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
- References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
- Basic algorithm: методы квадратичного программирования с различными релаксациями
- Solution: минимизация суммарной энергии белка
- Novelty: применение методов квадратичного программирования and исследование их точности
- consultant: Михаил Карасиков, автор задачи: Sergei Grudinin.
- Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX
Task 10
- Name: Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
- Task: В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
- Data: описание 8500+ протеинов and метки для 12 рецепторов
- References:: будет отправлена studentу
- Basic algorithm: multi-task lasso регрессия из библиотеки python scikit-learn
- Solution: обобщение линейной регрересси на случай multi-task в вероятностной интерпретации
- Novelty: Multi-task learning подход является новаторским в области drug design
- consultant: Мария Попова
- Желательные навыки: понимание and интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python
Task 11
- Name: Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
- Task: В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой and предсказывать взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
- Data: описание 8500+ протеинов and метки для 12 рецепторов
- References:: будет отправлена studentу
- Basic algorithm: двухслойная нейронная сеть
- Solution: Композиция базовых классификаторов бэггинг
- Novelty: Такой подход является новаторским в области drug design
- consultant: Мария Попова
Task 12
- Name: Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
- Task: Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры and избежать поломки или минимизировать потери.
- Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- References:: Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
- Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [92]
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[93]
- Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
- Базовый алгоритм: Бустинг, алгоритм Adaboost.
- Solution: Использовать для построения проноза смесь нескольких линейных моделей вместо одной сложной.
- Novelty: Доработано пространство параметров для смеси моделей в векторной авторегрессии.
- consultant: Радослав Нейчев
Task 13
- Name: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
- Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
- Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- References:: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[94]
- Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
- Solution: Применить метод Белсли для обнаружения коррелирующих признаков.
- Novelty: Метод Белсли применяется для векторной авторегрессии.
- consultant: Радослав Нейчев
Task 14
- Name: Порождение признаков в задаче прогнозирования.
- Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
- Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
- References:: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, Strizhov V.V., М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[95]
- Базовый алгоритм: Непараметрические порождающие функициии.
- Solution: Применить к признакам квазилинейные and нелинейные преобразования зависящие от параметра.
- Novelty: Предложен новый набор признаков для решения авторегрессионных задач.
- consultant: Roman Isachenko
Task 15
- Name: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
- Task: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
- Data: Многомерные временные ряды с показаниями ECOG and данные о движении обезьян [96]
- References:: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
- Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[97]
- Базовый алгоритм: Вейвлет-преобразование (англ. Wavelet transform)
- Solution: Выделение признаков из ECoG различными методами.
- Novelty: Анализ оптимальности Вейвлет-преобразования в Taskх обработки ECoG сигналов
- consultant: Задаянчук Андрей
Task 16
- Name: Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
- Task: Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию and параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [98]
- Data: модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
- References::
- "ACCAMS: Additive Co-Clustering to Approximate Matrices Succinctly" (Beutel, Amr Ahmed, Smola)
- "Non-linear Matrix Factorization with Gaussian Processes" (Neil D. Lawrence)
- "Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
- Базовый алгоритм: Низкоранговое приближение
- Solution: and параметры, and параметризацию искать из данных.
- Novelty: Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
- consultant: Михаил Трофимов
- Желательные навыки: python
Task 17
- Name: Построение скоринговых моделей в системе SAS (либо MATLAB).
- Task: Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
- Data: Кредитная Story/анкеты потенциальных заемщиков [99], [100].
- References::
- Хосмер, Лемешов. Логистическая регрессия (англ.)
- Siddiqi. Constructing scorecards
- Материалы по построению скоринговых карт
- Базовый алгоритм: Логистическая регрессия
- Solution: Смесь моделей
- Novelty: Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так and мультимоделирование.
- consultant: Раиса Джамтырова
- Желательные навыки: SAS
Task 18
- Name: Аппроксимация границ радужки глаза.
- Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
- Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)
- References::
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
- Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
- Solution: См. Iris_circle_problem.pdf
- Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
- consultant: Юрий Ефимов (автор Стрижов, Expert Матвеев)
Task 19
- Name: Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
- Task: Технология информационного анализа электрокардиосигналов по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие and более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
- Data: Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
- References::
- Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика and информатика, 2008. – 116 с.
- Воронцов К. В. Теория надёжности обучения по прецедентам. Курс лекций ВМК МГУ and МФТИ. 2011.
- Ишкина Ш. Х. Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
- MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
- Basic algorithm: линейный наивный байесовский классификатор с отбором признаков.
- Solution: Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
- Novelty: Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков and улучшать качество классификации.
- consultant: Ишкина Шаура, Кулунчаков Андрей (MVR Composer), автор задачи: К.В.Воронцов
Task 20
- Name: Модель порождения объектов в задаче прогнозирования временных рядов
- Task: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
- Data: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
- References::
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [103]
- Basic algorithm: Различные эвристики
- Постановка задачи: Формулировка and подробное описание задачи приведено по ссылке [104]
- Novelty: рассмотрение модели порождения данных в подобной задаче
- consultant: Гончаров Алексей
Task 21
- Name: Алгоритм прогнозирования структуры локально-оптимальных моделей
- Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
- Data: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
- References::
- Basic algorithm: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
- Solution: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
- consultant: Кулунчаков Андрей
Task 22
- Name: Определение заимствований в тексте без указания источника
- Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
- Data: Коллекция конкурса PAN-2011.
- References::
- Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
- Базовый алгоритм, решение: На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов and символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм and сравнить его с базовым методом.
- consultant: Михаил Кузнецов
Task 23
- Name: Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
- Task: Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных and возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
- Data: Коллекция конкурса PAN-2011.
- References::
- Problem_statement_dim_reduce.pdf
- Laurens van der Maaten. Visualizing Data using t-SNE Journal of Machine Learning Research, 9 (2008) 2579-2605.
- Julian Brooke and Graeme Hirst. Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features, 2012.
- Базовой алгоритм, решение: См. [1]
- consultant: Мотренко Анастасия
Task 26
- Name: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
- Task: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии and регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
- Data: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
- References::
- Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
- Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
- Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
- Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
- Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
- Basic algorithm: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
- Solution: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, and поправки к предобусловливателю.
- Novelty: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения and быстродействие полученного алгоритма.
- consultant: Владимир Анатольевич Гаранжа (ВЦ РАН).
Task 27
- Name: Кросс-язычный тематический поиск научных публикаций.
- Task: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке and выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
- Data: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
- References:: выдадим.
- Basic algorithm: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv and двуязычной англо-русской Википедии.
- Solution: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
- Novelty: Такого сервиса в русскоязычном интернете пока нет.
- consultant: Марина Суворова.
Task 28
- Name: Поиск резонансных частот в растворах полимеров.
- Task: Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
- Data: Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
- References:: Nazarov L. I. et al. A statistical model of intra-chromosome contact maps //Soft matter. – 2015. – Т. 11. – №. 5. – С. 1019-1025.
- Basic algorithm: Монте-Карло.
- Novelty: В настоящее известен алгоритм оценка спектральной плотности линейных цепочек, вопрос с оценкой спектральной плотности ансамблей деревьев открытый.
- consultant: Ольга Вальба, Yuri Maksimov, Автор задачи: Нечаев Сергей.
YEAR
Author | Topic | Link | Consultant | Reviewer | Report | Letters | Grade | Magazine |
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSW | 10 | ИИП |
Ахтямов Павел | Отбор мультикоррелирующих признаков в задаче векторной авторегрессии | code, | Радослав Нейчев | Медведева Анна | BF | AI+LSB++R+CVTDEH | 10 | |
Батаев Владислав | Тематическая модель классификации для диагностики заболеваний по электрокардиограмме | code, | Светлана Цыганова | B | AIL-S++B>R>C0V0T0D0E0W0H> | >26.05 (7) | ||
Иванов Илья | Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения | code, | Oleg Bakhteev | BF | A+ILS+B+R++C+VT+DEW0H | 10 | ||
Медведева Анна | Модель порождения объектов в задаче прогнозирования временных рядов | code | Гончаров Алексей | Ахтямов Павел | BF | AILS-BRCVTD0EWS | 10 | |
Персиянов Дмитрий | Темпоральная тематическая модель коллекции пресс-релизов | code | Никита Дойков | BF | A+I+L+S++B+R+C+V+T0DEW0H | 10 | ||
Семененко Денис | Алгоритм прогнозирования структуры локально-оптимальных моделей | code | Кулунчаков Андрей | B | AI+L+SB0R0C0V0T0D0E0W0H0 | |||
Софиенко Александр | Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов | code, | Влада Целых | B | A-I-L-S-C0V0T0D0E0W0H> | >26.05 | ||
Яронская Любовь | Sparse Regularized Regression on Protein Complex Data | code | Александр Катруца | A-I-L-SB-R-CVT--D-EW0H> | >26.05 | |||
Аксенов Сергей | Кросс-язычный тематический поиск научных публикаций. | code | Марина Суворова | AILS0B0R0C0V0T0D0E0W0H> | >26.05 (7) | |||
Хисматуллин Тимур | Анализ and классификация интерфейса комплекса ДНК-белок | code | Владимир Гаранжа | F | AILSBRCVT>H> | >26.05 (7) |
Task 6
- Name: Sparse Regularized Regression on Protein Complex Data
- Task: найти лучшую модель регрессии на данных связывания белковых комплексов
- Data: признаковое описание белковых комплексов and константы связывания для них
- References:: статьи по регрессии and сравнению методов на схожих данных
- Basic algorithm: регуляризованная линейная регрессия (Lasso, Ridge, ..), SVR, kernel methods, etc.
- Solution: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели and оптимизация параметров
- Novelty: получение лучшей модели регрессии для данных связывания белковых комплексов
- consultant: Александр Катруца, автор задачи: Sergei Grudinin.
- Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
Task 8
- Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
- Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
- Data: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
- References::
- Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
- Basic algorithm: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
- Solution: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
- Novelty: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
- consultant: Oleg Bakhteev
Task 25
- Name: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
- Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме and на качество классификации.
- Data: электрокардиограммы в формате KDM.
- References:: выдадим :)
- Basic algorithm: Линейный классификатор.
- Solution: Прямое and обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
- Novelty: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
- consultant: Виктор Сафронов (Научный центр им. В.И.Кулакова)
2015
Author | Topic | Link | Consultant | Reviewer | DZ-1 | DZ-2 (Problem number) | Letters | Sum | Grade | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Бернштейн Юлия | Методы определения характеристик фибринолиза по последовательности изображений крови in vitro | Матвеев И. А. | Соломатин | 1 | 3 (8) | AILSBRCVTDE | 11 | 10 | |||||||||||
Бочкарев Артем | Структурное обучение при порождении моделей | [107] (no code), paper, slides | Варфоломеева Анна, Бахтеев Олег | Исаченко | 2 | 2 (7) | A+I++LS+BRCVT+DS | 9.25 | 10 | Гончаров Алексей | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук | 1.5 | 1 (4) | AILSBRCVTDSW | 12 | 10 |
Двинских Дарина | Повышение качества прогнозирования с использованием групп товаров | code, | Каневский Д. Ю. | Смирнов | 0.5 | 3 (7) | AILSBRCVTDEHS | 14 | 10 | ||||||||||
Ефимов Юрий | Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов | code, | Матвеев И. А. | Нейчев | AILSBRCVTDEW | 12 | 10 | ||||||||||||
Жариков Илья | Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм. | code, paper, slides | Ишкина Шаура | Бочкарев | 3.5 | 3 (5) | AIL+SBRCVTDEHSW | 14.25 | 10 | ||||||||||
Задаянчук Андрей | Выбор оптимальной модели классификации физической активности | code, | Мария Попова | Гончаров | 2 | 0 (17) | AI-LSB+RCVTD | 10 | 10 | ||||||||||
Златов Александр | Построение иерархической модели крупной конференции | code, | Арсентий Кузьмин | Двинских | 1.5 | 3 (14) | AI+L+SBRC++V+TDESW | 14.25 | 10 | ||||||||||
Исаченко Роман | Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов | code, paper, slides | Катруца Александр | Жариков | 3.5 | 3 (14) | A-I+L+S-BR+CVTDEHSW | 14.25 | 10 | ||||||||||
Нейчев Радослав | Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов | code, paper, slides | Катруца Александр | Ефимов | 1 | 3 (9) | AI-L-SBRCVTDEHSW | 13.5 | 10 | ||||||||||
Подкопаев Александр | Прогнозирование четвертичных структур белков | code, | Ю. В. Максимов | Решетова | 3.5 | 3 (11) | AILS+B+RCVTDEHS | 13.5 | 10 | ||||||||||
Решетова Дарья | Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения | code, | Максимов Юрий | Камзолов | 2.5 | 3 (10) | AIL++SB+RCVT++DEHS- | 14 | 10 | ||||||||||
Смирнов Евгений | Тематическая модель интересов постоянных пользователей мобильного приложения | code, paper, slides | Виктор Сафронов | Златов | 1 | 1 (4) | AILSBRCVTWDE | 11.25 | 10 | ||||||||||
Соломатин Иван | Определение области затенения радужки классификатором локальных текстурных признаков | code, paper, slides | Матвеев И. А. | Бернштейн | 3 (9) | AILSBRCVTDE | 11 | 10 | |||||||||||
Черных Владимир | Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности | code, | Стенина Мария | Шишковец | 3.5 | 3 (4) | A+I+LSBRCVT+DE++H++ | 13.75 | 10 | ||||||||||
Шишковец Светлана | Регуляризация линейного наивного байесовского классификатора. | code, | Михаил Усков, Константин Воронцов | Черных | 3.5 | 2 (9) | A+I+L+SBR+CV+TD+E+H+S | 15 | 10 | ||||||||||
Камзолов Дмитрий | Новые алгоритмы для задачи ранжирования веб-страниц | — | Александр Гасников, Yuri Maksimov | Подкопаев | AILSB+RCVT+DEHS-- | 13 | 8 | ||||||||||||
Сухарева Анжелика | Классификация научных текстов по отраслям знаний | code, | Сергей Царьков | 0.5 | AILSBRCVTDEH | 9 |
Task 1
- Name: Повышение качества прогнозирования спроса с использованием групп товаров
- Task:
Дано:
- Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
- Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
- Функция потерь, по которой измеряется качество прогнозов: MAPE.
- Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
- Data:
- Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
- References:
- Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
- http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
- Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
- Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
- Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
- Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
- Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
- Сезонность оценивается по кластерам, исходя из методики [3], [4].
- Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
- Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
- consultant: Каневский Д.Ю.
Task 2
- Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
- Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
- Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
- References:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [108] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
- Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
- Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
- Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
- consultant: Oleg Bakhteev.
Task 3
- Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
- Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
- Data: Синтетические данные and тесты.
- References::
- Зайцев А.А., Strizhov V.V., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
- Basic algorithm: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
- Solution:
- Novelty: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
- consultant: Alexander Aduenko.
Task 4
- Name: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
- Task: постановка задачи из [109] формула (32)
- Data: временные ряды с ценами на электроэнергию.
- References::
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
- Basic algorithm:
- Solution: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
- Novelty: сравнение базвого and предложенного методов, анализ свойств предложенного метода.
- consultant: Александр Катруца.
Task 5
- Name: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
- Task: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики and [115]. Требуется разработать алгоритм поиска координат отрезка and угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза and примерах, где данный процесс отсутствует.
- Data: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
- References:
- Описание прикладной задачи and техническое задание: по запросу.
- Basic algorithm: Преобразование Хафа [116], обсуждается.
- consultant: И.А. Матвеев
Task 6
- Name: Прогнозирование четвертичных структур белков: нивелирование
- Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
Нужно исследовать эту формулировку and предложить алгоритм решения. Suppose we have proteins in an assembly, such that each protein can be located in one of positions . is ~ 10, ~ 100. To each two vectors and , we can assign an energy function , which is the overlap integral in the simplest approximation. Each protein position also has an associated score . Thus, the optimal packing problem can be formulated as
- Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
- References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
- Замечания по коду: Замечания по программной реализации
- Basic algorithm: Хочется попробовать выпуклые релаксации.
- Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
- consultant: Ю.В. Максимов
Task 7
- Name: Метрическое обучение and снижение размерности пространства в Taskх классификации временных рядов
- Task: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
- Data: временные ряды цен на электроэнергию
- References::
- Basic algorithm: алгоритм Франка-Вольфа (условного градиентного спуска)
- Solution: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
- Novelty: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
- consultant: Александр Катруца
Task 8
- Name: Структурное обучение при порождении моделей
- Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
- Data: Подколлекции TREC.
- Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [120]
- References:
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Basic algorithm: Парантапа, BM25 - модели для сравнения.
- Solution: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
- Novelty: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
- * consultant: Анна Варфоломеева, Oleg Bakhteev
Task 9
- Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
- Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
- Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
- References:
- Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
- Технология информационного анализа электрокардиосигналов
- Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
- Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
- Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
- Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
- Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
- Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
- Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
- Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
- Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
- Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
- consultant: Ишкина Шаура
Task 10
- Name: Simplification of the IR models structure
- Task: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
- Data: TREC collections.
- References:
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
- Problem statement
- Basic algorithm: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
- Solution: The optimal functions for the linear combination can be found by the greedy algorithm.
- Novelty: A new ranking function of simple structure competitive with traditional ones.
- consultant: Mikhail Kuznetsov.
Task 11
- Name: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
- Task: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее and др.
- Data: Данные о грузовых железнодорожных перевозках (РЖД)
- References::
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
- Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
- Basic algorithm: ARMA, Hist.
- Solution: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд and сезонность.
- Novelty: Разработан and обоснован метод определения выполнения условия локальной стационарности временного ряда.
- consultant: Стенина Мария
Task 12
- Name: Обучение метрик в Taskх полного and частичного обучения
- Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
- Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
- References: Список литературы and описание подробное задачи приведены в файле
- Замечания к коду: Замечания по программной реализации
- Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
- consultant: Ю.В. Максимов
Task 13
- Name: Построение иерархической тематической модели крупной конференции
- Task: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:
- Классификация тезисов новой конференции.
- Прогнозирование изменений структуры конференции.
- Data: Тезисы and экспертные модели конференций EURO 2010, 2012, 2013.
- References:: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
- Basic algorithm:
- Solution: Для решения подзадач
- предлагается объединить экспертные модели конференций прошлых лет в одну, and для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
- исследовать изменения в структуре конференций из года в год and определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Experts создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
- Novelty: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
- consultant: Арсентий Кузьмин
Task 14
- Name: Регуляризация линейного наивного байесовского классификатора.
- Task: Построение линейного классификатора является одной из классических and самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, and сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном and том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
- Data: Один из трёх наборов данных, по выбору: классификация текстов на научные and ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных and здоровых.
- References::
- Larsen (2005) Generalized Naive Bayes Classifiers.
- Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
- Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
- Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
- + спросить у К.В.Воронцова.
- Basic algorithm: любые готовые реализации LNB and SVM. Плюс наивный отбор признаков для LNB.
- Solution: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые and зависимости Hold-out AUC от номера итерации.
- Novelty: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
- consultant: Михаил Усков. Гиперconsultant: К.В.Воронцов.
Task 15
- Name: Тематическая модель интересов постоянных пользователей мобильного приложения.
- Task: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
- Data: Для каждого пользователя имеются списки добавленных and откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
- References::
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
- + попросить у К.В.Воронцова
- Basic algorithm: Алгоритм случайного отбора слов.
- Solution: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
- Novelty: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками and дизлайками.
- consultant: Виктор Сафронов. Гиперconsultant: К.В.Воронцов.
2015
Author | Topic | Link | Consultant | Reviewer | DZ-1 | DZ-2 (Problem number) | Letters | Sum | Grade |
---|---|---|---|---|---|---|---|---|---|
Бернштейн Юлия | Методы определения характеристик фибринолиза по последовательности изображений крови in vitro | Матвеев И. А. | Соломатин | 1 | 3 (8) | AILSBRCVTDE | 11 | 10 | |
Бочкарев Артем | Структурное обучение при порождении моделей | [121] (no code), paper, slides | Варфоломеева Анна, Бахтеев Олег | Исаченко | 2 | 2 (7) | A+I++LS+BRCVT+DS | 9.25 | 10 |
Гончаров Алексей | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук | 1.5 | 1 (4) | AILSBRCVTDSW | 12 | 10 |
Двинских Дарина | Повышение качества прогнозирования с использованием групп товаров | code, | Каневский Д. Ю. | Смирнов | 0.5 | 3 (7) | AILSBRCVTDEHS | 14 | 10 |
Ефимов Юрий | Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов | code, | Матвеев И. А. | Нейчев | AILSBRCVTDEW | 12 | 10 | ||
Жариков Илья | Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм. | code, paper, slides | Ишкина Шаура | Бочкарев | 3.5 | 3 (5) | AIL+SBRCVTDEHSW | 14.25 | 10 |
Задаянчук Андрей | Выбор оптимальной модели классификации физической активности | code, | Мария Попова | Гончаров | 2 | 0 (17) | AI-LSB+RCVTD | 10 | 10 |
Златов Александр | Построение иерархической модели крупной конференции | code, | Арсентий Кузьмин | Двинских | 1.5 | 3 (14) | AI+L+SBRC++V+TDESW | 14.25 | 10 |
Исаченко Роман | Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов | code, paper, slides | Катруца Александр | Жариков | 3.5 | 3 (14) | A-I+L+S-BR+CVTDEHSW | 14.25 | 10 |
Нейчев Радослав | Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов | code, paper, slides | Катруца Александр | Ефимов | 1 | 3 (9) | AI-L-SBRCVTDEHSW | 13.5 | 10 |
Подкопаев Александр | Прогнозирование четвертичных структур белков | code, | Ю. В. Максимов | Решетова | 3.5 | 3 (11) | AILS+B+RCVTDEHS | 13.5 | 10 |
Решетова Дарья | Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения | code, | Максимов Юрий | Камзолов | 2.5 | 3 (10) | AIL++SB+RCVT++DEHS- | 14 | 10 |
Смирнов Евгений | Тематическая модель интересов постоянных пользователей мобильного приложения | code, paper, slides | Виктор Сафронов | Златов | 1 | 1 (4) | AILSBRCVTWDE | 11.25 | 10 |
Соломатин Иван | Определение области затенения радужки классификатором локальных текстурных признаков | code, paper, slides | Матвеев И. А. | Бернштейн | 3 (9) | AILSBRCVTDE | 11 | 10 | |
Черных Владимир | Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности | code, | Стенина Мария | Шишковец | 3.5 | 3 (4) | A+I+LSBRCVT+DE++H++ | 13.75 | 10 |
Шишковец Светлана | Регуляризация линейного наивного байесовского классификатора. | code, | Михаил Усков, Константин Воронцов | Черных | 3.5 | 2 (9) | A+I+L+SBR+CV+TD+E+H+S | 15 | 10 |
Камзолов Дмитрий | Новые алгоритмы для задачи ранжирования веб-страниц | — | Александр Гасников, Yuri Maksimov | Подкопаев | AILSB+RCVT+DEHS-- | 13 | 8 | ||
Сухарева Анжелика | Классификация научных текстов по отраслям знаний | code, | Сергей Царьков | 0.5 | AILSBRCVTDEH | 9 |
Task 1
- Name: Повышение качества прогнозирования спроса с использованием групп товаров
- Task:
Дано:
- Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
- Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
- Функция потерь, по которой измеряется качество прогнозов: MAPE.
- Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
- Data:
- Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
- References:
- Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
- http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
- Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
- Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
- Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
- Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
- Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
- Сезонность оценивается по кластерам, исходя из методики [3], [4].
- Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
- Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
- consultant: Каневский Д.Ю.
Task 2
- Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
- Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
- Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
- References:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [122] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
- Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
- Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
- Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
- consultant: Oleg Bakhteev.
Task 3
- Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
- Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
- Data: Синтетические данные and тесты.
- References::
- Зайцев А.А., Strizhov V.V., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
- Basic algorithm: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
- Solution:
- Novelty: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
- consultant: Alexander Aduenko.
Task 6
- Name: Прогнозирование четвертичных структур белков: нивелирование
- Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
Нужно исследовать эту формулировку and предложить алгоритм решения.
Suppose we have proteins in an assembly, such that each protein can be located in one of positions . is ~ 10, ~ 100. To each two vectors and , we can assign an energy function , which is the overlap integral in the simplest approximation. Each protein position also has an associated score . Thus, the optimal packing problem can be formulated as
- Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
- References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
- Замечания по коду: Замечания по программной реализации
- Basic algorithm: Хочется попробовать выпуклые релаксации.
- Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
- consultant: Ю.В. Максимов
Task 8
- Name: Структурное обучение при порождении моделей
- Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
- Data: Подколлекции TREC.
- Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [123]
- References:
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Basic algorithm: Парантапа, BM25 - модели для сравнения.
- Solution: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
- Novelty: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
- * consultant: Анна Варфоломеева, Oleg Bakhteev
Task 9
- Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
- Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
- Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
- References:
- Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
- Технология информационного анализа электрокардиосигналов
- Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
- Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
- Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
- Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
- Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
- Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
- Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
- Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
- Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
- Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
- consultant: Ишкина Шаура
Task 12
- Name: Обучение метрик в Taskх полного and частичного обучения
- Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
- Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
- References: Список литературы and описание подробное задачи приведены в файле
- Замечания к коду: Замечания по программной реализации
- Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
- consultant: Ю.В. Максимов
Plans for next year:
- Expand the matlab test and give it along with the trial programming as the first task.
2014
Author | Topic | Link | Consultant | DZ-1 | Letters | Sum | Grade |
---|---|---|---|---|---|---|---|
Газизуллина Римма | Прогнозирование объемов железнодорожных грузоперевозок по парам веток | [124], pdf | Стенина Мария | [MF]TAI+L+SBR+CV+T>DEH(J) | 16 | 10 | |
Гринчук Алексей | Выбор оптимальных структур прогностических моделей методами структурного обучения | [125], pdf | Варфоломеева Анна | [F]TA+I+LSBR+СV+T+D+E(F) | 14,5 | 9 | |
Гущин Александр | Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов | [126], pdf | Кузнецов Михаил | [F]TAI+L+SBRCVTDEHS(F) | 15,5 | 9 | |
Ефимова Ирина | Дифференциальная диагностика заболеваний по электрокардиограмме | [127], pdf | Целых Влада | [MF]T+A+I+L+SB++R+CV+TDE+H(J ed) | 17,25 | 10 | |
Жуков Андрей | Построение рейтингов вузов: панельный анализ and оценка устойчивости | [128], pdf | Кузнецов Михаил | [F]TAIL+SBRCVTDEHS(F) | 15,25 | 9 | |
Игнатов Андрей | Обучение многообразий для прогнозирования наборов квазипериодических временных рядов | [129], pdf | Ивкин Никита | [MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed) | 18 | 10 | |
Карасиков Михаил | Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач | [130], pdf | Ю.В. Максимов | [MF]TAI+L+SBRC+V+TDESH(J) | 15 | 10 | |
Кулунчаков Андрей | Обнаружение изоморфных структур существенно нелинейных прогностических моделей | [131], pdf | Сологуб Роман, Кузнецов Михаил | [F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed) | 17 | 10 | |
Липатова Анна | Обнаружение закономерностей в наборе временных рядов методами структурного обучения | [132], pdf | А. П. Мотренко | [MF]TA+I+LSBR-CVTDE (J when ed) | 14,25 | 10 | |
Макарова Анастасия | Использование нелинейного прогнозирования при поиске зависимостей между временными рядами | [133], pdf | Мотренко Анастасия | [F]TAI-LSB+R-CVTD>E>(F) | 12,75 | 9 | |
Плавин Александр | Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания | [134], pdf | Потапенко Анна | [F]T+A+I+L+S+BR++CVTD+>>(?) | 14 | 10 | |
Попова Мария | Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра | [135], pdf | Токмакова Александра | [MF]T+AI+L++SB++R+CV+TD+(JV ed) | 15,25 | 10 | |
Швец Михаил | Интерпретация мультимоделей при обработке социологических данных | [136], pdf | Адуенко Александр | [M+F]T+A+I+L+S+B+R+CVTD+E(F) | 16,25 | 9 | |
Шинкевич Михаил | Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели | [137], pdf | Дударенко Марина | [MF]T+AIL+S+BR+CV+T+D+E+H(J ed) | 17 | 10 |
1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания
consultant: А.А. Потапенко
Task: Вероятностная тематическая модель описывает вероятности появления слов в документах через латентные темы :
Требуется проверить гипотезу, что, накладывая ограничения на матрицу с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.
Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.
References:
- Описание задачи and предлагаемые пути решения
- Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-
ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
- Воронцов К. В. Вероятностное тематическое моделирование. — 2014.
http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
- Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the
American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.
Basic algorithm: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
Novelty: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, and при этом сложна как для понимания, так and для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость and простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.
2. Дифференциальная диагностика заболеваний по электрокардиограмме
consultant: В.Р. Целых
Task: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого and второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.
Data: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.
References:
- Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
- Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
- Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика and информация», 2008. — 116 с.
Basic algorithm: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.
Novelty: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации and исследована его обобщающая способность.
3. Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели
consultant: М.A. Дударенко
Task:Вероятностная тематическая модель описывает вероятности появления слов в документах через латентные темы :
Представление матрицы в виде произведения двух матриц меньшего размера and не единственно: для некоторых невырожденных . Требуется проверить гипотезу, что, накладывая ограничения на матрицы с помощью регуляризаторов, возможно повысить устойчивость их восстановления.
Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем and наличия фоновых тем.
References:
- Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
- Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.
Basic algorithm: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
Novelty: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости and интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.
4. Построение рейтингов вузов: панельный анализ and оценка устойчивости
consultant: М.П. Кузнецов
Task: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза and целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.
Data: Данные по ста ведущим мировым университетам за восемь лет.
References:
- Strizhov V.V. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
- Strizhov V.V. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
- Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
- Черновик статьи POF по запросу.
Basic algorithm: Методика построения рейтинга RUR and один из избыточно устойчивых алгоритмов для ранговых шкал.
Novelty: Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора and оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.
5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения
consultant: А.П. Мотренко
Task: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей and найти структуру, наиболее согласованную с мнением Expertа.
References:
- R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
- J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
- J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
Basic algorithm: моделирование структурных уравнений, SEM
Novelty: Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры and оценкой достоверности высказывания.
18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами
consultant: А.П. Мотренко
Task: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда and исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных and выявлению связей между ними; описать границы применимости базового алгоритма and предложить новые варианты выявляемых структурных связей. Data: Синтетические данные, исторические биржевые цены на основные инструменты and данные по железнодорожным грузоперевозкам.
References:
- Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
- Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
- George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
Basic algorithm: convergent cross mapping
Novelty: Предложены различные структуры связей между временными рядами and метод проверки наличия связей
6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов
consultant: М.П. Кузнецов
Task: Предложить and протестировать на тестовых and реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).
Data: Синтетические данные, данные по текстовым коллекциям LIG.
References:
- Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
- Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
- Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
- Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
- Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.
Basic algorithm: Алгоритм полного перебора допустимых суперпозиций порождающих функций.
Novelty: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции and понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей
consultant: Р.А. Сологуб, М.П. Кузнецов
Task: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма and для алгоритма поэлементного сравнения отображений.
Data: Данные по биржевым опционам: зависимость волатильности опциона от цены and времени его исполнения.
References:
- Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
- Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
- Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
- Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
- Strizhov V.V., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.
Basic algorithm: Алгоритм поэлементного сравнения отображений.
Novelty: Предложен быстрый алгоритм упрощения суперпозиций and поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.
8. Построение прогностических моделей как суперпозиций Expertно-заданных функций
consultant: Н.П. Ивкин
Task: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).
Data: данные с акселерометра мобильного телефона.
References:
- Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
- Хайкин С. Нейронные сети. Вильямс, 2006.
Basic algorithm: нейронная сеть (вариант: нейронная сеть глубокого обучения).
Novelty: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.
Сравнение структурной and топологической сложности в Taskх классификации.
9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов
consultant: Н.П. Ивкин
Task: Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба and др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.
Data: данные с акселерометра мобильного телефона.
References:
- Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011
Basic algorithm: нейронная сеть
Novelty: предложен способ классификации квазипериодических временных рядов на основе многообразий
10. Интерпретация мультимоделей при обработке социологических данных
consultant: А.А. Адуенко
Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей and градиентный бустинг.
Data: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).
References:
- смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
- бустинг (лекция «Композиционные методы классификации and регрессии» Воронцова)
Basic algorithm: бустинг.
Novelty: Выявление and объяснение сходств and различий решений, полученных двумя указанными алгоритмами.
11. Выбор оптимальных структур прогностических моделей методами структурного обучения
consultant: А.А. Варфоломеева
Task: Предлагается решать задачу прогнозирования в два этапа: сначала по Storyм построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.
Data: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.
References:
- Jaakkola T. Scaled structured prediction.
- URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Basic algorithm: алгоритм метапрогнозирования, описанный в дипломной работе.
Novelty: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.
12. Инварианты при прогнозировании квазипериодических рядов
consultant: А.А. Кузьмин
Task: Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.
Data: почасовые данные о ценах and объема потребления электроэнергии (вставить ссылку).
References:
- Сандуляну Л.Н., Strizhov V.V. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
- (взять из последней статьи Фадеева)
Basic algorithm: авторегрессионное прогнозирование, описанное в работе Сандуляну.
Novelty: Предложен алгоритм совместной оценки параметров инвариантов and авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.
13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток
consultant: М.М. Стенина (Медведникова)
Task: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.
Data: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.
References:
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
Basic algorithm: гистограммное прогнозирование, описанное в статье.
Novelty: предлагается повысить качество прогноза путем разделения данных на меньшие части and прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.
14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра
consultant: А.А. Токмакова
Task: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую and точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.
Data: Набор временных рядов измерений акселерометра.
References:
- Прореживание нейронных семей на сайте Machinelearning.ru.
- Хайкин С. Нейронные сети. Вильямс, 2006.
Basic algorithm: Optimal Brain Damage/Optimal Brain Surgery.
Novelty: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.
15. Метапрогнозирование временных рядов
consultant: А.С. Инякин, Н.П. Ивкин
Task: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
Data: Библиотека квазипериодических and апериодических временных рядов
References:
- Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 104-112.
- Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 92-103.
Basic algorithm: Использовать алгоритм SAS/SPSS.
Novelty: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.
16. Идентификация человека по изображению радужной оболочки глаза
consultant: И.А. Матвеев
Task: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания and более того, использование данных с затенённых участков может порождать ложные признаки and снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.
Data: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны and другие размеры) and координаты центров and радиусы двух окружностей, аппроксимирующих зрачок and радужку.
References:
- Описание задачи and предлагаемые пути решения
- Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
- Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
- MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
- Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
- G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
Basic algorithm: метод, использующий скользящее окно and текстурные признаки [2006: Xu, Zhang, Ma].
Novelty: построена маска открытой области радужки.
17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач
consultant: Ю.В. Максимов
Task: Исследовать различные подходы к решению задач классификации с многими классами and сравнить их эффективность.
Data: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc
References:
- Описание задачи and предлагаемые пути решения
- Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
- Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
- Tax, Duin. Using two-class classifiers for multiclass classification. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf
- Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101
- Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classifiers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf
Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)
Домашнее задание-2: пробное программирование
Task | Кто делает | Номер |
---|---|---|
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) and нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means and EM, and показать сравнение результатов кластеризации на графике. | Плавин | 1 |
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data. | Записать свою фамилию тут. | 2 |
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями and нарисовать спрогнозированные and исходный ряды на одном графике. | Кулунчаков Андрей. | 3 |
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным рядов and исходного ряда. | Авдюхов | 4 |
Аппроксимация выборки замкнутой кривой [138]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. | Газизуллина Римма | 5 |
Дан временной ряд с пропусками, например [139]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки. | Игнатов Андрей | 6 |
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков. | Попова Мария | 7 |
Для различных видов зависимости (линейная, квадратичная, логарифмическая) построить линейную регрессию and нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб". | Ефимова Ирина | 8 |
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. | Шинкевич Михаил | 9 |
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки and их выпуклая оболочка – замкнутая ломаная линия. | Макарова Анастасия | 10 |
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. | Жуков Андрей | 11 |
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. | Карасиков Михаил | 12 |
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. | Гринчук Алексей | 13 |
Сгенерировать набор точек на плоскости. Выделить and визуализировать главные компоненты. | Липатова | 14 |
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм. | Швец Михаил | 15 |
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами. | Гущин Александр | 16 |
И еще задания на выбор | ||
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). | 17 | |
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга. | Костюк | 18 |
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? | Гиззатуллин Анвар | 19 |
Показать разницу в скорости выполнения матричных операций and операций в цикле. Можно использовать в качестве примера Сингулярное разложение and другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). | 20 | |
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные). |
2013
Моя первая публикация с кросс-рецензированием
Задачи
Task name | Author | Link | MAIPVTDCHSJ |
---|---|---|---|
Определение напечатанного изображения | Пушняков Алексей | [140] | MAIPVTDCHSJ |
Сравнение быстрых алгоритмов кластеризации | Катруца Александр | [141] | MAIPVTDCHS |
Векторная авторегрессия and управление макроэкономическими показателями | Кащеева Мария | [142] | MAIPVTDCHS |
Разметка библиографических записей с помощью логических алгоритмов | Рыскина Мария | [143] | MAIPVTDCHS |
Определение точной границы зрачка | Чинаев Николай | [144] | MAIPV.DCHS |
Векторная авторегрессия and управление макроэкономическими показателями | Гринчук Олег | [145] | MAIPVTD.HS |
Порождение нейронных сетей с Expertно-заданными функциями активации | Перекрестенко Дмитрий | [146] | MAIPVTDСHS |
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей | Яшков Даниил | [147] | MAI.VTD.HS |
Инвариантные преобразования в Taskх локального прогнозирования | Костин Александр | [148] | MAI.VT.HS |
Алгоритм генетического программирования для решения задачи прогнозирования | Воронов Сергей | [149] | MAIPVTDC.S |
Группировка номинальных переменных в Taskх банковского кредитного скоринга | Митяшов Андрей | [150] | MAIPVTDCHS |
Моделирование процесса обучения and забывания при оценке качества производства | Неклюдов Кирилл | [151] | MAI..DC.S |
Обзор алгоритмов упрощения алгебраических выражений | Шубин Андрей | [152] | MAIPVTD.S |
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии | Ибраимова Айжан | [153] | MAIP.TD.. |
Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов | Бырдин Александр | [154] | MAI.TD.S |
Визуализация матрицы парных расстояний в тематическом моделировании | Вдовина Евгения | [155] | MAI.TDC.S |
Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов | Антипова Наташа | [156] | MAIP.T..S |
Task 2. Surname2013MassProduction (*eng)
- Название. Порождение and оптимизация логических описаний при построении производственных линий.
- Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм and протестировать его на синтетических данных.
- Данные. Требуется создать.
- References:. Нужен поиск (скорее всего немецких публикаций).
- Предлагаемый алгоритм. Обсуждается.
- Базовый алгоритм. Нет.
Task 3. Surname2013LearnForget (eng)
- Название. Моделирование процесса обучения and забывания при оценке качества производства.
- Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
- Данные. Данные по скорости and качеству сборки бумажных самолетиков.
- References:. Нужно искать.
- Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
- Базовый алгоритм. Регрессионная модель в прилагаемой статье.
Task 4. Surname2013GeneticProg
- Название. Алгоритм генетического программирования для решения задачи прогнозирования.
- Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП and с нейронными сетями.
- Данные. Тестовый набор задач, взять на UCI или на Полигоне.
- References:. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
- Предлагаемый алгоритм. ГП.
- Базовый алгоритм. ГП, нейронные сети.
Task 5. Surname2013Simplify
- Название. Обзор алгоритмов упрощения алгебраических выражений.
- Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
- Данные. Собрать тестовую коллекцию выражений.
- References:. Graph rewriting.
- Предлагаемый алгоритм. Р/С, сравнение алгоритмов.
Task 6. Surname2013RedListExplanation
- Название. Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
- Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным and "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
- Данные. экспертные оценки краснокнижных видов.
- References:. References: по алгоритмам метрической классификации.
- Предлагаемый алгоритм. Метод или алгоритм, который сообщает Expertу почему (sic!) объект не попал в предполагаемый Expertом класс.
Task 7. Surname2013RedListClassification
- Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
- Проблема. Применить решающее дерево к Expertным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
- Данные. экспертные оценки краснокнижных видов.
- References:. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.
Task 11. Surname2013Invaraint4LocalForecast
- Название. Инвариантные преобразования в Taskх локального прогнозирования.
- Проблема. Совместить алгоритмы инвариантного преобразования времени and амплитуды прогнозируемых временных рядов.
- Данные. Временные ряды измерения пульсовой волны.
- References:. Найти, избежать тривиальных ссылок.
Task 8. Surname2013PlausibleExpert
- Название. Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
- Проблема. Исследование взаимосвязи биржевых цен на основные инструменты and железнодорожных грузоперевозок.
- Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
- References:. Публикации по CCM.
- Предлагаемый алгоритм. Модификации ССМ.
Task 9. Surname2013DeepLearning
- Название. Порождение нейронных сетей с Expertно-заданными функциями активации.
- Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления and цен на электроэнергию.
- Данные. Посуточные данные за три года.
- References:. Deep Learning.
- Предлагаемый алгоритм. Построение нейронной сети and оценка ее параметров.
Task 16. Surname2013ScoringSelection
- Название. Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии.
- Проблема. С помощью генетического алгоритма найти информативные объекты and признаки.
- Данные. Данные по потребительским кредитам.
- References:. -
Task 10. Surname2013ScoringFeatureSelection
- Название. Группировка номинальных переменных в Taskх банковского кредитного скоринга.
- Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
- Данные. Исторические данные по кредитам наличностью.
- References:. SAS, найти еще.
Task 15. Surname2013InverseVAR
- Название. Векторная авторегрессия and управление макроэкономическими показателями.
- Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
- Данные. Макроэкономические показатели России за последние 16 лет.
- References:. Работы С.А. Айвазяна.
Task 12. Surname2013DistanceVisualizing
- Название. Визуализация матрицы парных расстояний в тематическом моделировании.
- Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
- Данные. Тезисы конференции EURO.
- References:. Зиновьев на ML, References: по теме.
- Предлагаемый алгоритм. PCA.
- Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.
Task 13. Surname2013RhoNets
- Название. Сравнение быстрых алгоритмов кластеризации.
- Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей and быстрый алгоритм $k$-средних.
- Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
- References:. $k$-средних, $\varepsilon$-сети.
- Предлагаемый алгоритм. $\rho$-сети.
- Базовый алгоритм. $k$-средних.
Task 17. Surname2013FeatureSelection
- Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
- Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
- Данные. Синтетические.
- References:. Леонтьева/Стрижов, поискать современные обзоры.
Task 1. Surname2013Txt2Bib
- Название. Разметка библиографических записей с помощью логических алгоритмов.
- Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений and выбран адекватный алгоритм.
- Данные. В MLAlgorithms.
- References:. Работа А. Ивановой and все, что есть по теме за последние два года.
- Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
- Базовый алгоритм. Тупиковые покрытия.
Task 14. Surname2013FindTheFormula (Risky)
- Название. Алгоритм поиска текстовых структур в документе.
- Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
- Данные. Синтетические, коллекция MLAlgorithms.
- References:. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.
Task 18. Surname2013ScannedImage (Image)
- Название. Определение типа бланка.
- Проблема. Определить тип бланка по скану.
- Данные. Набор изображений в TIF.
Task 19. Surname2013SpectrumImage (Image)
- Название. Определение напечатанного изображения.
- Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
- Данные. Набор изображений в JPG, отнесенных в два класса.
Task | Кто делает |
---|---|
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс and ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? | Митяшов Андрей |
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? | Неклюдов Кирилл |
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. | Рыскина Мария |
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. | Шубин Андрей |
Разобраться как работает web-соединение and regexp. Сделать поисковый запрос по теме and сверстать из нее запись BibTeX. | |
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? | Воронов Сергей |
Повернуть and увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. | Антипова Наташа |
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? | Вдовина Евгения |
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). | Гринчук Олег |
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. | Пушняков Алексей |
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. | Кащеева Мария |
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. | Ибраимова Айжан |
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. | Яшков Даниил |
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? | |
Создать несколько групп точек на плоскости and выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. | Перекрестенко Дмитрий |
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить and проиграть определенную ноту. | |
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. | Бырдин Александр |
Показать разницу в скорости выполнения матричных операций and операций в цикле. Показать эффективность параллельных вычислений (parfor and другие). | Катруца Александр |
Предложить варианты визуализации четырехмерных векторов and пространств. Сравнить их со встроенной функцией. | |
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга. | Чинаев Николай |
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. | Костин Александр |
2012
Тематическое моделирование: публикация в журнале ВАК
Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013. |
Список задач
Task name | Author | Link to work | Comments |
---|---|---|---|
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации | Медведникова Мария | [157] | Опубликовано |
Иерархическая тематическая кластеризация тезисов and визуализация | Кузьмин Арсентий | [158] | Опубликовано |
Совместный выбор объектов and признаков в Taskх многоклассовой классификации. | Адуенко Александр | [159] | Опубликовано |
Построение иерархических тематических моделей | Цыганова Светлана | [160] | Опубликовано |
Выбор признаков в Taskх структурной регрессии | Варфоломеева Анна | [161] | Принято |
Статистические критерии однородности and согласия для сильно разреженных дискретных распределений | Целых Влада | Опубликовано | |
Построение логических правил при разметке текстов | Иванова Алина | [163] | Принято |
Проверка адекватности тематической модели | Степан Лобастов | [164] | Редакция |
1. 2012CoRegression
- Name: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
- Тизер: Построение интегральной оценки эффективности научной деятельности.
- Data: Синтетические. ПРНД сотрудников. Таблица авторы-журналы and число статей выбранных авторов в журналах.
- References: К.В.Воронцов «Коллаборативная фильтрация».
- Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
- Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
- Basic algorithm: Вычисленный IF журналов and h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
- Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов and журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
2. 2012ExpertRanking
- Name: Согласование ранговых Expertных оценок.
- Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
- Data: Интернет-голосование за список книг, голосование без кооптации.
- References: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
- Предлагаемый алгоритм: Нахождение пересечения конусов and оценка эффективной размерности пространства или другой алгоритм.
- Basic algorithm: Медиана Кемени and другие алгоритмы.
- Проблема: Требуется проиллюстрировать and изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.
3. 2012StructureRegression
- Name: Выбор признаков в Taskх структурной регрессии
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
- Data: библиографические записи из BibTeX collection on CS.
- References: работы Jaakkola and его команды, возможно, код.
- Предлагаемый алгоритм: Структурная регрессия.
- Basic algorithm: описан Валентином.
- Требуется: сегментировать входной текст and поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
4. 2012LogicClassification
- Name: Построение логических правил при разметке текстов
- Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
- Data: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
- References: работы Инякина, Чувилина, Кудинова.
- Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
- Basic algorithm: описан Валентином.
- Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.
5. 2012RankClustering
- Name: Ранговая кластеризация and алгоритмы динамического выравнивания.
- Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
- Data: Испорченные and некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
- References: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
- Ключевые слова: DTW — модификации, k-Means.
- Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
- Basic algorithm: k-Means and его высокопроизводительные вариации.
- Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать and учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
6. 2012ThematicClustering
- Name: Проверка адекватности тематической модели.
- Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
- Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
- References: по кластеризации, and введению расстояний между текстами как мешками слов.
- Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
- Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
- Basic algorithm: k-Means
- Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
7. 2012ThematicHierarchy
- Name: Построение иерархических тематических моделей.
- Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
- Data: Тексты тезисов.
- References: иерархические модели, topic modelling.
- Ключевые слова: иерархическое тематическое моделирование.
- Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
- Basic algorithm: PLSA--LDA.
- Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
8. 2012ThematicVisualizing
- Name: Визуализация иерархических тематических моделей.
- Тизер: На материалах конференции EURO.
- Data: Тексты тезисов конференции Евро-2012.
- References: многомерное шкалирование, кластеризация.
- Ключевые слова: визуализация графов.
- Предлагаемый алгоритм:
- Basic algorithm: --
- Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной and фактический кластеризации.
9. 2012CovSelection
- Name: Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
- Тизер: Ранжирование поисковых выдач Яндекса.
- Data: Яндекс – математика.
- References: Бишоп, Стрижов.
- Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
- Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
- Basic algorithm: SVM.
- Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что and данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
10. 2012ThematicMatching
- Name: Определение соответствия документа тематике на основе выделения ключевых фраз.
- Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
- Data: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
- References: (Статья С. Царькова «Морфологические and статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
- Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические and статистические признаки.
- Предлагаемый алгоритм:
- Basic algorithm: C-Value and TF-IDF.
- Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
- Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
- Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
11. 2012FeatureGen
- Name: Последовательное порождение and выбор признаков в задаче многоклассовой классификации
- Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
- Data: синтетические, интернет-коллекция.
- References: Стрижов, Рудой.
- Ключевые слова: порождение признаков, поиск изоморфных моделей.
- Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
- Basic algorithm: решающие деревья.
- Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.
12. 2012TypeDetection
- Name: Методы извлечения признаков из текстовой информации
- Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
- Data: синтетические, интернет-коллекция.
- References: Найти.
- Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
- Предлагаемый алгоритм.
- Базовый алгоритм.
- Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.
Темы К.В. Воронцова
- 2012SparceDistribution Статистические критерии однородности and согласия для сильно разреженных дискретных распределений (В.Ц.)
2012LatentModels
- Name: Проверка адекватности тематической модели.
- Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
- Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
- References: по латентным моделям.
- Ключевые слова: мягкая кластеризация, латентные модели.
- Предлагаемый алгоритм: hHDP.
- Basic algorithm: HDP.
- Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
Ссылки
https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.
References:
https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.
Публикация работ
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов and редактора учтены) >> Опубликовано (вышел номер).
Task name | Author | Link to the journal | The original text of the work | Date of application | State |
---|---|---|---|---|---|
Выбор признаков and оптимизация метрики при кластеризации коллекции документов | Адуенко А.А., Кузьмин А.А., Strizhov V.V. | Известия ТулГу | [165] | 12.10.2012 | Опубликовано |
Оценивание вероятностей появления строк в коллекции документов | Будников Е.А., Strizhov V.V. | Информационные технологии | [166] | 24.09.2012 | Опубликовано |
Проверка адекватности тематических моделей коллекции документов | Кузьмин А.А., Strizhov V.V. | Программная инженерия | [167] | 17.12.2012 | Опубликовано |
Алгоритм оптимального расположения названий коллекции документов | Адуенко А.А., Strizhov V.V. | Программная инженерия | [168] | 13.11.2012 | Опубликовано |
Визуализация матрицы парных расстояний между документами | Адуенко А.А., Strizhov V.V. | Научно-технические ведомости С.-Пб.ПГУ | [169] | 29.10.2012 | Подано |
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации | Медведникова М.М., Strizhov V.V. | Известия ТулГу | [170] | 15.11.2012 | Опубликовано |
Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов | Адуенко А.А., Strizhov V.V. | Инфокоммуникационные технологии | [171] | 18.12.2012 | Опубликовано |
Алгоритм построения логических правил при разметке текстов | Иванова А.В., Адуенко А.А., Strizhov V.V. | Программная инженерия | [172] | 24.01.2013 | Принято |
Построение иерархических тематических моделей коллекции документов | Цыганова С.В., Strizhov V.V. | Прикладная информатика | [173] | 27.01.2013 | Опубликовано |
Выбор признаков при разметке библиографических списков методами структурного обучения | Варфоломеева А.А., Strizhov V.V. | Научно-технические ведомости С.-Пб.ПГУ | [174] | 27.01.2013 | Отрецензировано |
Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании | Целых В.Р., Воронцов К.В. | Машинное обучение and анализ данных | [175] | 17.12.2012 | Опубликовано |
Проверка адекватности тематической модели | Степан Лобастов | [176] | Редакция |
Список принятых к публикации работ
- 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
- 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков and оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
- 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
- 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
- 5. Кузьмин А. А., Strizhov V.V. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
- 6. Медведникова М. М., Strizhov V.V. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
- 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
- 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
- 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
- 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
- 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
Моя первая публикация с кросс-рецензированием
Список задач
Task name | Author | Reviewer | Link to work | Comments |
---|---|---|---|---|
CMARS: аппроксимация сплайнами | Влада Целых | Татьяна Шпакова | Celyh2012CMARS | [.]сaipvdstrj(10) |
Алгоритмические основы построения банковских скоринговых карт | Alexander Aduenko | Алина Иванова | Aduenko2012economics | [.]сaipvdstrj(10) |
Использование метода главных компонент при построении интегральных индикаторов | Мария Медведникова | Светлана Цыганова | Medvednikova2012PCA | [r]сaipvdstrj(10) |
Многоуровневая классификация при обнаружении движения цен | Арсентий Кузьмин | Анна Варфоломеева | Kuzmin2012TimeRows | [r]сaipvdstjr(10) |
Локальные методы прогнозирования с выбором инвариантного преобразования | Светлана Цыганова | Мария Медведникова | Tsyganova2012 LocalForecast | [r]сaipvdstjr(10) |
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример) | Егор Клочков | Александр Шульга | Klochkov2012Goods4Cast | [r]сaipvdstj.(10) |
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии (пример) | Степан Лобастов | Егор Клочков | Lobastov2012FOSelection | [r]сaipvdstrj(10) |
Локальные методы прогнозирования с выбором метрики | Анна Варфоломеева | Арсентий Кузьмин | Varfolomeeva2012 LocForecastMetrics | [r]сaipvdstjr(10) |
Полиномы Чебышева and прогнозирование временных рядов | Валерия Бочкарева | Степан Лобастов | Bochkareva2012TimeSeriesPrediction | [.]сaipvdst-r(9) |
Кластеризация and составление словаря аминокислотных последовательностей | Татьяна Шпакова | Влада Целых | Shpakova2012Clustering | [.]сaipvdst.(9) |
Векторная авторегрессия and управление макроэкономическими показателями | Александр Шульга | Shulga2012VAR | [.]сaipvds..(9) | |
Аппроксимация эмпирических функций распределения | Алина Иванова | Alexander Aduenko | Ivanova2012 ApproximateFunc | [r]сaipvd..(9) |
Аннотации
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [177] and кредитном скроллинге. В реальных условиях число признаков обычно велико, and важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.
Ключевые слова: logit model, feature selection, boosting.
Использование метода главных компонент при построении интегральных индикаторов
В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.
Ключевые слова: интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.
Аппроксимация эмпирических функций распределения
Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических Taskх обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.
Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.
Методы локального прогнозирования с выбором преобразования
Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.
Ключевые слова: локальное прогнозирование, преобразование
Черновой список задач
- Кластеризация and составление словаря аминокислотных последовательностей
- Oblivious decision trees: алгоритм Яндекс для системы Полигон
- Сравнительный анализ регрессионных остатков в SVN-регрессии
- Алгоритмы нахождения гауссовских смесей
- Прогноз квазипериодических многомерных временных рядов непараметрическими методами
- Многоуровневая классификация при обнаружении движения цен
- CMARS: аппроксимация сплайнами
- Полиномы Чебышева and метод прогонки при прогнозировании временных рядов
- Сравнение методов ARMA and FLS при ретроспективном прогнозировании
- Локальные методы прогнозирования с выбором метрики
- Локальные методы прогнозирования с выбором инвариантного преобразования
- Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
- Векторная авторегрессия and управление макроэкономическими показателями
- Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников
Ещё задачи
- Анализ текста методами структурного обучения
- Аппроксимация эмпирических функций распределения
- Алгоритмические основы построения банковских скоринговых карт
- Сингулярное разложение and поисковая машина
- Сравнение алгоритмов многокритериальной оптимизации
- Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
- Уточнение Expertных оценок при анализе работы механизма устойчивого развития энергетики
- Визуализация пространства параметров регрессионных моделей
- Восстановление регрессии методом главных компонент
- Оценка гиперпараметров путем сэмплирования
- Прореживание существенно нелинейных моделей с помощью гиперпараметров
- Фактор Оккама для параметрических моделей с известной областью определения параметров
- Создание алгоритмов последовательной модификации моделей
- Порождение and выбор моделей классификации
and еще задачи
- Функция расстояния между формулами and поиск.
- Поиск объектов (техническая работа).
+
- Авторегрессия
- Векторная авторегрессия
- Экспоненциальное сглаживание
- Локальные методы, поиск метрики
- Локальные методы с инвариантами, метрика фиксирована
- ARIMA
- Многомерная гусеница, выбор длины гусеницы
- Многомерная гусеница, выбор рядов
- Прогнозирование с использованием DTW
- Скользящее среднее, выбор ядер
- Скользящее среднее с забыванием истории
- Скользящее среднее временных рядов с периодической составляющей
- Прогнозирование нейронными сетями
- Анализ качества прогноза
- Метаописание временных рядов
- Логическое прогнозирование
- SVN – регрессия
- Дискретное прогнозирование, музыка.
Составить
- Список типичных типографических ошибок
- Список ошибок BibTeX
2011
Публикация в журнале JMLDA
Перед выполнением заданий рекомендуются к прочтению
- Численные методы обучения по прецедентам
- Отчет о выполнении исследовательского проекта
- Автоматизация and стандартизация научных исследований
Задачи
Название задачи | Работу выполняет | Рецензент | Ссылка на работу | Комментарии |
---|---|---|---|---|
Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых and коррелирующих признаков | Токмакова Александра | Мотренко Анастасия | Tokmakova2011HyperPar | |
Выбор моделей прогнозирования цен на электроэнергию | Леонтьева Любовь | Гребенников Евгений | Leonteva2011ElectricityConsumption | |
Многоклассовый прогноз вероятности наступления инфаркта and оценка необходимого объема выборки пациентов (пример) | Мотренко Анастасия | Токмакова Александра | Motrenko2011HAPrediction | |
Алгоритмы порождения существенно-нелинейных моделей | Георгий Рудой | Николай Балдин | Rudoy2012Generation | |
Событийное моделирование and прогноз финансовых временных рядов | Александр Романенко | Егор Будников | Romanenko2011Event | |
Обзор некоторых статистических моделей естественного языка | Егор Будников | Александр Романенко | Budnikov2011Statistical |
Моя первая публикация в журнале JMLDA
Перед выполнением заданий рекомендуются к прочтению
- Численные методы обучения по прецедентам
- Отчет о выполнении исследовательского проекта
- Автоматизация and стандартизация научных исследований
См. также
Задачи
Название задачи | Работу выполняет | Работу рецензирует | Ссылка на работу | Комментарии |
---|---|---|---|---|
Использование теста Гренджера при прогнозировании временных рядов | Анастасия Мотренко | Любовь Леонтьева | Motrenko2011GrangerForc | Опубл. в JMLDA |
Выбор функции активации при прогнозировании нейронными сетями | Георгий Рудой | Николай Балдин | Rudoy2011NNForecasting | Опубл. в JMLDA |
Многомерная гусеница, выбор длины and числа компонент гусеницы (пример) | Любовь Леонтьева | Михаил Бурмистров | Leonteva2011GaterpillarLearning | Опубл. в JMLDA |
Прогнозирование функциями дискретного аргумента (пример) | Егор Будников | Александр Романенко | Budnikov2011DiscreteForecasting | Опубл. в JMLDA |
Исследование сходимости при прогнозировании нейронными сетями с обратной связью | Николай Балдин | Георгий Рудой | Baldin2011FNNForecasting | Опубл. в JMLDA |
Выравнивание временных рядов: прогнозирование с использованием DTW | Александр Романенко | Егор Будников | Romanenko2011DTWForecasting | Опубл. в JMLDA |
Выделение периодической компоненты временного ряда (пример) | Александра Токмакова | Егор Будников | Tokmakova2011Periodic | Опубл. в JMLDA |
Краткое описание задач
Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров
В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра and наложенного шума.
Task 2: Экспоненциальное сглаживание and прогноз
В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.
Task 3: Выделение периодической компоненты временного ряда (пример)
В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции and метода наименьших квадратов на зашумлённом модельном синусе and реальном временном ряде электрокардиограммы.
Task 4: Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда) (пример)
В работе описывается метод гусеницы and его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент and последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы and числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.
Task 5: Прогнозирование функциями дискретного аргумента (пример)
В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.
Task 7: Локальные методы прогнозирования,поиск метрики
Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.
Task 8: Локальные методы прогнозирования, поиск инвариантного преобразования
В проекте используются локальные методы прогнозирования временных рядов. В этих методах не находится представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).
Пусть имеется временной ряд, and стоит Task продолжить его. Предполагается, что такое продолжение определяется предысторией, т.е. в ряде нужно найти часть, которая после некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A and есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков временного ряда (подробнее об этом см. здесь). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.
Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)
Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной . Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей and его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине and других сферах.
Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности and транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".
Task 10: Выбор функции активации при прогнозировании нейронными сетями
Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- and многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.
Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа and параметров функции активации.
Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью
Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего and предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана. Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое and от ширины скользящего окна. Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.
Task 13: Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)
Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки and сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся and периодических до шумовых), и, наконец, восстановление ряда.
Областью применения алгоритма являются задачи как метеорологии and геофизики, так and экономики and медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.
Task 14: Использование теста Гренджера при прогнозировании временных рядов
При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений and явлений природного характера (например, землятрясений).
Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.
Task 15: Прогнозирование and аппроксимация сплайнами
Описание.
Task 16: ARIMA and GARCH при прогнозировании высоковолатильных рядов
Описание.
Task 17: Прогнозирование and SVN–регрессия
Описание.
Доклады and экзамен (возможны уточнения)
- Доклад-1 6 апреля
- Контрольная точка 12 мая
- Экзамен 19 мая
Список задач, черновик
- Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
- Прогнозирование and экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
- Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
- Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда)
- Многомерная гусеница, выбор временных рядов при прогнозировании
- Многомерная авторегрессия
- Локальные методы прогнозирования, поиск метрики
- Локальные методы прогнозирования, поиск инвариантного преобразования
- Прогнозирование с использованием пути наименьшей стоимости (DTW)
- Выбор функции активации при прогнозировании нейронными сетями
- Выбор ядра при прогнозировании функциями радиального базиса
- Исследование сходимости при прогнозировании нейронными сетями с обратной связью
- Прогнозирование функциями дискретного аргумента
- Использование теста Гренджера при прогнозировании временных рядов
- Прогнозирование and SVN – регрессия
- ARIMA and GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
- Прогнозирование and аппроксимация сплайнами
- Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты