Участник:Strijov/Drafts

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 156: Строка 156:
===Task 74===
===Task 74===
* '''Name:''' Existence conditions for hidden feedback loops in recommender systems
* '''Name:''' Existence conditions for hidden feedback loops in recommender systems
-
* '''Problem description:''' В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних и тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
+
* '''Problem description:''' В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних and тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
-
* '''Task: '''Понятно, что алгоритм не знает интересов пользователя и пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения и нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t и выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
+
* '''Task: '''Понятно, что алгоритм не знает интересов пользователя and пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения and нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t and выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
* '''Data:''' создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
* '''Data:''' создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
* '''References:'''
* '''References:'''
Строка 164: Строка 164:
*# Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
*# Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
* '''Basic algorithm:''' Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
* '''Basic algorithm:''' Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
-
* '''Solution:''' Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров и оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
+
* '''Solution:''' Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров and оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
-
* '''Novelty:''' Исследуемый эффект положительной обратной связи наблюдается в реальных и модельных системах и описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях Task ранее не ставилась и не решалась для рекомендательных систем. Для задачи регрессии решение известно.
+
* '''Novelty:''' Исследуемый эффект положительной обратной связи наблюдается в реальных and модельных системах and описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях Task ранее не ставилась and не решалась для рекомендательных систем. Для задачи регрессии решение известно.
-
* '''Authors:''' Expert, consultant - Антон Хританков
+
* '''Authors:''' Expert, consultant - Anton Khritankov
===Task 77===
===Task 77===
-
* '''Name:''' Определение фазы и разладки движения человека по сигналам носимых устройств
+
* '''Name:''' Определение фазы and разладки движения человека по сигналам носимых устройств
-
* '''Task:''' Исследуется широкий класс периодических движений человека или животного. Требуется найти начало и конец движения. Требуется понять, когда заканчивается один тип движения и начинается другой. Для этого решается Task сегментации временных рядов. Строится фазовая траектория одного движения и отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории и указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
+
* '''Task:''' Исследуется широкий класс периодических движений человека или животного. Требуется найти начало and конец движения. Требуется понять, когда заканчивается один тип движения and начинается другой. Для этого решается Task сегментации временных рядов. Строится фазовая траектория одного движения and отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории and указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
-
* '''Data:''' 
Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх и вниз по лестнице и т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета [https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones UCI HAR]
+
* '''Data:''' 
Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх and вниз по лестнице and т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета [https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones UCI HAR]
* '''References:'''
* '''References:'''
*# A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476
1.(Сегментация временных рядов с периодическими действиями: решалась Task сегментации с использованием фазового пространства фиксированной размерности.) [http://strijov.com/papers/MotrenkoStrijov2014RV2.pdf PDF][http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
*# A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476
1.(Сегментация временных рядов с периодическими действиями: решалась Task сегментации с использованием фазового пространства фиксированной размерности.) [http://strijov.com/papers/MotrenkoStrijov2014RV2.pdf PDF][http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
*# A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14.
( Классификация человеческой активности с помощью сегментации временных рядов
: исследовались классификаторы над получаемыми сегментами.) [https://rdcu.be/6oBD PDF][http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
*# A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14.
( Классификация человеческой активности с помощью сегментации временных рядов
: исследовались классификаторы над получаемыми сегментами.) [https://rdcu.be/6oBD PDF][http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
-
*# Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты
: исследовались методы сегментации с использованием анализа главных компонент и перехода в фазовое пространство.) [http://www.machinelearning.ru/wiki/images/c/cd/Grabovoy2019BSThesis.pdf Text] [http://www.machinelearning.ru/wiki/images/1/19/Grabovoy2019TimeSeriesClusteringSlides.pdf Slides] [https://doi.org/10.1134/S1995080220030075
1 DOI]
+
*# Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты
: исследовались методы сегментации с использованием анализа главных компонент and перехода в фазовое пространство.) [http://www.machinelearning.ru/wiki/images/c/cd/Grabovoy2019BSThesis.pdf Text] [http://www.machinelearning.ru/wiki/images/1/19/Grabovoy2019TimeSeriesClusteringSlides.pdf Slides] [https://doi.org/10.1134/S1995080220030075
1 DOI]
-
* '''Basic algorithm:''' 
Базовый алгоритм описан в 1 и 3 работах, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/ код тут], код работы 3 у автора.
+
* '''Basic algorithm:''' 
Базовый алгоритм описан в 1 and 3 работах, [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/ код тут], код работы 3 у автора.
-
* '''Solution:''' 
Предлагается рассмотреть различные алгоритмы понижения размерности и сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
+
* '''Solution:''' 
Предлагается рассмотреть различные алгоритмы понижения размерности and сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
-
* '''Novelty:''' 
В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг и в течение полутора шагов это поняли) - вообще будет замечательно.
+
* '''Novelty:''' 
В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг and в течение полутора шагов это поняли) - вообще будет замечательно.
-
* '''Authors:''' 
consultants: Кормаков Г.В., Тихонов Д.М., Expert Стрижов В.В.
+
* '''Authors:''' 
consultants: Kormakov G.V., Tikhonov D.M., Expert Strizhov V.V.
===Task 78===
===Task 78===
* '''Name:''' Importance Sampling for Scenario Approximation of Chance Constrained Optimization
* '''Name:''' Importance Sampling for Scenario Approximation of Chance Constrained Optimization
-
* '''Task:''' Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, Task минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов и потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях Task не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети и решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.            
+
* '''Task:''' Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, Task минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов and потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях Task не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети and решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.            
-
* '''Problem statement:''' найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) и численно показать эффективность применения семплирования в этой задаче.
+
* '''Problem statement:''' найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) and численно показать эффективность применения семплирования в этой задаче.
-
* '''Data:''' Данные доступны в пакетах pypower и matpower в виде csv файлов.
+
* '''Data:''' Данные доступны в пакетах pypower and matpower в виде csv файлов.
* '''References:''' Основу предлагаемых алгоритмов составляют 3 статьи:
* '''References:''' Основу предлагаемых алгоритмов составляют 3 статьи:
*# Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [https://statistics.sites.stanford.edu/sites/g/files/sbiybj6031/f/2017-10.pdf LINK]
*# Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [https://statistics.sites.stanford.edu/sites/g/files/sbiybj6031/f/2017-10.pdf LINK]
Строка 192: Строка 192:
*# Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
*# Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
* '''Basic algorithm:''' Список базовых алгоритмов представлен в этой лекции [http://niaohe.ise.illinois.edu/IE598_2020/IE598NH-lecture-10-11-CCP.pdf LINK]
* '''Basic algorithm:''' Список базовых алгоритмов представлен в этой лекции [http://niaohe.ise.illinois.edu/IE598_2020/IE598NH-lecture-10-11-CCP.pdf LINK]
-
* '''Solution:''' в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) и с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная Task, имея равные длины выборки сравнить качество решения)           
+
* '''Solution:''' в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) and с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная Task, имея равные длины выборки сравнить качество решения)           
-
* '''Novelty:''' Task давно известна в коммьюнити и scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
+
* '''Novelty:''' Task давно известна в коммьюнити and scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
-
* '''Authors:''' Expert – Yuri Maksimov, consultant – Yuri Maksimov и Alexander Lukashevich, student.
+
* '''Authors:''' Expert – Yuri Maksimov, consultant – Yuri Maksimov and Alexander Lukashevich, student.
===Task 79===
===Task 79===
* '''Name:''' Improving Bayesian Inference in Physics Informed Machine Learning
* '''Name:''' Improving Bayesian Inference in Physics Informed Machine Learning
-
* '''Task:''' Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить и найти тот, который требует минимального размера выборки (эмпирическое сравнение).
+
* '''Task:''' Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить and найти тот, который требует минимального размера выборки (эмпирическое сравнение).
-
* '''Data:''' Эксперимент предлагается провести на модельных и реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
+
* '''Data:''' Эксперимент предлагается провести на модельных and реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
* '''References:'''
* '''References:'''
*# Art Owen. Quasi Monte Carlo Sampling. [https://statweb.stanford.edu/~owen/courses/362-1011/readings/siggraph03.pdf LINK ]
*# Art Owen. Quasi Monte Carlo Sampling. [https://statweb.stanford.edu/~owen/courses/362-1011/readings/siggraph03.pdf LINK ]
Строка 206: Строка 206:
*# Polson and Solokov. Deep Learning: A Bayesian Perspective [https://arxiv.org/pdf/1706.00473.pdf LINK]
*# Polson and Solokov. Deep Learning: A Bayesian Perspective [https://arxiv.org/pdf/1706.00473.pdf LINK]
*# Кроме того: у авторов задачи есть черновик работы по этой теме
*# Кроме того: у авторов задачи есть черновик работы по этой теме
-
* '''Basic algorithm:''' Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [https://statweb.stanford.edu/~owen/courses/362-1011/readings/siggraph03.pdf LINK]). Task построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область и область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:
+
* '''Basic algorithm:''' Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [https://statweb.stanford.edu/~owen/courses/362-1011/readings/siggraph03.pdf LINK]). Task построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область and область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:
E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm [https://www.sciencedirect.com/science/article/pii/S1474667016425711 LINK] и с алгоритмами типа Hit and Run [https://statweb.stanford.edu/~cgates/PERSI/papers/hitandrun062207.pdf LINK]
E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm [https://www.sciencedirect.com/science/article/pii/S1474667016425711 LINK] и с алгоритмами типа Hit and Run [https://statweb.stanford.edu/~cgates/PERSI/papers/hitandrun062207.pdf LINK]
-
* '''Solution:''' методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) и (Owen, Maximov, Chertkov, 2017) и их приложения к ML/DL для физических задач
+
* '''Solution:''' методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) and (Owen, Maximov, Chertkov, 2017) and их приложения к ML/DL для физических задач
-
* '''Novelty:''' в существенном снижении сложности выборки и явном использовании имеющихся и аналитических результатов и лернинга для решения физических задач, до этого ML подходы и аналитические решения шли по большей части параллельными курсами
+
* '''Novelty:''' в существенном снижении сложности выборки and явном использовании имеющихся and аналитических результатов and лернинга для решения физических задач, до этого ML подходы and аналитические решения шли по большей части параллельными курсами
-
* '''Authors:''' Expert Yuri Maksimov, consultant Yuri Maksimov и Alexander Lukashevich, student.
+
* '''Authors:''' Expert Yuri Maksimov, consultant Yuri Maksimov and Alexander Lukashevich, student.
 
 
===Task 81 ===
===Task 81 ===
-
* '''Name:''' NAS — Порождение и выбор архитектур нейронных сетей
+
* '''Name:''' NAS — Порождение and выбор архитектур нейронных сетей
-
* '''Task:''' Task выбора оптимальной архитектуры нейросети ставится как Task семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности и устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры и отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе [https://drive.google.com/file/d/1Wn-CEhDKvjyZMvZdBHWUobxpizVF1G8l/view?usp=sharing Потанин-1]
+
* '''Task:''' Task выбора оптимальной архитектуры нейросети ставится как Task семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности and устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры and отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе [https://drive.google.com/file/d/1Wn-CEhDKvjyZMvZdBHWUobxpizVF1G8l/view?usp=sharing Potanin-1]
-
* '''Data:''' : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным и общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет и ноутбук для загрузки данных [https://drive.google.com/file/d/19Cxtf3dg7gHFHyDXYAI0cEoT7PaNl4IR/view?usp=sharing данные].
+
* '''Data:''' : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным and общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет and ноутбук для загрузки данных [https://drive.google.com/file/d/19Cxtf3dg7gHFHyDXYAI0cEoT7PaNl4IR/view?usp=sharing данные].
* '''References:'''
* '''References:'''
-
*# [https://drive.google.com/file/d/1Wn-CEhDKvjyZMvZdBHWUobxpizVF1G8l/view?usp=sharing Потанин - 1]
+
*# [https://drive.google.com/file/d/1Wn-CEhDKvjyZMvZdBHWUobxpizVF1G8l/view?usp=sharing Potanin - 1]
-
*# Потанин - 2. Еще одна работа, текст передается заинтересованному studentу, но без публикации.
+
*# Potanin - 2. Еще одна работа, текст передается заинтересованному studentу, но без публикации.
*# Стрижов завлаб [http://strijov.com/papers/Strijov2012ErrorFn.pdf Функция ошибки]
*# Стрижов завлаб [http://strijov.com/papers/Strijov2012ErrorFn.pdf Функция ошибки]
*# [http://strijov.com/papers/HyperOptimizationEng.pdf Informtica]
*# [http://strijov.com/papers/HyperOptimizationEng.pdf Informtica]
Строка 226: Строка 226:
*# [https://arxiv.org/pdf/1912.01412.pdf Symbols]
*# [https://arxiv.org/pdf/1912.01412.pdf Symbols]
*# [http://nn.cs.utexas.edu/downloads/papers/stanley.cec02.pdf NEAT]
*# [http://nn.cs.utexas.edu/downloads/papers/stanley.cec02.pdf NEAT]
-
* '''Basic algorithm:''' Ближайшая по теме [https://weightagnostic.github.io/ работа], и ее [https://github.com/google/brain-tokyo-workshop/tree/master/WANNRelease/WANN код] реализации. Актуальный [https://drive.google.com/file/d/19Cxtf3dg7gHFHyDXYAI0cEoT7PaNl4IR/view?usp=sharing код] от consultantа.
+
* '''Basic algorithm:''' Ближайшая по теме [https://weightagnostic.github.io/ работа], and ее [https://github.com/google/brain-tokyo-workshop/tree/master/WANNRelease/WANN код] реализации. Актуальный [https://drive.google.com/file/d/19Cxtf3dg7gHFHyDXYAI0cEoT7PaNl4IR/view?usp=sharing код] от consultantа.
-
* '''Solution:''' Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать и улучшить. А именно, выделить два модуля: порождение и отклонение и сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
+
* '''Solution:''' Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать and улучшить. А именно, выделить два модуля: порождение and отклонение and сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
-
* '''Novelty:''' Нейронные сети отлично справляются с Taskми компьютерного зрения, обучения с подкреплением и обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей и свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому Task выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
+
* '''Novelty:''' Нейронные сети отлично справляются с Taskми компьютерного зрения, обучения с подкреплением and обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей and свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому Task выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
-
* '''Authors:''' consultant Марк Потанин, Expert Вадим Стрижов.
+
* '''Authors:''' consultant Mark Potanin, Expert Strizhov V.V.
===Task 82===
===Task 82===
-
* '''Name:''' Обучение с Expertом для выборки со многими доменами.
+
* '''Name:''' Training with an Expert for a sample with many domains.
* '''Task:''' Рассматривается Task аппроксимации multi-domain выборки единой мультимоделью — смесью Expertов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная Task оптимизации на основе ЕМ-алгоритма.
* '''Task:''' Рассматривается Task аппроксимации multi-domain выборки единой мультимоделью — смесью Expertов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная Task оптимизации на основе ЕМ-алгоритма.
* '''Data:''' В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
* '''Data:''' В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
Строка 239: Строка 239:
*# [http://www.mysmu.edu/faculty/jingjiang/papers/da_survey.pdf http://www.mysmu.edu/faculty/jingjiang/papers/da_survey.pdf]
*# [http://www.mysmu.edu/faculty/jingjiang/papers/da_survey.pdf http://www.mysmu.edu/faculty/jingjiang/papers/da_survey.pdf]
*# [https://dl.acm.org/doi/pdf/10.1145/3400066 https://dl.acm.org/doi/pdf/10.1145/3400066]
*# [https://dl.acm.org/doi/pdf/10.1145/3400066 https://dl.acm.org/doi/pdf/10.1145/3400066]
-
* '''Базовый алгоритм и Solution:''' Базовое решение представлено [https://www.aclweb.org/anthology/D18-1498.pdf тут]. В работе используется метод смеси Expertов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен [https://github.com/jiangfeng1124/transfer по ссылке].
+
* '''Basic algorithm and Solution:''' Базовое решение представлено [https://www.aclweb.org/anthology/D18-1498.pdf тут]. В работе используется метод смеси Expertов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен [https://github.com/jiangfeng1124/transfer по ссылке].
* '''Novelty:''' На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
* '''Novelty:''' На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
-
* '''Authors:''' Грабовой А.В., Стрижов В.В.
+
* '''Authors:''' Grabovoi A.V., Strizhov V.V.
=== Task 17 ===
=== Task 17 ===
-
* '''Название''': BCI: Выбор согласованных моделей для построения нейроинтерфейса
+
* '''Name:''' BCI: Выбор согласованных моделей для построения нейроинтерфейса
-
* '''Task''': При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но и целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства и свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
+
* '''Task''': При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но and целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства and свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
-
*# Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ и движения руки) [http://bnci-horizon-2020.eu/database/data-sets http://bnci-horizon-2020.eu/database/data-sets]
+
*# Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ and движения руки) [http://bnci-horizon-2020.eu/database/data-sets http://bnci-horizon-2020.eu/database/data-sets]
*# neyrotycho — наши старые данные.
*# neyrotycho — наши старые данные.
* '''References:''':
* '''References:''':
-
*# Яушев Ф.Ю., Исаченко Р.В., Стрижов В.В. Модели согласования скрытого пространства в задаче прогнозирования // Системы и средства информатики, 2021, 31(1). [http://strijov.com/papers/Isachenko2020CanonicCorrelation.pdf PDF]
+
*# Яушев Ф.Ю., Исаченко Р.В., Strizhov V.V. Модели согласования скрытого пространства в задаче прогнозирования // Системы and средства информатики, 2021, 31(1). [http://strijov.com/papers/Isachenko2020CanonicCorrelation.pdf PDF]
*# Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. [https://github.com/r-isachenko/PhDThesis/raw/master/doc/Isachenko2021PhDThesis.pdf PDF]
*# Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. [https://github.com/r-isachenko/PhDThesis/raw/master/doc/Isachenko2021PhDThesis.pdf PDF]
*# Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [https://github.com/r-isachenko/PhDThesis/raw/master/pres/Isachenko2020PhDThesisPres.pdf]
*# Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [https://github.com/r-isachenko/PhDThesis/raw/master/pres/Isachenko2020PhDThesisPres.pdf]
Строка 257: Строка 257:
*# Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. [http://strijov.com/papers/MotrenkoStrijov2017ECoG_HL_2.pdf PDF]
*# Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. [http://strijov.com/papers/MotrenkoStrijov2017ECoG_HL_2.pdf PDF]
*# Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
*# Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
-
* '''Базовый алгоритм''': Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга и движение рук. СверхTask: довести до ума первую работу. Также код и работы [http://www.machinelearning.ru/wiki/index.php?title=BCI тут].
+
* '''Базовый алгоритм''': Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга and движение рук. СверхTask: довести до ума первую работу. Также код and работы [http://www.machinelearning.ru/wiki/index.php?title=BCI тут].
-
* '''Решение''': Рассматривается случай, когда исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность и устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная Task, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так и потоки.
+
* '''Решение''': Рассматривается случай, когда исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность and устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная Task, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так and потоки.
-
* '''Новизна''': Анализ прогноза и латентного пространства, получаемых парой гетерогенных моделей.
+
* '''Новизна''': Анализ прогноза and латентного пространства, получаемых парой гетерогенных моделей.
-
* '''Авторы''': consultant Роман Исаченко, Expert Вадим Стрижов
+
* '''Авторы''': consultant Roman Isachenko, Expert Strizhov V.V.
===Task 69 ===
===Task 69 ===
Строка 275: Строка 275:
*«Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
*«Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
*«Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
*«Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
-
*«Авторы»: Nikitin Filipp, Isayev Olexandr, Vadim Strijov
+
*«Авторы»: Nikitin Filipp, Isayev Olexandr, Strizhov V.V.
===Task 84===
===Task 84===
Строка 286: Строка 286:
*#[http://strijov.com/papers/Bakhteev2017Hypergrad.pdf Оптимизация гиперпараметров в двухуровенвой задаче: сравнение подходов]
*#[http://strijov.com/papers/Bakhteev2017Hypergrad.pdf Оптимизация гиперпараметров в двухуровенвой задаче: сравнение подходов]
*#[https://arxiv.org/abs/1606.04474 Метаоптимизация: нейросеть вместо оператора оптимизации]
*#[https://arxiv.org/abs/1606.04474 Метаоптимизация: нейросеть вместо оператора оптимизации]
-
* '''Basic algorithm: оптимизация модели без дистилляции и со стандартным подходом к дистилляции
+
* '''Basic algorithm: оптимизация модели без дистилляции and со стандартным подходом к дистилляции
* '''Solution:''' Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
* '''Solution:''' Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
* '''Novelty:''' Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
* '''Novelty:''' Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
-
* '''Авторы''': Олег Бахтеев, Вадим Стрижов
+
* '''Авторы''': Oleg Bakhteev, Strizhov V.V.
===Task 85===
===Task 85===
Строка 296: Строка 296:
* '''Data:''' MNIST, CIFAR
* '''Data:''' MNIST, CIFAR
* '''References:'''
* '''References:'''
-
*# Гребенькова О.С., Бахтеев О., Стрижов В.В. Вариационная оптимизация модели глубокого обучения с контролем сложности // Информатика и ее применения, 2021, 15(2). [http://strijov.com/papers/Grebenkova2020HyperNet.pdf PDF]
+
*# Гребенькова О.С., Бахтеев О., Strizhov V.V. Вариационная оптимизация модели глубокого обучения с контролем сложности // Информатика and ее применения, 2021, 15(2). [http://strijov.com/papers/Grebenkova2020HyperNet.pdf PDF]
*#[https://arxiv.org/abs/1806.09055 DARTS]
*#[https://arxiv.org/abs/1806.09055 DARTS]
*#[https://arxiv.org/abs/1609.09106 гиперсети]
*#[https://arxiv.org/abs/1609.09106 гиперсети]
Строка 302: Строка 302:
* '''Solution:''' Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
* '''Solution:''' Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
* '''Novelty:''' предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
* '''Novelty:''' предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
-
* '''Authors:''' О.Ю. Бахтеев, O. C. Гребенькова
+
* '''Authors:''' Oleg Bakhteev, Grebenkova O. S.
===Task 86 ===
===Task 86 ===
-
* '''Название''': Learning co-evolution information with natural language processing for protein folding problem
+
* '''Name:''' Learning co-evolution information with natural language processing for protein folding problem
* '''Task''': One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
* '''Task''': One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
-
* '''Полное описание''': request
+
* '''Problem description:''': request
-
* '''Авторы''': Сергей Грудинин, Мария Кадукова.
+
* '''Авторы''': Sergei Grudinin, Maria Kadukova.
===Task 87 ===
===Task 87 ===
* '''Name:''' Байесовский выбор структур обобщенно-линейных моделей
* '''Name:''' Байесовский выбор структур обобщенно-линейных моделей
-
* '''Task:''' Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров и выявление зависимости между признаками и целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
+
* '''Task:''' Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров and выявление зависимости между признаками and целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
-
* '''Актуальность:''' Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав и проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории и списка априорных предположений.
+
* '''Актуальность:''' Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав and проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории and списка априорных предположений.
* '''Data:''' Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
* '''Data:''' Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
* '''References:''' Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
* '''References:''' Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
*# Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. [http://strijov.com/papers/Katrutsa2016QPFeatureSelection.pdf PDF]
*# Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. [http://strijov.com/papers/Katrutsa2016QPFeatureSelection.pdf PDF]
*# Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183.  [http://strijov.com/papers/Katrutsa2014TestGenerationEn.pdf PDF]
*# Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183.  [http://strijov.com/papers/Katrutsa2014TestGenerationEn.pdf PDF]
-
*# Стрижов В.В. Функция ошибки в Taskх восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. [http://strijov.com/papers/Strijov2012ErrorFn.pdf PDF]
+
*# Strizhov V.V. Функция ошибки в Taskх восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. [http://strijov.com/papers/Strijov2012ErrorFn.pdf PDF]
-
*# Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf PDF]
+
*# Зайцев А.А., Strizhov V.V., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf PDF]
*# Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. [http://strijov.com/papers/HyperOptimizationEng.pdf PDF]
*# Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. [http://strijov.com/papers/HyperOptimizationEng.pdf PDF]
-
*# Катруца А.М., Стрижов В.В. Проблема мультиколлинеарности при выборе признаков в регрессионных Taskх // Информационные технологии, 2015, 1 : 8-18.  [http://strijov.com/papers/Katrutsa2014TestGeneration.pdf PDF]
+
*# Катруца А.М., Strizhov V.V. Проблема мультиколлинеарности при выборе признаков в регрессионных Taskх // Информационные технологии, 2015, 1 : 8-18.  [http://strijov.com/papers/Katrutsa2014TestGeneration.pdf PDF]
-
*# Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [http://strijov.com/papers/Neychev2015FeatureSelection.pdf PDF]
+
*# Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [http://strijov.com/papers/Neychev2015FeatureSelection.pdf PDF]
* '''Basic algorithm:''' Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
* '''Basic algorithm:''' Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
-
* '''Solution:''' Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров и структурных параметров. Сравнить различные априорные предположения.
+
* '''Solution:''' Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров and структурных параметров. Сравнить различные априорные предположения.
-
* '''Novelty:''' Статистический анализ пространства структурных параметров и визуализация
+
* '''Novelty:''' Статистический анализ пространства структурных параметров and визуализация
-
* '''Authors:''' Александр Адуенко — consultant, Вадим Стрижов
+
* '''Authors:''' Александр Адуенко — consultant, Strizhov V.V.
===Task 88===
===Task 88===
*'''Name:''' Поиск границ радужки методом круговых проекций
*'''Name:''' Поиск границ радужки методом круговых проекций
-
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
+
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
-
*'''Data:''' около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения и проверки создаваемого метода.
+
*'''Data:''' около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения and проверки создаваемого метода.
-
*'''Basic algorithm:''' Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
+
*'''Basic algorithm:''' Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
*'''References:''' Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 [https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections PDF]
*'''References:''' Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 [https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections PDF]
*'''Автор:''' Матвеев И.А.
*'''Автор:''' Матвеев И.А.
===Task 53 ===
===Task 53 ===
-
* '''Название''': Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
+
* '''Name:''' Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
-
* '''Task''': Целью задачи является решение задачи оптимизации с функциями потерь классификации и регрессии в применении к биологическим данным.
+
* '''Task''': Целью задачи является решение задачи оптимизации с функциями потерь классификации and регрессии в применении к биологическим данным.
-
* '''Данные''': Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве и 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
+
* '''Данные''': Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве and 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
* '''References:''':
* '''References:''':
** https://www.overleaf.com/read/rjdnyyxpdkyj Подробно о задаче
** https://www.overleaf.com/read/rjdnyyxpdkyj Подробно о задаче
Строка 347: Строка 347:
* '''Базовой алгоритм''': В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная Task, с реализации которой можно начать.
* '''Базовой алгоритм''': В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная Task, с реализации которой можно начать.
* '''Решение''': Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
* '''Решение''': Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
-
* '''Новизна''': Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации и регрессии видится нам очень естественной регуляризацией.
+
* '''Новизна''': Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации and регрессии видится нам очень естественной регуляризацией.
-
* '''Авторы''': Сергей Грудинин, Мария Кадукова.
+
* '''Авторы''': Sergei Grudinin, Maria Kadukova.
=== Task 75 ===
=== Task 75 ===
* '''Name:''' Выравнивание элементов изображений с помощью метрических моделей.
* '''Name:''' Выравнивание элементов изображений с помощью метрических моделей.
-
* '''Task:''' Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем и шумовым классам.) Известно, что каждое изображение может быть и помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так и отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение и пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
+
* '''Task:''' Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем and шумовым классам.) Известно, что каждое изображение может быть and помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так and отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение and пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
-
* '''Data:''' Синтетические и реальные 1) картинки - лица и символы с трансформацией вращения и растяжения, 2) лица и автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
+
* '''Data:''' Синтетические and реальные 1) картинки - лица and символы с трансформацией вращения and растяжения, 2) лица and автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
* '''References:'''
* '''References:'''
*# опорная работы - выравнивание картинок с помощью 2D DTW,
*# опорная работы - выравнивание картинок с помощью 2D DTW,
Строка 362: Строка 362:
* '''Solution:''' В прилагаемом файле pdf.
* '''Solution:''' В прилагаемом файле pdf.
* '''Novelty:''' Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
* '''Novelty:''' Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
-
* '''Authors:''' Алексей Гончаров, Вадим Стрижов
+
* '''Authors:''' Алексей Гончаров, Strizhov V.V.
===Task 80===
===Task 80===
-
* '''Name:''' Обнаружение корреляций между активностью в социальных сетях и капитализацией компаний
+
* '''Name:''' Обнаружение корреляций между активностью в социальных сетях and капитализацией компаний
-
* '''Task:''' в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании и успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента и активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании и предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети и тп). Данная Task часть большого проекта по анализу анализу рынков и влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
+
* '''Task:''' в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании and успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента and активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании and предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети and тп). Данная Task часть большого проекта по анализу анализу рынков and влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
-
* '''Data:''' Task имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT и reddit (кроулинг и парсинг делается стандартными инструментами). У studentа, работающего над этой задачей, должны быть сильные инженерные навыки и желание заниматься как практикой машинного обучения, так и инженерными частями Taskми.
+
* '''Data:''' Task имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT and reddit (кроулинг and парсинг делается стандартными инструментами). У studentа, работающего над этой задачей, должны быть сильные инженерные навыки and желание заниматься как практикой машинного обучения, так and инженерными частями Taskми.
* '''References:'''
* '''References:'''
*# Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [https://journals.aom.org/doi/abs/10.5465/AMR.2002.5922314 LINK]   
*# Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [https://journals.aom.org/doi/abs/10.5465/AMR.2002.5922314 LINK]   
*# Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster [https://www.sciencedirect.com/science/article/pii/S026840121730525X?casa_token=JzqhHlll56IAAAAA:fQmNqxyErD4-VCCCFdJRA1WX0o4zdifj_zbm-vgwXDcmt26OBbAdu9gvgob0ntnlnCt_Y_ITD_g LINK]
*# Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster [https://www.sciencedirect.com/science/article/pii/S026840121730525X?casa_token=JzqhHlll56IAAAAA:fQmNqxyErD4-VCCCFdJRA1WX0o4zdifj_zbm-vgwXDcmt26OBbAdu9gvgob0ntnlnCt_Y_ITD_g LINK]
*# Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [https://ojs.aaai.org/index.php/ICWSM/article/download/7347/7201/ LINK]
*# Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [https://ojs.aaai.org/index.php/ICWSM/article/download/7347/7201/ LINK]
-
* '''Basic algorithm:''' Базовые алгоритмы это LSTM и Graph neural networks.
+
* '''Basic algorithm:''' Базовые алгоритмы это LSTM and Graph neural networks.
* '''Solution:''' Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
* '''Solution:''' Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
* '''Novelty:''' В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
* '''Novelty:''' В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
Строка 379: Строка 379:
===Task 88b ===
===Task 88b ===
*'''Name:''' Поиск зрачка на изображении глаза методом проекций яркости
*'''Name:''' Поиск зрачка на изображении глаза методом проекций яркости
-
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
+
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.
-
*'''Data:''' около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
+
*'''Data:''' около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
'''Basic algorithm:''' Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
'''Basic algorithm:''' Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
*'''References:''' Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. [https://doi.org/10.1016/j.patcog.2003.09.006 PDF]
*'''References:''' Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. [https://doi.org/10.1016/j.patcog.2003.09.006 PDF]
Строка 391: Строка 391:
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
*'''Task:''' Дано монохромное растровое изображение глаза, [[Media:Matveev2021project.pdf|см. примеры]]. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
*'''Data:''' около 200 тыс. изображений глаз. При некоторых (около 2500) Expertом-человеком размечено положение параболы, приближающей веко.
*'''Data:''' около 200 тыс. изображений глаз. При некоторых (около 2500) Expertом-человеком размечено положение параболы, приближающей веко.
-
*'''Basic algorithm:''' Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) и в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, и считать что таким образом определена искомая парабола — веко.
+
*'''Basic algorithm:''' Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) and в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, and считать что таким образом определена искомая парабола — веко.
*'''References:''' Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
*'''References:''' Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
*'''Автор:''' Матвеев И.А.
*'''Автор:''' Матвеев И.А.
Строка 400: Строка 400:
* '''Данные''':
* '''Данные''':
**[http://neurotycho.org/download Измерения активность мозга обезьян]
**[http://neurotycho.org/download Измерения активность мозга обезьян]
-
**Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой и против часовой стрелки)
+
**Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой and против часовой стрелки)
* '''References:''':
* '''References:''':
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
Строка 406: Строка 406:
**[https://www.semanticscholar.org/paper/Multiple-Multidimensional-Sequence-Alignment-Using-Sanguansat/76d35bd5a52453ebde80faaa1467d7effd74426f Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping]
**[https://www.semanticscholar.org/paper/Multiple-Multidimensional-Sequence-Alignment-Using-Sanguansat/76d35bd5a52453ebde80faaa1467d7effd74426f Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping]
* '''Basic algorithm:''' L2 расстояние между парой измерений.
* '''Basic algorithm:''' L2 расстояние между парой измерений.
-
* '''Solution:''' использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м и j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м и j-м измерениями (dtw внутри dtw).<br />Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i и j.
+
* '''Solution:''' использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м and j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м and j-м измерениями (dtw внутри dtw).<br />Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i and j.
* '''Novelty:''' Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
* '''Novelty:''' Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
* '''Authors:''' В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.
* '''Authors:''' В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.
Строка 420: Строка 420:
** [https://arxiv.org/pdf/1904.11301.pdf] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
** [https://arxiv.org/pdf/1904.11301.pdf] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
** https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
** https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
-
* «Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого и обратного Фурье преобразования.
+
* «Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого and обратного Фурье преобразования.
-
*«Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях и Expertные знания.
+
*«Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях and Expertные знания.
-
*«Новизна» Использование информации о физических ограничениях и Expertные знания при построении функции ошибки.
+
*«Новизна» Использование информации о физических ограничениях and Expertные знания при построении функции ошибки.
-
*«Авторы»: Expertы Сергей Грудинин, Юрий Чушкин, В.В. Стрижов. consultant Марк Потанин
+
*«Авторы»: Expertы Sergei Grudinin, Юрий Чушкин, В.В. Стрижов. consultant Mark Potanin
=== Task 63===
=== Task 63===
* '''Name:''' Иерархическое выравнивание временных последовательностей.
* '''Name:''' Иерархическое выравнивание временных последовательностей.
-
* '''Task:''' Рассматривается Task выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” и есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить и оперировать именно им.<br />Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.<br />Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
+
* '''Task:''' Рассматривается Task выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” and есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить and оперировать именно им.<br />Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.<br />Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
* '''References:'''
* '''References:'''
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
Строка 433: Строка 433:
**[https://www.semanticscholar.org/paper/Multiple-Multidimensional-Sequence-Alignment-Using-Sanguansat/76d35bd5a52453ebde80faaa1467d7effd74426f Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping]
**[https://www.semanticscholar.org/paper/Multiple-Multidimensional-Sequence-Alignment-Using-Sanguansat/76d35bd5a52453ebde80faaa1467d7effd74426f Multiple Multidimensional Sequence Alignment Using Generalized Dynamic Time Warping]
* '''Basic algorithm:''' классический DTW.
* '''Basic algorithm:''' классический DTW.
-
* '''Solution:''' Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных и рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).<br />При этом DTW вычисляется отдельно между нижними, между средними и между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.<br />Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания и точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
+
* '''Solution:''' Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных and рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).<br />При этом DTW вычисляется отдельно между нижними, между средними and между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.<br />Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания and точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
-
* '''Novelty:''' Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания и повысить скорость их работы.
+
* '''Novelty:''' Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания and повысить скорость их работы.
* '''Authors:''' В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.
* '''Authors:''' В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.
===Task 57 ===
===Task 57 ===
-
* «Название»:Аддитивная регуляризация и в Taskх привилегированного обучения при решении задачи прогнозирования состояния океана
+
* «Название»:Аддитивная регуляризация and в Taskх привилегированного обучения при решении задачи прогнозирования состояния океана
* «Task»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
* «Task»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
-
* «Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха и температура поверхности моря с разрешением от 10 минут до 1 часа.
+
* «Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха and температура поверхности моря с разрешением от 10 минут до 1 часа.
*References:
*References:
** [https://arxiv.org/pdf/1906.00195.pdf]
** [https://arxiv.org/pdf/1906.00195.pdf]
* «Базовый алгоритм»: Использование простой нейросети.
* «Базовый алгоритм»: Использование простой нейросети.
-
* «Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя и ученика согласно привилегированному подходу.
+
* «Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя and ученика согласно привилегированному подходу.
-
*«Новизна» Исследование пространства параметров учителя и ученика и их изменение. Возможно настроить отдельно модели учителя и ученика и проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
+
*«Новизна» Исследование пространства параметров учителя and ученика and их изменение. Возможно настроить отдельно модели учителя and ученика and проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
-
* «Авторы»: В.В. Стрижов, Марк Потанин
+
* «Авторы»: В.В. Стрижов, Mark Potanin
===Task 52 ===
===Task 52 ===
-
* '''Название''': Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
+
* '''Name:''' Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
-
* '''Task''': Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (Task регрессии на узлах графа).
+
* '''Task''': Целью данной работы является создание and исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (Task регрессии на узлах графа).
* '''Данные''': Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
* '''Данные''': Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
* '''References:''':
* '''References:''':
Строка 458: Строка 458:
** [https://arxiv.org/abs/1611.08097] Geometric deep learning: going beyond euclidean data.
** [https://arxiv.org/abs/1611.08097] Geometric deep learning: going beyond euclidean data.
* '''Базовой алгоритм''': В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [https://arxiv.org/abs/1806.01261].
* '''Базовой алгоритм''': В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [https://arxiv.org/abs/1806.01261].
-
* '''Решение''': Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
+
* '''Решение''': Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать and применять сферические фильтры независимо от топологии графа.
* '''Новизна''': В общем случае графы являются нерегулярными структурами, а во многих Taskх обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
* '''Новизна''': В общем случае графы являются нерегулярными структурами, а во многих Taskх обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
-
* '''Авторы''': Сергей Грудинин, Илья Игашов.
+
* '''Авторы''': Sergei Grudinin, Илья Игашов.
===Task 44+ ===
===Task 44+ ===
-
*'''Название''': Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
+
*'''Name:''' Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
*'''Task''': Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
*'''Task''': Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
* '''Цель''': на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
* '''Цель''': на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
*'''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
*'''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
*'''References:''':
*'''References:''':
-
*# [https://docs.google.com/document/d/1o2gtdV3nYeAsfW0JZ5fESlVPhCA4_lfUOVnWhRjg1ck/edit?usp=sharing Обзор методов, мотивания и постановка задачи для оценки объема выборки]
+
*# [https://docs.google.com/document/d/1o2gtdV3nYeAsfW0JZ5fESlVPhCA4_lfUOVnWhRjg1ck/edit?usp=sharing Обзор методов, мотивания and постановка задачи для оценки объема выборки]
-
*# http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/..
+
*# http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
-
*# Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1..
+
*# Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
*'''Базовый алгоритм''': Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
*'''Базовый алгоритм''': Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
-
Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.
+
Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.
*'''Решение''': Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
*'''Решение''': Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
*'''Авторы''': Малиновский Г. (consultant), Стрижов В. В. (Expert)
*'''Авторы''': Малиновский Г. (consultant), Стрижов В. В. (Expert)
Строка 479: Строка 479:
=== Task 12 ===
=== Task 12 ===
-
* '''Название''': Обучение машинного перевода без параллельных текстов.
+
* '''Name:''' Обучение машинного перевода без параллельных текстов.
* '''Task''': Рассматривается Task построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная Task возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
* '''Task''': Рассматривается Task построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная Task возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
* '''Данные''': Выборка статей из Wikipedia на двух языках.
* '''Данные''': Выборка статей из Wikipedia на двух языках.
Строка 490: Строка 490:
* '''Решение''': В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
* '''Решение''': В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
* '''Новизна''': Предложен способ построения модели перевода с учетом графовых описаний предложений.
* '''Новизна''': Предложен способ построения модели перевода с учетом графовых описаний предложений.
-
* '''Авторы''': О.Ю. Бахтеев, В.В. Стрижов,
+
* '''Авторы''': Oleg Bakhteev, В.В. Стрижов,
===Task 8 ===
===Task 8 ===
-
* '''Название''': Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
+
* '''Name:''' Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
-
* '''Task''': Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
+
* '''Task''': Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
* '''Данные''': Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
* '''Данные''': Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
** WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
** WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
* '''References:''':
* '''References:''':
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
-
** Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.[http://strijov.com/papers/Karasikov2016TSC.pdf URL]
+
** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.[http://strijov.com/papers/Karasikov2016TSC.pdf URL]
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]
-
** Исаченко Р.В., Стрижов В.В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]
+
** Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]
-
** Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]
+
** Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
-
* '''Базовый алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
+
* '''Базовый алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
-
* '''Решение''': Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные. Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
+
* '''Решение''': Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные. Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
* '''Новизна''': Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
* '''Новизна''': Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
* '''Авторы''': В.В. Стрижов (Expert), Александра Гальцева, Данил Сайранов (consultants)
* '''Авторы''': В.В. Стрижов (Expert), Александра Гальцева, Данил Сайранов (consultants)
Строка 531: Строка 531:
[https://github.com/Intelligent-Systems-Phystech/2020-Project60/raw/master/slides/Grebenkova2020OptimizationSlides.pdf Slides]
[https://github.com/Intelligent-Systems-Phystech/2020-Project60/raw/master/slides/Grebenkova2020OptimizationSlides.pdf Slides]
[https://youtu.be/9ELhIqjFSE8 Video]
[https://youtu.be/9ELhIqjFSE8 Video]
-
|[[Участник:Oleg Bakhteev|Олег Бахтеев]]
+
|[[Участник:Oleg Bakhteev|Oleg Bakhteev]]
|AILP+UXBR+HCV+TEDWS
|AILP+UXBR+HCV+TEDWS
|[[Участник:Vshokorov|Шокоров Вячеслав]]
|[[Участник:Vshokorov|Шокоров Вячеслав]]
Строка 537: Строка 537:
|-
|-
|[[Участник:Vshokorov|Шокоров Вячеслав]]
|[[Участник:Vshokorov|Шокоров Вячеслав]]
-
|Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
|Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
|[https://docs.google.com/document/d/1zsk-tpd51axWfcYxpa4CWd1QZdOnr0Hv6b1_a34q28Y/edit?usp=sharing LinkReview]
|[https://docs.google.com/document/d/1zsk-tpd51axWfcYxpa4CWd1QZdOnr0Hv6b1_a34q28Y/edit?usp=sharing LinkReview]
[https://github.com/Intelligent-Systems-Phystech/2020_Project_9 GitHub]
[https://github.com/Intelligent-Systems-Phystech/2020_Project_9 GitHub]
Строка 585: Строка 585:
|-
|-
|[[Участник:Vayser Kirill|Вайсер Кирилл]]
|[[Участник:Vayser Kirill|Вайсер Кирилл]]
-
|Аддитивная регуляризация и ее метапараметры при выборе структуры сетей глубокого обучения
+
|Аддитивная регуляризация and ее метапараметры при выборе структуры сетей глубокого обучения
|[https://docs.google.com/document/d/1LRVQ8dgRejQx8zdtk6dLMbHXdXwbAju6qD8NNSa1MgE/edit?usp=sharing LinkReview]
|[https://docs.google.com/document/d/1LRVQ8dgRejQx8zdtk6dLMbHXdXwbAju6qD8NNSa1MgE/edit?usp=sharing LinkReview]
[https://github.com/Intelligent-Systems-Phystech/2020-Project_Regul GitHub]
[https://github.com/Intelligent-Systems-Phystech/2020-Project_Regul GitHub]
Строка 591: Строка 591:
[https://github.com/Intelligent-Systems-Phystech/2020-Project_Regul/raw/master/docs/Vayser2020AdditiveRegularizationSlides.pdf Slides]
[https://github.com/Intelligent-Systems-Phystech/2020-Project_Regul/raw/master/docs/Vayser2020AdditiveRegularizationSlides.pdf Slides]
[https://youtu.be/tsMS1HTxVYU Video]
[https://youtu.be/tsMS1HTxVYU Video]
-
|Марк Потанин
+
|Mark Potanin
|AILP+HUX+BRCV+TEDWS
|AILP+HUX+BRCV+TEDWS
|[[Участник:Zholobov Vladimir| Жолобов Владимир]]
|[[Участник:Zholobov Vladimir| Жолобов Владимир]]
Строка 597: Строка 597:
|-
|-
|[[Участник:Bishuk Anton|Бишук Антон]]
|[[Участник:Bishuk Anton|Бишук Антон]]
-
|Решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
+
|Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
|[https://drive.google.com/file/d/1NPz05B6HceCdD1Q-P8xYCUkc15bka2Qz/view?usp=sharing LinkReview]
|[https://drive.google.com/file/d/1NPz05B6HceCdD1Q-P8xYCUkc15bka2Qz/view?usp=sharing LinkReview]
[https://github.com/Intelligent-Systems-Phystech/2020_Project53_Class-Reg/ GitHub]
[https://github.com/Intelligent-Systems-Phystech/2020_Project53_Class-Reg/ GitHub]
Строка 604: Строка 604:
[https://youtu.be/8sRcvKR2F-0 Video]
[https://youtu.be/8sRcvKR2F-0 Video]
-
|Мария Кадукова
+
|Maria Kadukova
|AILPHUXBRCVTEDH
|AILPHUXBRCVTEDH
|[[Участник:Filippova Anastasia|Филиппова Анастасия]]
|[[Участник:Filippova Anastasia|Филиппова Анастасия]]
Строка 675: Строка 675:
[https://github.com/Intelligent-Systems-Phystech/2020-Project52/raw/master/report/NVPavlichenkoPresentation.pdf Slides]
[https://github.com/Intelligent-Systems-Phystech/2020-Project52/raw/master/report/NVPavlichenkoPresentation.pdf Slides]
[https://youtu.be/Sw9KmvpuXFs Video]
[https://youtu.be/Sw9KmvpuXFs Video]
-
|Сергей Грудинин, Илья Игашов
+
|Sergei Grudinin, Илья Игашов
|AILPUXBRHCVTEDH
|AILPUXBRHCVTEDH
|-
|-
Строка 708: Строка 708:
[https://github.com/Intelligent-Systems-Phystech/2020-Project-71/raw/master/slides/Yaushev2020TitleSlides.pdf Slides]
[https://github.com/Intelligent-Systems-Phystech/2020-Project-71/raw/master/slides/Yaushev2020TitleSlides.pdf Slides]
[https://youtu.be/2c3DvTkFtDc Video]
[https://youtu.be/2c3DvTkFtDc Video]
-
|Роман Исаченко
+
|Roman Isachenko
|AILPUXBRHCVTEDHWJS
|AILPUXBRHCVTEDHWJS
|[[Участник:Zholobov Vladimir| Жолобов Владимир]]
|[[Участник:Zholobov Vladimir| Жолобов Владимир]]
Строка 715: Строка 715:
===Task 51 ===
===Task 51 ===
-
*'''Название''': Анализ свойств ансамбля локально аппроксимирующих моделей.
+
*'''Name:''' Анализ свойств ансамбля локально аппроксимирующих моделей.
*'''Task''': В данной работе рассматривается Task построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
*'''Task''': В данной работе рассматривается Task построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
-
*'''Требуется''': построить алгоритм оптимизации параметров локальных моделей и параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
+
*'''Требуется''': построить алгоритм оптимизации параметров локальных моделей and параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
*'''Данные''':
*'''Данные''':
*# Синтетически сгенерированные данные.
*# Синтетически сгенерированные данные.
Строка 727: Строка 727:
*# Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
*# Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
*# [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/MSThesis/Pavlov2012/ Павлов К.В. Выбор многоуровневых моделей в Taskх классификации, 2012]
*# [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/MSThesis/Pavlov2012/ Павлов К.В. Выбор многоуровневых моделей в Taskх классификации, 2012]
-
*'''Базовый алгоритм''': В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации и на следующей итерации производится оптимизация параметров шлюзовой функции.
+
*'''Базовый алгоритм''': В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации and на следующей итерации производится оптимизация параметров шлюзовой функции.
*'''Авторы''': Грабовой А. В. (consultant), Стрижов В. В. (Expert)
*'''Авторы''': Грабовой А. В. (consultant), Стрижов В. В. (Expert)
===Task 54 ===
===Task 54 ===
-
* '''Название''': Поиск зрачка на изображении глаза методом проекций яркости.
+
* '''Name:''' Поиск зрачка на изображении глаза методом проекций яркости.
* '''Task''': Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).
* '''Task''': Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).
-
Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка и половинного истинного радиуса. Алгоритм должен быть очень быстрым.
+
Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.
-
* '''Данные''': около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
+
* '''Данные''': около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
* '''Базовой алгоритм''': Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
* '''Базовой алгоритм''': Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
* '''References:''': Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
* '''References:''': Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
Строка 740: Строка 740:
===Task 55 ===
===Task 55 ===
-
* '''Название''': Поиск границ радужки методом круговых проекций
+
* '''Name:''' Поиск границ радужки методом круговых проекций
-
* '''Task''': Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок и радужку. Алгоритм должен быть очень быстрым.
+
* '''Task''': Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
-
* '''Данные''': около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения и проверки создаваемого метода.
+
* '''Данные''': около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
-
* '''Базовой алгоритм''': Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) и для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней и внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
+
* '''Базовой алгоритм''': Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
* '''References:''': Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
* '''References:''': Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
* '''Авторы''': Матвеев И.А.
* '''Авторы''': Матвеев И.А.
===Task 56 ===
===Task 56 ===
-
* '''Название''': Построение локальных и универсальных интерпретируемых скоринговых моделей
+
* '''Name:''' Построение локальных and универсальных интерпретируемых скоринговых моделей
-
* '''Task''': Построить простую и интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах и признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры и параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков и объектов.
+
* '''Task''': Построить простую and интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах and признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры and параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков and объектов.
* '''Данные''':
* '''Данные''':
# Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
# Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
Строка 756: Строка 756:
# Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
# Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
# Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
# Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
-
# Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. — 2011. — № 2. — С. 140-155
+
# Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение and анализ данных. — 2011. — № 2. — С. 140-155
# S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
# S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
# Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования
# Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования
* '''Базовой алгоритм''': Итерационный взвешенный МНК (описан в (2))
* '''Базовой алгоритм''': Итерационный взвешенный МНК (описан в (2))
-
* '''Решение''': Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков и объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков и объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
+
* '''Решение''': Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков and объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков and объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
* '''Новизна''':
* '''Новизна''':
# Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
# Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
Строка 770: Строка 770:
* Task: Ставится Task эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
* Task: Ставится Task эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
* Solution: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
* Solution: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
-
* Basic algorithm: предложенный метод сравнивается с градиентным спуском и ускоренным градиентным спуском
+
* Basic algorithm: предложенный метод сравнивается с градиентным спуском and ускоренным градиентным спуском
* References:
* References:
# Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
# Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
Строка 776: Строка 776:
# Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
# Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
# Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf
# Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf
-
* Novelty: сведение задачи распределенной оптимизации к задаче композитной оптимизации и ее решение в условиях Поляка-Лоясиевича
+
* Novelty: сведение задачи распределенной оптимизации к задаче композитной оптимизации and ее решение в условиях Поляка-Лоясиевича
* Authors: Expert — А.В. Гасников, consultant — А.Н. Безносиков
* Authors: Expert — А.В. Гасников, consultant — А.Н. Безносиков
* '''Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе Task будет плохо совместима с курсом.'''
* '''Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе Task будет плохо совместима с курсом.'''
=== Task 17 ===
=== Task 17 ===
-
* '''Название''': Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
+
* '''Name:''' Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
* '''Task''': При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая Task решалась с помощью выделения признаков из частотных характеристик сигналов.
* '''Task''': При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая Task решалась с помощью выделения признаков из частотных характеристик сигналов.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
Строка 788: Строка 788:
*# Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
*# Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
* '''Базовый алгоритм''': Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
* '''Базовый алгоритм''': Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
-
* '''Решение''': В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал и построить прогностическую модель на основе локального описания.
+
* '''Решение''': В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал and построить прогностическую модель на основе локального описания.
* '''Новизна''': Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
* '''Новизна''': Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
-
* '''Авторы''': В.В. Стрижов, Роман Исаченко - Expertы, consultants – Валерий Маркин, Алина Самохина
+
* '''Авторы''': В.В. Стрижов, Roman Isachenko - Expertы, consultants – Валерий Маркин, Алина Самохина
===Task 9 ===
===Task 9 ===
-
* '''Название''': Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
* '''Name:''' Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
* '''Данные''': Шрифты в растровом представлении.
* '''Данные''': Шрифты в растровом представлении.
-
* '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 и
+
* '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 and
** Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
** Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
** Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
** Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
** Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
** Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
** Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. [https://www.researchgate.net/publication/221415333_Binary_Image_Skeleton_-_Continuous_Approach URL]
** Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. [https://www.researchgate.net/publication/221415333_Binary_Image_Skeleton_-_Continuous_Approach URL]
-
** Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации и аппроксимации скелетных графов бинарных изображений // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 817-827. [http://jmlda.org/papers/doc/2014/no7/Kushnir2014ParametersResearch.pdf URL]
+
** Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации and аппроксимации скелетных графов бинарных изображений // Машинное обучение and анализ данных. 2014. Т. 1. № 7. С. 817-827. [http://jmlda.org/papers/doc/2014/no7/Kushnir2014ParametersResearch.pdf URL]
-
** Жукова К.В., Рейер И.А. Связность базового скелета и параметрический дескриптор формы // Машинное обучение и анализ данных. 2014. Т. 1. № 10. С. 1354-1368. [http://jmlda.org/papers/doc/2014/no10/Reyer2014SkeletonConnectivity.pdf URL]
+
** Жукова К.В., Рейер И.А. Связность базового скелета and параметрический дескриптор формы // Машинное обучение and анализ данных. 2014. Т. 1. № 10. С. 1354-1368. [http://jmlda.org/papers/doc/2014/no10/Reyer2014SkeletonConnectivity.pdf URL]
** Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. [https://link.springer.com/chapter/10.1007/978-3-319-26123-2_12 URL]
** Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. [https://link.springer.com/chapter/10.1007/978-3-319-26123-2_12 URL]
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
* '''Новизна''': Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
* '''Новизна''': Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
-
* '''Авторы''': Expertы И.А. Рейер, В.В. Стрижов, Марк Потанин, consultant Денис Ожерелков
+
* '''Авторы''': Expertы И.А. Рейер, В.В. Стрижов, Mark Potanin, consultant Денис Ожерелков
=== Task 60 ===
=== Task 60 ===
-
* '''Название''': Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
+
* '''Name:''' Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
-
* '''Task''': рассматривается Task оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью и небольшими вычислительными затратами.
+
* '''Task''': рассматривается Task оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью and небольшими вычислительными затратами.
* '''Данные''':MNIST, CIFAR
* '''Данные''':MNIST, CIFAR
* '''References:'''
* '''References:'''
Строка 819: Строка 819:
* '''Basic algorithm:''' случайный поиск
* '''Basic algorithm:''' случайный поиск
* '''Solution:''' Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
* '''Solution:''' Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
-
* '''Novelty:''' предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию и дообучение.
+
* '''Novelty:''' предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию and дообучение.
-
* '''Авторы''': О.Ю. Бахтеев, В.В. Стрижов
+
* '''Авторы''': Oleg Bakhteev, В.В. Стрижов
=== Task 61 ===
=== Task 61 ===
-
* '''Название''': Выбор модели глубокого обучения на основе триплетной связи модели и выборки
+
* '''Name:''' Выбор модели глубокого обучения на основе триплетной связи модели and выборки
* '''Task''': рассматривается Task one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
* '''Task''': рассматривается Task one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
* '''Данные''':MNIST, синтетические данные
* '''Данные''':MNIST, синтетические данные
Строка 830: Строка 830:
** [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
** [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
* '''Basic algorithm:''' случайный поиск
* '''Basic algorithm:''' случайный поиск
-
* '''Solution:''' Предлагается рассматривать пространство параметров и моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
+
* '''Solution:''' Предлагается рассматривать пространство параметров and моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
* '''Novelty:''' Новый метод one-shot обучения моделей
* '''Novelty:''' Новый метод one-shot обучения моделей
-
* '''Авторы''': О.Ю. Бахтеев, В.В. Стрижов
+
* '''Авторы''': Oleg Bakhteev, В.В. Стрижов
=== Task 64===
=== Task 64===
* '''Name:''' Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
* '''Name:''' Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
-
* '''Task:''' Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, и исследовать использование таких методов к пространственно-временным рядам.<br />При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
+
* '''Task:''' Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, and исследовать использование таких методов к пространственно-временным рядам.<br />При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
* '''References:'''
* '''References:'''
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
**[https://www.cs.unm.edu/~mueen/DTW.pdf Обзорная презентация о DTW]
Строка 842: Строка 842:
**[https://www.researchgate.net/profile/Vincent_Wan/publication/221478420_Polynomial_dynamic_time_warping_kernel_support_vector_machines_for_dysarthric_speech_recognition_with_sparse_training_data/links/09e4150b7256b621ac000000/Polynomial-dynamic-time-warping-kernel-support-vector-machines-for-dysarthric-speech-recognition-with-sparse-training-data.pdf Polynomial dynamic time warping kernel support vector machines for dysarthric speech recognition with sparse training data]
**[https://www.researchgate.net/profile/Vincent_Wan/publication/221478420_Polynomial_dynamic_time_warping_kernel_support_vector_machines_for_dysarthric_speech_recognition_with_sparse_training_data/links/09e4150b7256b621ac000000/Polynomial-dynamic-time-warping-kernel-support-vector-machines-for-dysarthric-speech-recognition-with-sparse-training-data.pdf Polynomial dynamic time warping kernel support vector machines for dysarthric speech recognition with sparse training data]
**[https://link.springer.com/content/pdf/10.1007/11608288_67.pdf Online Signature Verification with New Time Series Kernels for Support Vector Machines]
**[https://link.springer.com/content/pdf/10.1007/11608288_67.pdf Online Signature Verification with New Time Series Kernels for Support Vector Machines]
-
* '''Solution:''' Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти и собрать в одном месте доказательства того, что функция является ядром.<br />Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
+
* '''Solution:''' Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти and собрать в одном месте доказательства того, что функция является ядром.<br />Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
-
* '''Novelty:''' Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) и его модификаций к пространственно-временным рядам.
+
* '''Novelty:''' Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) and его модификаций к пространственно-временным рядам.
* '''Authors:''' В.В. Стрижов - Expert, [[Участник:Morgachev.gleb|Глеб Моргачев]], Алексей Гончаров - consultants.
* '''Authors:''' В.В. Стрижов - Expert, [[Участник:Morgachev.gleb|Глеб Моргачев]], Алексей Гончаров - consultants.
=== Task 66 ===
=== Task 66 ===
-
* '''Название''': Agnostic neural networks
+
* '''Name:''' Agnostic neural networks
* '''Task''': Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
* '''Task''': Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
* '''Данные''': Данные из области Reinforcement learning. Желательно типа машинок на трассе.
* '''Данные''': Данные из области Reinforcement learning. Желательно типа машинок на трассе.
Строка 857: Строка 857:
** https://weightagnostic.github.io/
** https://weightagnostic.github.io/
* '''Базовой алгоритм''': Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
* '''Базовой алгоритм''': Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
-
* '''Решение''': Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) и моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
+
* '''Решение''': Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) and моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
* '''Новизна''': Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
* '''Новизна''': Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
* '''Авторы''': Expert В.В. Стрижов, Радослав Нейчев - consultant
* '''Авторы''': Expert В.В. Стрижов, Радослав Нейчев - consultant
=== Task 13 ===
=== Task 13 ===
-
* '''Название''': Deep learning for RNA secondary structure prediction
+
* '''Name:''' Deep learning for RNA secondary structure prediction
* '''Task''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
* '''Task''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
* '''Данные''': RNA sequences in form of strings of characters
* '''Данные''': RNA sequences in form of strings of characters
Строка 872: Строка 872:
=== Task 65 ===
=== Task 65 ===
-
* '''Название''': Аппроксимация выборок малой размерности разнородными моделями
+
* '''Name:''' Аппроксимация выборок малой размерности разнородными моделями
* '''Task''': Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
* '''Task''': Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
* '''Данные''': Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
* '''Данные''': Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
Строка 880: Строка 880:
* '''Базовой алгоритм''': описан в работе Нейчева
* '''Базовой алгоритм''': описан в работе Нейчева
* '''Новизна''': Исследование различных способов построения выборки
* '''Новизна''': Исследование различных способов построения выборки
-
* '''Решение''': попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить и визуализировать функции правдоподобия
+
* '''Решение''': попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить and визуализировать функции правдоподобия
-
* '''Авторы''': consultants Марк Потанин, (попросить помощи у Андрея Грабового) В.В. Стрижов
+
* '''Авторы''': consultants Mark Potanin, (попросить помощи у Андрея Грабового) В.В. Стрижов
=== Task 67 ===
=== Task 67 ===
-
* '''Название''': Отбор тем в тематических моделях для разведочного информационного поиска.
+
* '''Name:''' Отбор тем в тематических моделях для разведочного информационного поиска.
-
* '''Task''': Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность и полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
+
* '''Task''': Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность and полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
-
* '''Данные''': Текстовые коллекции сайтов habr.com и techcrunch.com. Размеченные выборки: запросы и релевантные им документы.
+
* '''Данные''': Текстовые коллекции сайтов habr.com and techcrunch.com. Размеченные выборки: запросы and релевантные им документы.
* '''References:''':
* '''References:''':
-
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация]].
+
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация]].
*# ''Ianina A., Vorontsov K.'' [https://fruct.org/publications/fruct25/files/Ian.pdf Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search] // FRUCT ISMW, 2019.
*# ''Ianina A., Vorontsov K.'' [https://fruct.org/publications/fruct25/files/Ian.pdf Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search] // FRUCT ISMW, 2019.
-
* '''Базовой алгоритм''': тематическая модель с регуляризаторами и модальностями, описанная в статье (имеется исходный код).
+
* '''Базовой алгоритм''': тематическая модель с регуляризаторами and модальностями, описанная в статье (имеется исходный код).
* '''Новизна''': Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
* '''Новизна''': Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
-
* '''Решение''': Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности и определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, и их отбрасывание увеличивает точность и полноту поиска на несколько процентов.
+
* '''Решение''': Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности and определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, and их отбрасывание увеличивает точность and полноту поиска на несколько процентов.
* '''Авторы''': [[Участник:Vokov|К.В.Воронцов]], consultant Анастасия Янина.
* '''Авторы''': [[Участник:Vokov|К.В.Воронцов]], consultant Анастасия Янина.
=== Task 68 ===
=== Task 68 ===
-
* '''Название''': Метаобучение тематических моделей классификации.
+
* '''Name:''' Метаобучение тематических моделей классификации.
* '''Task''': Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
* '''Task''': Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
* '''Данные''': [https://docs.google.com/spreadsheets/d/1dhiz7ecgWH7lWi1wM4OkhlDI2r1D_OvcGUXaP8CDHEI/edit#gid=0 Описание датасетов], [https://drive.google.com/drive/folders/1PPnw6aZOJAJoLRYuwdGm437RssV-XQx0?usp=sharing Папка с датасетами].
* '''Данные''': [https://docs.google.com/spreadsheets/d/1dhiz7ecgWH7lWi1wM4OkhlDI2r1D_OvcGUXaP8CDHEI/edit#gid=0 Описание датасетов], [https://drive.google.com/drive/folders/1PPnw6aZOJAJoLRYuwdGm437RssV-XQx0?usp=sharing Папка с датасетами].
* '''References:''':
* '''References:''':
-
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация]].
+
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация]].
* '''Базовой алгоритм''': Тематические модели классификации для нескольких датасетов.
* '''Базовой алгоритм''': Тематические модели классификации для нескольких датасетов.
* '''Новизна''': В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
* '''Новизна''': В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
Строка 908: Строка 908:
===Task 70 ===
===Task 70 ===
* Name: Исследование структуры целевого пространства при построении предсказательной модели
* Name: Исследование структуры целевого пространства при построении предсказательной модели
-
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой и целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
+
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
-
* Data: Гетерогенные Data: картинка - текст, картинка - речь и тд
+
* Data: Гетерогенные Data: картинка - текст, картинка - речь and тд
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
Строка 917: Строка 917:
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
* Data: Синтетические данные с известной гипотезой порождения данных
* Data: Синтетические данные с известной гипотезой порождения данных
-
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
+
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
===Task 72 ===
===Task 72 ===
* Name: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
* Name: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
-
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой и целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
+
* Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой and целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
-
* Data: Гетерогенные Data: картинка - текст, картинка - речь, текст - текст и тд
+
* Data: Гетерогенные Data: картинка - текст, картинка - речь, текст - текст and тд
-
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) и линейные модели согласования.
+
* Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
* Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.
=== Task 73 ===
=== Task 73 ===
-
* '''Название''': Нелинейное ранжирование результатов разведочного информационного поиска.
+
* '''Name:''' Нелинейное ранжирование результатов разведочного информационного поиска.
* '''Task''': Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
* '''Task''': Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
-
* '''Данные''': Часть Википедии и эталонный граф чтения, получаемый из категорий Википедии.
+
* '''Данные''': Часть Википедии and эталонный граф чтения, получаемый из категорий Википедии.
* '''References:''':
* '''References:''':
-
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация]].
+
*# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация]].
*# ''Georgia Koutrika, Lei Liu, and Steven Simske''. [https://www.hpl.hp.com/techreports/2014/HPL-2014-5R1.pdf Generating reading orders over document collections]. HP Laboratories, 2014.
*# ''Georgia Koutrika, Lei Liu, and Steven Simske''. [https://www.hpl.hp.com/techreports/2014/HPL-2014-5R1.pdf Generating reading orders over document collections]. HP Laboratories, 2014.
*# ''James G. Jardine''. [https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-848.pdf Automatically generating reading lists]. Cambridge, 2014.
*# ''James G. Jardine''. [https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-848.pdf Automatically generating reading lists]. Cambridge, 2014.
Строка 964: Строка 964:
|-
|-
|[[Участник:Grigorev.ad|Григорьев Алексей]]
|[[Участник:Grigorev.ad|Григорьев Алексей]]
-
|Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
|Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
|[https://github.com/Intelligent-Systems-Phystech/2019-Project-9/blob/master/Grigorev2019Project9/LinkReview.pdf LinkReview]
|[https://github.com/Intelligent-Systems-Phystech/2019-Project-9/blob/master/Grigorev2019Project9/LinkReview.pdf LinkReview]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-9/tree/master/Grigorev2019Project9/code code],
[https://github.com/Intelligent-Systems-Phystech/2019-Project-9/tree/master/Grigorev2019Project9/code code],
Строка 1025: Строка 1025:
|[https://docs.google.com/document/d/1HLo0fNei0KoTrFQNgkdubFCM39PRpEYOyeF1WilibpY/edit LinkReview] code [https://github.com/Intelligent-Systems-Phystech/2019-Project-40/raw/master/doc/Aminov2019FSPP.pdf paper]
|[https://docs.google.com/document/d/1HLo0fNei0KoTrFQNgkdubFCM39PRpEYOyeF1WilibpY/edit LinkReview] code [https://github.com/Intelligent-Systems-Phystech/2019-Project-40/raw/master/doc/Aminov2019FSPP.pdf paper]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-40/raw/master/doc/pres%20(1).pdf slides]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-40/raw/master/doc/pres%20(1).pdf slides]
-
|[[Участник:Isachenkoroma | Роман Исаченко]]
+
|[[Участник:Isachenkoroma | Roman Isachenko]]
|
|
|
|
Строка 1035: Строка 1035:
[https://github.com/Intelligent-Systems-Phystech/ECoG_Project/raw/master/Markin2019SpatialDecoding.pdf paper]
[https://github.com/Intelligent-Systems-Phystech/ECoG_Project/raw/master/Markin2019SpatialDecoding.pdf paper]
[https://github.com/Intelligent-Systems-Phystech/ECoG_Project/raw/master/Markin2019Slides.pdf slides] [https://www.youtube.com/watch?v=l_4AJ-Xb5cs video]
[https://github.com/Intelligent-Systems-Phystech/ECoG_Project/raw/master/Markin2019Slides.pdf slides] [https://www.youtube.com/watch?v=l_4AJ-Xb5cs video]
-
|[[Участник:Isachenkoroma | Роман Исаченко]]
+
|[[Участник:Isachenkoroma | Roman Isachenko]]
|
|
|
|
Строка 1051: Строка 1051:
|Обучение машинного перевода без параллельных текстов.
|Обучение машинного перевода без параллельных текстов.
|[https://docs.google.com/document/d/1ORgDN1bVeIduWTdcmjl9R346MNIgpe0_T3G-aUtrxlo/edit?usp=sharing LinkReview] [https://github.com/Intelligent-Systems-Phystech/2019-project-12/blob/master/monogolingual_mt_example.ipynb code] [https://github.com/Intelligent-Systems-Phystech/2019-project-12/blob/master/paper.pdf paper], [https://github.com/Intelligent-Systems-Phystech/2019-project-12/raw/master/Sattarov_presentation.pdf slides] [https://www.youtube.com/watch?v=wduZgu6ym-0 video]
|[https://docs.google.com/document/d/1ORgDN1bVeIduWTdcmjl9R346MNIgpe0_T3G-aUtrxlo/edit?usp=sharing LinkReview] [https://github.com/Intelligent-Systems-Phystech/2019-project-12/blob/master/monogolingual_mt_example.ipynb code] [https://github.com/Intelligent-Systems-Phystech/2019-project-12/blob/master/paper.pdf paper], [https://github.com/Intelligent-Systems-Phystech/2019-project-12/raw/master/Sattarov_presentation.pdf slides] [https://www.youtube.com/watch?v=wduZgu6ym-0 video]
-
|[[Участник:Oleg_Bakhteev | Олег Бахтеев]]
+
|[[Участник:Oleg_Bakhteev | Oleg Bakhteev]]
|
|
|
|
Строка 1064: Строка 1064:
=== Task 40 ===
=== Task 40 ===
-
* '''Название''': Предсказание качества для процедуры выбора признаков.
+
* '''Name:''' Предсказание качества для процедуры выбора признаков.
* '''Task''': Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
* '''Task''': Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
* '''Данные''': Синтетические данные + простые выборки
* '''Данные''': Синтетические данные + простые выборки
Строка 1073: Строка 1073:
* '''Решение''': В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
* '''Решение''': В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
* '''Новизна''': Предлагается конструктивно новый подход к решению задачи выбора моделей.
* '''Новизна''': Предлагается конструктивно новый подход к решению задачи выбора моделей.
-
* '''Авторы''': В.В. Стрижов, Tetiana Aksenova, consultant – Роман Исаченко
+
* '''Авторы''': В.В. Стрижов, Tetiana Aksenova, consultant – Roman Isachenko
=== Task 42 ===
=== Task 42 ===
-
* '''Название''': Z-learning of linearly-solvable Markov Decision Processes
+
* '''Name:''' Z-learning of linearly-solvable Markov Decision Processes
* '''Task''': Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
* '''Task''': Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
* '''Данные''': We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
* '''Данные''': We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
Строка 1090: Строка 1090:
=== Task 1 ===
=== Task 1 ===
* '''Name:''' Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
* '''Name:''' Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
-
* '''Task:''' Построить и исследовать модель прогнозирования направления движения цены. Задано множество новостей S и множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, и временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
+
* '''Task:''' Построить and исследовать модель прогнозирования направления движения цены. Задано множество новостей S and множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, and временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
* '''Data:'''
* '''Data:'''
-
*# Финансовые Data: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена и объем.
+
*# Финансовые Data: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена and объем.
*# Текстовые Data: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
*# Текстовые Data: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
* '''References:'''
* '''References:'''
Строка 1100: Строка 1100:
*# Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
*# Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
* '''Basic algorithm:''' Метод, использованный в статье (4).
* '''Basic algorithm:''' Метод, использованный в статье (4).
-
* '''Solution:''' Использование тематического моделирования (ARTM) и локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
+
* '''Solution:''' Использование тематического моделирования (ARTM) and локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
* '''Novelty:''' Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
* '''Novelty:''' Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
* '''Authors:''' Иван Запутляев (consultant), В.В. Стрижов, К.В. Воронцов (Expertы)
* '''Authors:''' Иван Запутляев (consultant), В.В. Стрижов, К.В. Воронцов (Expertы)
Строка 1112: Строка 1112:
* '''Basic algorithm:''' Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
* '''Basic algorithm:''' Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
* '''Solution:''' Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
* '''Solution:''' Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
-
* '''Novelty:''' Нет полного обзора и исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
+
* '''Novelty:''' Нет полного обзора and исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
* '''Authors:''' Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert
* '''Authors:''' Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert
=== Task 43 ===
=== Task 43 ===
-
* '''Название''': Получение простой выборки на выходе слоя нейронной сети
+
* '''Name:''' Получение простой выборки на выходе слоя нейронной сети
-
* '''Task''': Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки и её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
+
* '''Task''': Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки and её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
* '''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
* '''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
* '''References:''': http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
* '''References:''': http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
* '''Базовой алгоритм''': Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
* '''Базовой алгоритм''': Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
-
* '''Решение''': Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков и выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим и реальным данным.
+
* '''Решение''': Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков and выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим and реальным данным.
* '''Авторы''': Гадаев Т. Т. (consultant) Стрижов В. В., Грабовой А. В. (Expertы)
* '''Авторы''': Гадаев Т. Т. (consultant) Стрижов В. В., Грабовой А. В. (Expertы)
===Task 14===
===Task 14===
-
* '''Название''': Deep Learning for reliable detection of tandem repeats in 3D protein structures [[Media:Strijov_3D_CNN.pdf|подробнее в PDF]]
+
* '''Name:''' Deep Learning for reliable detection of tandem repeats in 3D protein structures [[Media:Strijov_3D_CNN.pdf|подробнее в PDF]]
* '''Task''': Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
* '''Task''': Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
* '''Данные''': Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
* '''Данные''': Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Строка 1136: Строка 1136:
=== Task 46 ===
=== Task 46 ===
* Name: Task поиска символов в текстах
* Name: Task поиска символов в текстах
-
* Task: В простейшем случае эта Task сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой Expertной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной и качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer и т.п.).
+
* Task: В простейшем случае эта Task сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой Expertной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной and качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer and т.п.).
* Data: Словарь символов
, Размеченные художественные тексты

* Data: Словарь символов
, Размеченные художественные тексты

* References: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
* References: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
* Basic algorithm: HMM, RNN
* Basic algorithm: HMM, RNN
* Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
* Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
-
* Novelty: Предлагаемый подход к анализу текста используется Expertами в ручном режиме и не был автоматизирован
+
* Novelty: Предлагаемый подход к анализу текста используется Expertами в ручном режиме and не был автоматизирован
* Authors: М. Апишев (consultant), Д. Лемтюжникова
* Authors: М. Апишев (consultant), Д. Лемтюжникова
=== Task 47 ===
=== Task 47 ===
-
* '''Название''': Deep learning for RNA secondary structure prediction
+
* '''Name:''' Deep learning for RNA secondary structure prediction
* '''Task''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
* '''Task''': RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
* '''Данные''': RNA sequences in form of strings of characters
* '''Данные''': RNA sequences in form of strings of characters
Строка 1156: Строка 1156:
=== Task 4 ===
=== Task 4 ===
* '''Name:''' Автоматическая настройка параметров АРТМ под широкий класс задач.
* '''Name:''' Автоматическая настройка параметров АРТМ под широкий класс задач.
-
* '''Task:''' Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что Task настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации и автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
+
* '''Task:''' Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что Task настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации and автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
*'''Data:''' [https://archive.ics.uci.edu/ml/datasets/Victorian+Era+Authorship+Attribution Victorian Era Authorship Attribution Data Set], [https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups 20 Newsgroups], МКБ-10, триплеты для поиска/ранжирования.
*'''Data:''' [https://archive.ics.uci.edu/ml/datasets/Victorian+Era+Authorship+Attribution Victorian Era Authorship Attribution Data Set], [https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups 20 Newsgroups], МКБ-10, триплеты для поиска/ранжирования.
* '''References:'''
* '''References:'''
Строка 1163: Строка 1163:
*# Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
*# Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
* '''Basic algorithm:''' PLSA / LDA / логрегрессия.
* '''Basic algorithm:''' PLSA / LDA / логрегрессия.
-
* '''Solution:''' bigARTM с фоновыми темами и регуляризаторами сглаживания, разреживания и декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
+
* '''Solution:''' bigARTM с фоновыми темами and регуляризаторами сглаживания, разреживания and декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
-
* '''Novelty:''' Потребность в автоматизированной настройке параметров модели и отсутствие подобных реализаций в научном сообществе.
+
* '''Novelty:''' Потребность в автоматизированной настройке параметров модели and отсутствие подобных реализаций в научном сообществе.
* '''Authors:''' consultant Виктор Булатов, Expert [[Участник:Vokov|К.В.Воронцов]].
* '''Authors:''' consultant Виктор Булатов, Expert [[Участник:Vokov|К.В.Воронцов]].
Строка 1176: Строка 1176:
*# ''Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han''. [http://hanj.cs.illinois.edu/pdf/vldb15_ael-kishky.pdf Scalable Topical Phrase Mining from Text Corpora]. 2015.
*# ''Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han''. [http://hanj.cs.illinois.edu/pdf/vldb15_ael-kishky.pdf Scalable Topical Phrase Mining from Text Corpora]. 2015.
* '''Basic algorithm:''' BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
* '''Basic algorithm:''' BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
-
* '''Solution:''' Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем и стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
+
* '''Solution:''' Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем and стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
* '''Novelty:''' Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
* '''Novelty:''' Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
* '''Authors:''' consultant Екатерина Артёмова, Expert [[Участник:Vokov|К.В.Воронцов]].
* '''Authors:''' consultant Екатерина Артёмова, Expert [[Участник:Vokov|К.В.Воронцов]].
Строка 1206: Строка 1206:
[https://github.com/Intelligent-Systems-Phystech/2019-Project-18/raw/master/doc/Kudryavtseva2019Project18.pdf paper] [https://www.youtube.com/watch?v=wo-nJU3uG1I video]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-18/raw/master/doc/Kudryavtseva2019Project18.pdf paper] [https://www.youtube.com/watch?v=wo-nJU3uG1I video]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-18/raw/master/doc/Kudryavtseva2019Slides.pdf presentation]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-18/raw/master/doc/Kudryavtseva2019Slides.pdf presentation]
-
|[[Участник:Isachenkoroma|Роман Исаченко]]
+
|[[Участник:Isachenkoroma|Roman Isachenko]]
|Нечепуренко Иван
|Нечепуренко Иван
[https://docs.google.com/document/d/1i6WuDNEozojFYMkJHu5DcaItE5qrsr_Tt3ubBE298DQ/edit review]
[https://docs.google.com/document/d/1i6WuDNEozojFYMkJHu5DcaItE5qrsr_Tt3ubBE298DQ/edit review]
Строка 1265: Строка 1265:
|-
|-
|[[Участник: Gracheva.as|Грачева Анастасия]]
|[[Участник: Gracheva.as|Грачева Анастасия]]
-
|Оценка энергии связывания белка и маленьких молекул
+
|Оценка энергии связывания белка and маленьких молекул
|[https://github.com/Intelligent-Systems-Phystech/2019-Project-15 code]
|[https://github.com/Intelligent-Systems-Phystech/2019-Project-15 code]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-15/raw/master/Gracheva2019Project15/Gracheva2019Title.pdf paper]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-15/raw/master/Gracheva2019Project15/Gracheva2019Title.pdf paper]
Строка 1271: Строка 1271:
[https://github.com/Intelligent-Systems-Phystech/2019-Project-15/raw/master/presentations/Gracheva_presentation.pdf presentation]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-15/raw/master/presentations/Gracheva_presentation.pdf presentation]
[https://www.youtube.com/watch?v=smj4XwMnE-4 video]
[https://www.youtube.com/watch?v=smj4XwMnE-4 video]
-
|Сергей Грудинин,
+
|Sergei Grudinin,
-
Мария Кадукова
+
Maria Kadukova
|рецензент
|рецензент
|
|
Строка 1307: Строка 1307:
|-
|-
|[[Участник: Telenkov-Dmitry|Теленков Дмитрий]]
|[[Участник: Telenkov-Dmitry|Теленков Дмитрий]]
-
|Декодирование сигналов мозга и прогнозирование намерений
+
|Декодирование сигналов мозга and прогнозирование намерений
|[https://docs.google.com/document/d/1pTzCafRueWf1hTYCY2uwatNEAFia_nbZSlsgYGYoWnY LinkReview]
|[https://docs.google.com/document/d/1pTzCafRueWf1hTYCY2uwatNEAFia_nbZSlsgYGYoWnY LinkReview]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-49 git]
[https://github.com/Intelligent-Systems-Phystech/2019-Project-49 git]
Строка 1320: Строка 1320:
===Task 18 ===
===Task 18 ===
-
* '''Название''': Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
+
* '''Name:''' Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
* '''Task''': Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
* '''Task''': Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
* '''Данные''': Наборы данных сигналов мозга ECoG/EEG.
Строка 1326: Строка 1326:
#* Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
#* Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
* '''Базовый алгоритм''': Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
* '''Базовый алгоритм''': Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
-
* '''Решение''': В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности и выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
+
* '''Решение''': В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности and выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
* '''Новизна''': В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
* '''Новизна''': В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
-
* '''Авторы''': В.В. Стрижов, Tetiana Aksenova, consultant – Роман Исаченко
+
* '''Авторы''': В.В. Стрижов, Tetiana Aksenova, consultant – Roman Isachenko
=== Task 41 ===
=== Task 41 ===
-
* '''Название''': Optimal Approximation of Non-linear Power Flow Problem
+
* '''Name:''' Optimal Approximation of Non-linear Power Flow Problem
* '''Task''': Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
* '''Task''': Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
* '''Данные''': Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
* '''Данные''': Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
Строка 1347: Строка 1347:
=== Task 2 ===
=== Task 2 ===
* '''Name:''' Исследование опорных объектов в задаче метрической классификации временных рядов.
* '''Name:''' Исследование опорных объектов в задаче метрической классификации временных рядов.
-
* '''Task:''' Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов и использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом и центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, и влияние таких совпадений на значение расстояния должна быть выше.
+
* '''Task:''' Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов and использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом and центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, and влияние таких совпадений на значение расстояния должна быть выше.
-
Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, и использовать его в модифицированной функции расстояния weighted-DTW.
+
Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, and использовать его в модифицированной функции расстояния weighted-DTW.
* '''Data:''' Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
* '''Data:''' Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
* '''References:'''
* '''References:'''
Строка 1361: Строка 1361:
*# Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
*# Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
* '''Solution:''' Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.
* '''Solution:''' Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.
-
Исследование литературы и комбинация up-to-date методов.
+
Исследование литературы and комбинация up-to-date методов.
-
* '''Novelty:''' Не проводилось комплексного исследования различных способов построения центроидов и опорных элементов вместе с выбором их оптимального числа.
+
* '''Novelty:''' Не проводилось комплексного исследования различных способов построения центроидов and опорных элементов вместе с выбором их оптимального числа.
* '''Authors:''' Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert
* '''Authors:''' Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert
===Task 7 ===
===Task 7 ===
-
* '''Название''': Привилегированное обучение в задаче аппроксимации границ радужки глаза
+
* '''Name:''' Привилегированное обучение в задаче аппроксимации границ радужки глаза
-
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
+
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
-
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
+
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
* '''References:''':
* '''References:''':
** Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [http://www.frccsc.ru/sites/default/files/docs/ds/002-073-05/diss/11-aduenko/11-Aduenko_main.pdf?626]
** Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [http://www.frccsc.ru/sites/default/files/docs/ds/002-073-05/diss/11-aduenko/11-Aduenko_main.pdf?626]
-
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
+
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
-
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
+
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
-
* '''consultant''': Радослав Нейчев (автор Стрижов В.В., Expert Матвеев И.А.)
+
* '''consultant''': Радослав Нейчев (автор Strizhov V.V., Expert Матвеев И.А.)
===Task 44 ===
===Task 44 ===
-
*'''Название''': Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
+
*'''Name:''' Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
*'''Task''': Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
*'''Task''': Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
*'''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
*'''Данные''': Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
*'''References:''':
*'''References:''':
*# [Обзор методов для оценки объема выборки]
*# [Обзор методов для оценки объема выборки]
-
*# http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/..
+
*# http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
-
*# Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1..
+
*# Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
*'''Базовый алгоритм''': Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
*'''Базовый алгоритм''': Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.
-
Пытаемся аппроксимировать зависимость среднего значения log-likelihood и его дисперсии от размера выборки.
+
Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.
*'''Решение''': Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
*'''Решение''': Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
*'''Авторы''': Грабовой А. В. (consultant), Гадаев Т. Т Стрижов В. В. (Expertы)
*'''Авторы''': Грабовой А. В. (consultant), Гадаев Т. Т Стрижов В. В. (Expertы)
Строка 1394: Строка 1394:
===Task 15 ===
===Task 15 ===
-
* '''Название''': Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [https://www.overleaf.com/read/rjdnyyxpdkyj]
+
* '''Name:''' Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [https://www.overleaf.com/read/rjdnyyxpdkyj]
* '''Task''': С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет ''наименьшую свободную энергию'' взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
* '''Task''': С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет ''наименьшую свободную энергию'' взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
* '''Данные''':
* '''Данные''':
-
** Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
+
** Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
** Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
** Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
* '''References:''':
* '''References:''':
Строка 1404: Строка 1404:
** [https://alex.smola.org/papers/2003/SmoSch03b.pdf] (секция 1)
** [https://alex.smola.org/papers/2003/SmoSch03b.pdf] (секция 1)
* '''Базовый алгоритм''': [https://hal.inria.fr/hal-01591154/] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
* '''Базовый алгоритм''': [https://hal.inria.fr/hal-01591154/] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
-
* '''Решение''': Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
+
* '''Решение''': Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
-
* '''Новизна''': В первую очередь, интерес представляет ''объединение задач классификации и регрессии. Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
+
* '''Новизна''': В первую очередь, интерес представляет ''объединение задач классификации and регрессии. Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
-
* '''Авторы''' Сергей Грудинин, Мария Кадукова
+
* '''Авторы''' Sergei Grudinin, Maria Kadukova
=== Task 27 ===
=== Task 27 ===
-
* '''Название''': Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
+
* '''Name:''' Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
-
* '''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
+
* '''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
* '''Данные''':
* '''Данные''':
** Коллекция текстовых документов TREC (!)
** Коллекция текстовых документов TREC (!)
Строка 1418: Строка 1418:
*# А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw]
*# А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw]
*# Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
*# Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
-
* '''Базовой алгоритм''': Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код и эксперимент.
+
* '''Базовой алгоритм''': Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код and эксперимент.
-
* '''Решение''': Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
+
* '''Решение''': Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
* '''Авторы''': consultant [https://www.inria.fr/centre/grenoble Андрей Кулунчаков (Inria Montbonnot)], Expert В. В. Стрижов
* '''Авторы''': consultant [https://www.inria.fr/centre/grenoble Андрей Кулунчаков (Inria Montbonnot)], Expert В. В. Стрижов
=== Task 26 ===
=== Task 26 ===
-
* '''Название''': Определение местоположения по сигналам акселерометра
+
* '''Name:''' Определение местоположения по сигналам акселерометра
* '''Task''': Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (Task [https://en.wikipedia.org/wiki/Simultaneous_localization_and_mapping SLAM])
* '''Task''': Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (Task [https://en.wikipedia.org/wiki/Simultaneous_localization_and_mapping SLAM])
* '''Данные''': из работы [1], данные, собранные самостоятельно.
* '''Данные''': из работы [1], данные, собранные самостоятельно.
Строка 1430: Строка 1430:
*# https://ieeexplore.ieee.org/document/1528431
*# https://ieeexplore.ieee.org/document/1528431
* '''Базовый алгоритм''': из работы [1].
* '''Базовый алгоритм''': из работы [1].
-
* '''Решение''': Поиск априорной и дополнительной информации, которая позволяет повысить точность позиционирования.
+
* '''Решение''': Поиск априорной and дополнительной информации, которая позволяет повысить точность позиционирования.
* '''Новизна''': Постановка задачи в терминах Projection to Latent Spaces
* '''Новизна''': Постановка задачи в терминах Projection to Latent Spaces
* '''Авторы''': consultant [http://www.forecsys.ru/ru/site/projects/solut2/ Анастасия Мотренко], Expert [https://www.huawei.com/en/ Илья Гарцеев], В. В. Стрижов
* '''Авторы''': consultant [http://www.forecsys.ru/ru/site/projects/solut2/ Анастасия Мотренко], Expert [https://www.huawei.com/en/ Илья Гарцеев], В. В. Стрижов
Строка 1436: Строка 1436:
=== Task 45 ===
=== Task 45 ===
* Name: Task поиска символов в изображениях
* Name: Task поиска символов в изображениях
-
* Task: Данная Task в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении и определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным и т.п.
+
* Task: Данная Task в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении and определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным and т.п.
* Data: Словарь символов
 Сайты-музеи
 Image-net

* Data: Словарь символов
 Сайты-музеи
 Image-net

* References:
* References:
Строка 1442: Строка 1442:
*# http://www.image-net.org
*# http://www.image-net.org
* Basic algorithm: CNN
* Basic algorithm: CNN
-
* Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска и классификации объектов. Определить применимость методов.
+
* Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска and классификации объектов. Определить применимость методов.
-
* Novelty: Предлагаемый подход к анализу изображений используется Expertами в ручном режиме и не был автоматизирован
+
* Novelty: Предлагаемый подход к анализу изображений используется Expertами в ручном режиме and не был автоматизирован
* Authors: М. Апишев (consultant), Д. Лемтюжникова
* Authors: М. Апишев (consultant), Д. Лемтюжникова
=== Task 28 ===
=== Task 28 ===
* Name: Мультимоделирование как универсальный способ описания выборки общего вида
* Name: Мультимоделирование как универсальный способ описания выборки общего вида
-
* Task: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка и сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
+
* Task: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка and сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
* Data: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
* Data: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
* References:
* References:
Строка 1455: Строка 1455:
# MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
# MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
# Адуенко А. А. «Выбор мультимоделей в Taskх классификации» кандидатская диссертация
# Адуенко А. А. «Выбор мультимоделей в Taskх классификации» кандидатская диссертация
-
# Motrenko, Anastasiya, Vadim Strijov, and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.
+
# Motrenko, Anastasiya, Strizhov V.V., and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.
* Basic algorithm: Алгоритм построения адекватных мультимоделей из #4.
* Basic algorithm: Алгоритм построения адекватных мультимоделей из #4.
-
* Solution: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности и ее связи со статистической значимостью.
+
* Solution: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности and ее связи со статистической значимостью.
-
* Novelty: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности и статистической значимости для некоторых классов моделей.
+
* Novelty: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности and статистической значимости для некоторых классов моделей.
* Authors: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)
* Authors: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)
=== Task 11 ===
=== Task 11 ===
-
* '''Название''': Автоматическое построение нейросети оптимальной сложности
+
* '''Name:''' Автоматическое построение нейросети оптимальной сложности
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
* '''Data:''' Выборки Boston, MNIST, CIFAR-10
* '''Data:''' Выборки Boston, MNIST, CIFAR-10
* '''References:''':
* '''References:''':
-
*# [http://strijov.com/papers/BakhteevEvidenceArticle3.pdf Бахтеев О.Ю., Стрижов В.В. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика и телемеханика, 2018.]
+
*# [http://strijov.com/papers/BakhteevEvidenceArticle3.pdf Бахтеев О.Ю., Strizhov V.V. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика and телемеханика, 2018.]
-
*# [http://strijov.com/papers/SmerdovBakhteevStrijov_Paraphrase2017.pdf Смердов А.Н., Бахтеев О.Ю., Стрижов В.В. Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза // Информатика и ее применения, 2018.]
+
*# [http://strijov.com/papers/SmerdovBakhteevStrijov_Paraphrase2017.pdf Смердов А.Н., Бахтеев О.Ю., Strizhov V.V. Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза // Информатика and ее применения, 2018.]
*# [https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks] Вариационный вывод.
*# [https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks] Вариационный вывод.
*# [https://arxiv.org/abs/1611.00712] Релаксация на основе вариационного вывода.
*# [https://arxiv.org/abs/1611.00712] Релаксация на основе вариационного вывода.
*# [https://arxiv.org/abs/1806.09055] DARTS.
*# [https://arxiv.org/abs/1806.09055] DARTS.
-
* '''Basic algorithm:''' случайный поиск и алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
+
* '''Basic algorithm:''' случайный поиск and алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
* '''Решение'''Предлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
* '''Решение'''Предлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
-
* '''Новизна''': Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели и позволяющий находить наиболее устойчивые модели.
+
* '''Новизна''': Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели and позволяющий находить наиболее устойчивые модели.
-
* '''Авторы''': О.Ю. Бахтеев, В.В. Стрижов
+
* '''Авторы''': Oleg Bakhteev, В.В. Стрижов
=== Task 48 ===
=== Task 48 ===
-
* '''Название''': Мультимоделирование, привилегированное обучение
+
* '''Name:''' Мультимоделирование, привилегированное обучение
* '''Task''': Рассматривается Task обучения одной модели с помощью другой
* '''Task''': Рассматривается Task обучения одной модели с помощью другой
* '''Data:''' Выборки временных рядов
* '''Data:''' Выборки временных рядов
Строка 1491: Строка 1491:
=== Task 49 ===
=== Task 49 ===
-
* Name: Декодирование сигналов мозга и прогнозирование намерений
+
* Name: Декодирование сигналов мозга and прогнозирование намерений
* Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
* Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
* Data: neurotycho.org [9] (или пальцы)
* Data: neurotycho.org [9] (или пальцы)
* References:
* References:
-
** Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
+
** Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
** Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
** Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
* Basic algorithm: Partial Least Squares[11]
* Basic algorithm: Partial Least Squares[11]
-
* Solution: Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
+
* Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
-
* Novelty: Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
+
* Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
* Authors: Андрей Задаянчук, В.В. Стрижов
* Authors: Андрей Задаянчук, В.В. Стрижов
Строка 1592: Строка 1592:
|-
|-
|9
|9
-
|Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
|Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-9 Code], [https://docs.google.com/document/d/1vvOqLwLJSelbKBglc4LKh6XUWS5c72L0XMzyeJ20XBM/edit LiteratureReview], [https://drive.google.com/file/d/1pzfKkjVe1aP1-5ab1ewN0NMF60RJ26IA/view?usp=drivesdk Slides], [https://github.com/Intelligent-Systems-Phystech/2018-Project-9/raw/master/Lukoyanov2018Project9/main.pdf report]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-9 Code], [https://docs.google.com/document/d/1vvOqLwLJSelbKBglc4LKh6XUWS5c72L0XMzyeJ20XBM/edit LiteratureReview], [https://drive.google.com/file/d/1pzfKkjVe1aP1-5ab1ewN0NMF60RJ26IA/view?usp=drivesdk Slides], [https://github.com/Intelligent-Systems-Phystech/2018-Project-9/raw/master/Lukoyanov2018Project9/main.pdf report]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-9/raw/master/Kutsevol2018Project9/Kutsevol_Article.pdf Kutsevol Polina]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-9/raw/master/Kutsevol2018Project9/Kutsevol_Article.pdf Kutsevol Polina]
Строка 1608: Строка 1608:
|-
|-
|10
|10
-
|Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста
+
|Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-10 Code], [https://docs.google.com/document/d/1Gocn0x-FfYkD_L7ZLZdULxNTBfo25OMMKPBr2-otw-w/edit?usp=sharing LinkReview], [https://t.me/joinchat/DEQDKU-oqyt8FRG4SoFh3w Discussion], [https://docs.google.com/presentation/d/17_7i0KFELxyaL-MtvVmu2ed07sg331hiMagYqNpq9Ek/edit?usp=sharing Presentation]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-10 Code], [https://docs.google.com/document/d/1Gocn0x-FfYkD_L7ZLZdULxNTBfo25OMMKPBr2-otw-w/edit?usp=sharing LinkReview], [https://t.me/joinchat/DEQDKU-oqyt8FRG4SoFh3w Discussion], [https://docs.google.com/presentation/d/17_7i0KFELxyaL-MtvVmu2ed07sg331hiMagYqNpq9Ek/edit?usp=sharing Presentation]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-10/blob/master/report/Gaiduchenko2018Project10/Gaiduchenko2018Project10.pdf Гайдученко Николай]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-10/blob/master/report/Gaiduchenko2018Project10/Gaiduchenko2018Project10.pdf Гайдученко Николай]
Строка 1661: Строка 1661:
|-
|-
|15
|15
-
|Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул
+
|Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-15/Code Code]
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-15/Code Code]
[https://docs.google.com/document/d/1Be2O0My8KWwOKLo8bFMmF8tPMCFGCK4zUVArurrPeNQ/edit Link Review]
[https://docs.google.com/document/d/1Be2O0My8KWwOKLo8bFMmF8tPMCFGCK4zUVArurrPeNQ/edit Link Review]
Строка 1731: Строка 1731:
|-
|-
|23
|23
-
|Фрактальный анализ и синтез оптических изображений морского волнения
+
|Фрактальный анализ and синтез оптических изображений морского волнения
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-23/tree/master/code code],
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-23/tree/master/code code],
[https://docs.google.com/document/d/1g-8H-i8vyThkWUTvthebbr4-qSd8c-kE4B_bieykF7c/edit LinkReview],
[https://docs.google.com/document/d/1g-8H-i8vyThkWUTvthebbr4-qSd8c-kE4B_bieykF7c/edit LinkReview],
Строка 1753: Строка 1753:
|-
|-
|25
|25
-
|Автоматическое детектирование и распознавание объектов на изображениях
+
|Автоматическое детектирование and распознавание объектов на изображениях
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-25 code],
|[https://github.com/Intelligent-Systems-Phystech/2018-Project-25 code],
[https://github.com/Intelligent-Systems-Phystech/2018-Project-25a code_A],
[https://github.com/Intelligent-Systems-Phystech/2018-Project-25a code_A],
Строка 1824: Строка 1824:
=== Task 5 ===
=== Task 5 ===
* '''Name:''' Нахождение парафразов.
* '''Name:''' Нахождение парафразов.
-
* '''Task:''' Парафразы — разные вариации одного и того же текста, одинаковые по смыслу, но отличающиеся лексически и грамматически, например: "Куда поехала машина" и "В каком направлении поехал автомобиль". Task детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного и того же предложения.
+
* '''Task:''' Парафразы — разные вариации одного and того же текста, одинаковые по смыслу, но отличающиеся лексически and грамматически, например: "Куда поехала машина" and "В каком направлении поехал автомобиль". Task детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного and того же предложения.
Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".
Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".
-
*. '''Data:''' Есть открытые датасеты вопросов для тестирования и обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
+
*. '''Data:''' Есть открытые датасеты вопросов для тестирования and обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
* '''References:'''
* '''References:'''
*# Будет позже
*# Будет позже
Строка 1849: Строка 1849:
=== Task 10 ===
=== Task 10 ===
-
* '''Название''': Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
+
* '''Name:''' Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
* '''Task''': Automatically Detect Text in Natural Images.
* '''Task''': Automatically Detect Text in Natural Images.
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
Строка 1855: Строка 1855:
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
-
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
+
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
* '''Авторы''': И. Н. Жариков.
* '''Авторы''': И. Н. Жариков.
* '''Expert''': Л. М. Местецкий (морфологические методы).
* '''Expert''': Л. М. Местецкий (морфологические методы).
===Task 16 ===
===Task 16 ===
-
* '''Название''': Оценка оптимального объема выборки для исследований в медицине
+
* '''Name:''' Оценка оптимального объема выборки для исследований в медицине
* '''Task''': В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
* '''Task''': В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
* '''Данные''': Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
* '''Данные''': Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
Строка 1867: Строка 1867:
* '''Базовый алгоритм''': Серия эмпирических алгоритмов оценки объема выборки.
* '''Базовый алгоритм''': Серия эмпирических алгоритмов оценки объема выборки.
* '''Решение''': Исследование свойств пространства параметров при пополнении выборки.
* '''Решение''': Исследование свойств пространства параметров при пополнении выборки.
-
* '''Новизна''': Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
+
* '''Новизна''': Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
* '''Авторы''': А.М. Катруца, В.В. Стрижов, координатор Тамаз Гадаев
* '''Авторы''': А.М. Катруца, В.В. Стрижов, координатор Тамаз Гадаев
Строка 1882: Строка 1882:
=== Task 20 ===
=== Task 20 ===
* Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
* Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
-
* Task: Задан фрагмент текста и несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального и конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) и 1 (входит в ответ).
+
* Task: Задан фрагмент текста and несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального and конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) and 1 (входит в ответ).
-
* Data: Предоставляется размеченный датасет с фрагментами текста и наборами вопросов с ответами в диалоге
+
* Data: Предоставляется размеченный датасет с фрагментами текста and наборами вопросов с ответами в диалоге
* References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
* References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
-
* Basic algorithm: Базовый алгоритм описан статьях и реализован (QuAC2018, BiDAF2017).
+
* Basic algorithm: Базовый алгоритм описан статьях and реализован (QuAC2018, BiDAF2017).
-
* Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) и исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
+
* Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) and исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
* Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
* Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
* Authors: [https://mipt.ru/education/chairs/parallelcomputing/persons/chritankov.php Антон Сергеевич Хританков]
* Authors: [https://mipt.ru/education/chairs/parallelcomputing/persons/chritankov.php Антон Сергеевич Хританков]
Строка 1892: Строка 1892:
=== Task 21 ===
=== Task 21 ===
* '''Name:''' Методы выпуклой оптимизации высокого порядка
* '''Name:''' Методы выпуклой оптимизации высокого порядка
-
* '''Task:''' Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго и третьего порядка [1], метод из работы [2] второго и третьего порядка и обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так и по общему времени работы.
+
* '''Task:''' Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго and третьего порядка [1], метод из работы [2] второго and третьего порядка and обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так and по общему времени работы.
* '''References:'''
* '''References:'''
# https://alfresco.uclouvain.be/alfresco/service/guest/streamDownload/workspace/SpacesStore/aabc2323-0bc1-40d4-9653-1c29971e7bd8/coredp2018_05web.pdf?guest=true
# https://alfresco.uclouvain.be/alfresco/service/guest/streamDownload/workspace/SpacesStore/aabc2323-0bc1-40d4-9653-1c29971e7bd8/coredp2018_05web.pdf?guest=true
Строка 1900: Строка 1900:
=== Task 22 ===
=== Task 22 ===
-
* '''Название''': Cutting plane methods for copositive optimization
+
* '''Name:''' Cutting plane methods for copositive optimization
* '''Task''': Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. [[Media:Problems.pdf|Подробнее тут]]
* '''Task''': Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. [[Media:Problems.pdf|Подробнее тут]]
* '''Данные''': The algorithm will be tested on randomly generated instances
* '''Данные''': The algorithm will be tested on randomly generated instances
Строка 1913: Строка 1913:
=== Task 23 ===
=== Task 23 ===
-
* '''Name:''' Фрактальный анализ и синтез оптических изображений морского волнения
+
* '''Name:''' Фрактальный анализ and синтез оптических изображений морского волнения
-
* '''Task:''' Разнообразные физические процессы и явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах и явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины и занимают промежуточное положение между линиями и двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества и может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Task состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн и фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца и пространственном разрешении изображений.
+
* '''Task:''' Разнообразные физические процессы and явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах and явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины and занимают промежуточное положение между линиями and двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества and может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Task состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн and фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца and пространственном разрешении изображений.
* '''References:'''
* '''References:'''
*# Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
*# Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
Строка 1922: Строка 1922:
=== Task 24 ===
=== Task 24 ===
* '''Название''' Максимизация энтропии при различных видах преобразований над изображением
* '''Название''' Максимизация энтропии при различных видах преобразований над изображением
-
* '''Task:''' Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Task паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения и мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
+
* '''Task:''' Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Task паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения and мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
-
* '''Необходимо''' провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта и допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
+
* '''Необходимо''' провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта and допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
* '''References:'''
* '''References:'''
-
*# Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория и системы управления, 2017, № 6.
+
*# Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория and системы управления, 2017, № 6.
* '''Автор:''' Иван Алексеевич Матвеев
* '''Автор:''' Иван Алексеевич Матвеев
=== Task 25 ===
=== Task 25 ===
-
* '''Name:''' Автоматическое детектирование и распознавание объектов на изображениях
+
* '''Name:''' Автоматическое детектирование and распознавание объектов на изображениях
-
* '''Task:''' Автоматическое детектирование и распознавание объектов на изображениях и видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта и классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.
+
* '''Task:''' Автоматическое детектирование and распознавание объектов на изображениях and видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта and классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.
-
Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные и интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости и освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта и сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом.
+
Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные and интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости and освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта and сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом.
-
Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера и др.), решающие деревья и леса, метрические (ближайшие К-соседей, парзеновские окна и&nbsp;т.&nbsp;д.) и ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, и классу изображений, не содержащих объект (изображениям фона).
+
Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера and др.), решающие деревья and леса, метрические (ближайшие К-соседей, парзеновские окна и&nbsp;т.&nbsp;д.) and ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, and классу изображений, не содержащих объект (изображениям фона).
-
* [[Media:ThemesIS2018Video.pdf|References: и более подробно тут]]
+
* [[Media:ThemesIS2018Video.pdf|References: and более подробно тут]]
* '''Автор:''' Иван Алексеевич Матвеев
* '''Автор:''' Иван Алексеевич Матвеев
Строка 1939: Строка 1939:
=== Task 29 ===
=== Task 29 ===
* Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
* Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
-
* Task: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) и исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке и параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском и русском наборах.
+
* Task: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) and исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке and параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском and русском наборах.
* Data: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
* Data: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
* References: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
* References: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
* Basic algorithm: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
* Basic algorithm: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
-
* Solution: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) и варианты объединения моделей сокращения и перевода. Базовые модели и предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch и Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
+
* Solution: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) and варианты объединения моделей сокращения and перевода. Базовые модели and предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch and Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
-
* Novelty: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке и указание условий для этого переноса расширит область применения модели и укажет необходимые новые доработки модели или предобработки данных.
+
* Novelty: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке and указание условий для этого переноса расширит область применения модели and укажет необходимые новые доработки модели или предобработки данных.
-
* Authors: Алексей Романов (consultant), Антон Хританков (Expert).
+
* Authors: Алексей Романов (consultant), Anton Khritankov (Expert).
=== Task 30 ===
=== Task 30 ===
Строка 1962: Строка 1962:
*# 9. http://www.cse.oulu.fi/CMV/Research
*# 9. http://www.cse.oulu.fi/CMV/Research
* Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
* Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
-
* Solution: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG и LBP. Необходимо модифицировать исходный код реализации LBP и вставить подсчет модулей градиента и накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных и модифицированных дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR.
+
* Solution: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG and LBP. Необходимо модифицировать исходный код реализации LBP and вставить подсчет модулей градиента and накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных and модифицированных дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR.
* Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
* Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
* Authors: Гнеушев Александр Николаевич
* Authors: Гнеушев Александр Николаевич
Строка 1983: Строка 1983:
*# 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
*# 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
*# 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
*# 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
-
* Solution: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG и классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные и одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования и построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA и на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
+
* Solution: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG and классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные and одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA and на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
-
* Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре и спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе и представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
+
* Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре and спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе and представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
* Authors: Гнеушев Александр Николаевич
* Authors: Гнеушев Александр Николаевич
Строка 2152: Строка 2152:
|-
|-
| [[Участник:Oleksandr Kulkov|Кульков Александр]]
| [[Участник:Oleksandr Kulkov|Кульков Александр]]
-
|Декодирование сигналов мозга и прогнозирование намерений
+
|Декодирование сигналов мозга and прогнозирование намерений
| [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/ folder]
| [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/ folder]
[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/code/ code]
[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/code/ code]
Строка 2225: Строка 2225:
===Task 1 ===
===Task 1 ===
-
* '''Название''': Аппроксимация границ радужки глаза
+
* '''Name:''' Аппроксимация границ радужки глаза
-
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
+
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
-
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
+
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
* '''References:''':
* '''References:''':
** Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [http://www.frccsc.ru/sites/default/files/docs/ds/002-073-05/diss/11-aduenko/11-Aduenko_main.pdf?626]
** Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [http://www.frccsc.ru/sites/default/files/docs/ds/002-073-05/diss/11-aduenko/11-Aduenko_main.pdf?626]
-
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
+
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
-
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
+
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
-
* '''consultant''': Александр Адуенко (автор Стрижов В.В., Expert Матвеев И.А.)
+
* '''consultant''': Александр Адуенко (автор Strizhov V.V., Expert Матвеев И.А.)
===Task 2 ===
===Task 2 ===
-
* '''Название''': Оценка оптимального объема выборки
+
* '''Name:''' Оценка оптимального объема выборки
* '''Task''': В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
* '''Task''': В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
* '''Данные''': Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
* '''Данные''': Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
Строка 2245: Строка 2245:
* '''Базовый алгоритм''': Алгоритмы оценки объема выборки при .
* '''Базовый алгоритм''': Алгоритмы оценки объема выборки при .
* '''Решение''': Исследование свойств пространства параметров при пополнении выборки.
* '''Решение''': Исследование свойств пространства параметров при пополнении выборки.
-
* '''Новизна''': Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической и байесовской статистики.
+
* '''Новизна''': Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
* '''Авторы''': А.М. Катруца, В.В. Стрижов, Expert А.П. Мотренко
* '''Авторы''': А.М. Катруца, В.В. Стрижов, Expert А.П. Мотренко
===Task 3 ===
===Task 3 ===
-
* '''Название''': Восстановление структуры прогностической модели по вероятностному представлению
+
* '''Name:''' Восстановление структуры прогностической модели по вероятностному представлению
* '''Task''': Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
* '''Task''': Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
* '''Данные''': Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
* '''Данные''': Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
* '''References:''':
* '''References:''':
-
** Работы Tommy Yakkola и других в LinkReview [https://docs.google.com/document/d/1j-1eZ4Az05yBR3GvgZusqFVIZeE_HcZDawZDzz41zS4/edit?usp=sharing].
+
** Работы Tommy Yakkola and других в LinkReview [https://docs.google.com/document/d/1j-1eZ4Az05yBR3GvgZusqFVIZeE_HcZDawZDzz41zS4/edit?usp=sharing].
-
* '''Базовый алгоритм''': Метод ветвей и границ, динамическое пограммирование при построении полносвязного графа.
+
* '''Базовый алгоритм''': Метод ветвей and границ, динамическое пограммирование при построении полносвязного графа.
* '''Решение''': Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
* '''Решение''': Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
* '''Новизна''': Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
* '''Новизна''': Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
Строка 2260: Строка 2260:
===Task 4 ===
===Task 4 ===
-
* '''Название''': Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
* '''Name:''' Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
* '''Данные''': Шрифты в растровом представлении.
* '''Данные''': Шрифты в растровом представлении.
-
* '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 и
+
* '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 and
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Базовый алгоритм''': Сверточная сеть для растрового изображения.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
* '''Решение''': Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Строка 2270: Строка 2270:
===Task 5 ===
===Task 5 ===
-
* '''Название''': Порождение признаков с помощью локально-аппроксимирующих моделей
+
* '''Name:''' Порождение признаков с помощью локально-аппроксимирующих моделей
-
* '''Task''': Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой и требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
+
* '''Task''': Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
* '''Данные''':
* '''Данные''':
** WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
** WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
** ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
** ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
* '''References:''':
* '''References:''':
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471-1483.[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf]
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471-1483.[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf]
-
** Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016.[http://strijov.com/papers/Karasikov2016TSC.pdf URL]
+
** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.[http://strijov.com/papers/Karasikov2016TSC.pdf URL]
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]
-
** Исаченко Р.В., Стрижов В.В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]
+
** Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]
-
** Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]
+
** Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
* '''Базовый алгоритм''': Описан в работе Кузнецова, Ивкина.
* '''Базовый алгоритм''': Описан в работе Кузнецова, Ивкина.
-
* '''Решение''': Требуется построить набор локально-аппроксимирующих моделей и выбрать наиболее адекватные.
+
* '''Решение''': Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные.
* '''Новизна''': Создан стандарт построения локально-аппроксимирующих моделей.
* '''Новизна''': Создан стандарт построения локально-аппроксимирующих моделей.
* '''Авторы''': С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов
* '''Авторы''': С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов
===Task 6 ===
===Task 6 ===
-
* '''Название''': Декодирование сигналов мозга и прогнозирование намерений
+
* '''Name:''' Декодирование сигналов мозга and прогнозирование намерений
* '''Task''': Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
* '''Task''': Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
* '''Данные''': neurotycho.org [http://neurotycho.org/]
* '''Данные''': neurotycho.org [http://neurotycho.org/]
* '''References:''':
* '''References:''':
-
** Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
+
** Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
** MLAlgorithms: Motrenko, Isachenko (submitted)
** MLAlgorithms: Motrenko, Isachenko (submitted)
* '''Базовый алгоритм''': Partial Least Squares[https://en.wikipedia.org/wiki/Partial_least_squares_regression]
* '''Базовый алгоритм''': Partial Least Squares[https://en.wikipedia.org/wiki/Partial_least_squares_regression]
-
* '''Решение''': Создать алгоритм выбора признаков, альтернативный PLS и учитывающий неортогональную структуру взаимозависимости признаков.
+
* '''Решение''': Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
-
* '''Новизна''': Предложен способ выбора признаков, учитывающий закономерности как и независимой, так и в зависимой переменной.
+
* '''Новизна''': Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной.
* '''Авторы''': Р.В. Исаченко, В.В. Стрижов
* '''Авторы''': Р.В. Исаченко, В.В. Стрижов
===Task 7 ===
===Task 7 ===
-
* '''Название''': Автоматическое определение релевантности параметров нейросети.
+
* '''Name:''' Автоматическое определение релевантности параметров нейросети.
-
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров и удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
+
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров and удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
* '''Данные''': Выборка рукописных цифр MNIST
* '''Данные''': Выборка рукописных цифр MNIST
* '''Базовый алгоритм''': Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
* '''Базовый алгоритм''': Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
Строка 2311: Строка 2311:
** [https://arxiv.org/abs/1607.01097] AdaNet
** [https://arxiv.org/abs/1607.01097] AdaNet
** [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf] Метод Белсли
** [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf] Метод Белсли
-
* '''Авторы''': О.Ю. Бахтеев, В.В. Стрижов
+
* '''Авторы''': Oleg Bakhteev, В.В. Стрижов
===Task 8 ===
===Task 8 ===
-
* '''Название''': Предсказание графовой структуры нейросетевой модели.
+
* '''Name:''' Предсказание графовой структуры нейросетевой модели.
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
* '''Данные''': Выборки MNIST, CIFAR-10
* '''Данные''': Выборки MNIST, CIFAR-10
Строка 2321: Строка 2321:
** [https://pdfs.semanticscholar.org/e7bd/0e7a7ee6b0904d5de6e76e095a6a3b88dd12.pdf] doubly-recurrent нейросети.
** [https://pdfs.semanticscholar.org/e7bd/0e7a7ee6b0904d5de6e76e095a6a3b88dd12.pdf] doubly-recurrent нейросети.
** [https://arxiv.org/pdf/1707.07012] Схожий подход с использованием обучения с подкреплением.
** [https://arxiv.org/pdf/1707.07012] Схожий подход с использованием обучения с подкреплением.
-
* '''Авторы''': О.Ю. Бахтеев. В.В. Стрижов
+
* '''Авторы''': Oleg Bakhteev. В.В. Стрижов
===Task 9===
===Task 9===
-
* '''Название''': Deep Learning for reliable detection of tandem repeats in 3D protein structures [[Media:Strijov_3D_CNN.pdf|подробнее в PDF]]
+
* '''Name:''' Deep Learning for reliable detection of tandem repeats in 3D protein structures [[Media:Strijov_3D_CNN.pdf|подробнее в PDF]]
* '''Task''': Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
* '''Task''': Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
* '''Данные''': Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
* '''Данные''': Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
Строка 2332: Строка 2332:
[https://arxiv.org/pdf/1706.03078.pdf] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
[https://arxiv.org/pdf/1706.03078.pdf] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
* '''Новизна''': Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
* '''Новизна''': Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
-
* '''Авторы''': Expert Sergei Grudinin, consultants Guillaume Pages, Vadim Strijov
+
* '''Авторы''': Expert Sergei Grudinin, consultants Guillaume Pages, Strizhov V.V.
===Task 10===
===Task 10===
-
* '''Название''': Semi-supervised representation learning with attention
+
* '''Name:''' Semi-supervised representation learning with attention
* '''Task''': обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
* '''Task''': обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
-
* '''Данные''': Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) и PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
+
* '''Данные''': Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) and PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
* '''References:''':
* '''References:''':
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762).
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762).
Строка 2344: Строка 2344:
4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).
4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).
* '''Базовый алгоритм''': решение [3] или векторные представления, полученные с использованием seq2seq [].
* '''Базовый алгоритм''': решение [3] или векторные представления, полученные с использованием seq2seq [].
-
* '''Решение''': в задаче предлагается обучить векторные представления для фраз, используя механизм attention и метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований и сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной и feed-forward сети.
+
* '''Решение''': в задаче предлагается обучить векторные представления для фраз, используя механизм attention and метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований and сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной and feed-forward сети.
* '''Новизна''': новый метод.
* '''Новизна''': новый метод.
* '''Авторы''': Рита Кузнецова, consultant
* '''Авторы''': Рита Кузнецова, consultant
=== Task 11 ===
=== Task 11 ===
-
* '''Название''': Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
+
* '''Name:''' Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
-
* '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
+
* '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
-
* '''Данные''': Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
+
* '''Данные''': Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
* '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
* '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
-
* '''Базовой алгоритм''': Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
+
* '''Базовой алгоритм''': Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
-
* '''Решение''': Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) и определения оптимального числа моделей.
+
* '''Решение''': Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
* '''Новизна''': Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
* '''Новизна''': Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
* '''Авторы''': А.В. Гончаров, В.В. Стрижов.
* '''Авторы''': А.В. Гончаров, В.В. Стрижов.
=== Task 12 ===
=== Task 12 ===
-
* '''Название''': Порождение признаков, инвариантных к изменению частоты временного ряда.
+
* '''Name:''' Порождение признаков, инвариантных к изменению частоты временного ряда.
-
* '''Task''': Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима и при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) и получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, ..., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима и при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.
+
* '''Task''': Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима and при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) and получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, .., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима and при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.
f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.
f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.
-
* '''Данные''': Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ и акселерометрам.
+
* '''Данные''': Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ and акселерометрам.
* '''References:''': См выше про Акселерометры
* '''References:''': См выше про Акселерометры
* '''Базовой алгоритм''': Преобразование Фурье.
* '''Базовой алгоритм''': Преобразование Фурье.
* '''Решение''': Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
* '''Решение''': Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
-
* '''Новизна''': Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как и кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках и во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x и y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации и предсказания временных рядов.
+
* '''Новизна''': Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как and кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках and во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x and y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации and предсказания временных рядов.
* '''Авторы''': Р. Г. Нейчев, В.В. Стрижов.
* '''Авторы''': Р. Г. Нейчев, В.В. Стрижов.
=== Task 14 ===
=== Task 14 ===
to be done
to be done
-
* '''Название''': Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
+
* '''Name:''' Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
* '''Task''':
* '''Task''':
* '''Данные''': [https://recsys-challenge.spotify.com конкурса конференции RecSys'18].
* '''Данные''': [https://recsys-challenge.spotify.com конкурса конференции RecSys'18].
Строка 2383: Строка 2383:
=== Task 15 ===
=== Task 15 ===
to be done
to be done
-
* '''Название''': Иерархическое тематическое моделирование текстовой коллекции
+
* '''Name:''' Иерархическое тематическое моделирование текстовой коллекции
* '''Task''': (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
* '''Task''': (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
* '''Данные''':
* '''Данные''':
Строка 2395: Строка 2395:
=== Task 16 ===
=== Task 16 ===
to be done
to be done
-
* '''Название''': Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
+
* '''Name:''' Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
* '''Task''':
* '''Task''':
* '''Данные''':
* '''Данные''':
Строка 2407: Строка 2407:
=== Task 17 ===
=== Task 17 ===
to be done
to be done
-
* '''Название''': Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
+
* '''Name:''' Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
* '''Task''':
* '''Task''':
* '''Данные''':
* '''Данные''':
Строка 2418: Строка 2418:
=== Task 18 ===
=== Task 18 ===
-
* '''Название''': Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
+
* '''Name:''' Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
* '''Task''': Automatically Detect Text in Natural Images.
* '''Task''': Automatically Detect Text in Natural Images.
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
Строка 2424: Строка 2424:
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner's solution].
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner's solution].
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
-
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
+
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
* '''Авторы''': И.Н. Жариков.
* '''Авторы''': И.Н. Жариков.
* '''Expert''': Л.М. Местецкий (морфологические методы).
* '''Expert''': Л.М. Местецкий (морфологические методы).
Строка 2481: Строка 2481:
|-
|-
|[[Участник:Igashov|Игашов Илья]]
|[[Участник:Igashov|Игашов Илья]]
-
|Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул.
+
|Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
|[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes.pdf paper]
|[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes.pdf paper]
[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/presentation/presentation.pdf slides]
[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/presentation/presentation.pdf slides]
[https://www.youtube.com/watch?v=U0rDFG0-lzE video]
[https://www.youtube.com/watch?v=U0rDFG0-lzE video]
-
|Сергей Грудинин, Мария Кадукова
+
|Sergei Grudinin, Maria Kadukova
|[[Участник:vanderwardan|Манучарян Вардан]], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Review.pdf review], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Correction.pdf correction]
|[[Участник:vanderwardan|Манучарян Вардан]], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Review.pdf review], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Correction.pdf correction]
|BHMF
|BHMF
Строка 2504: Строка 2504:
|-
|-
|[[Участник:vanderwardan|Манучарян Вардан]]
|[[Участник:vanderwardan|Манучарян Вардан]]
-
|Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей
+
|Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей
|[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/doc/Manucharyan2018AtomicTypePredictionInUsingCNN.pdf paper],
|[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/doc/Manucharyan2018AtomicTypePredictionInUsingCNN.pdf paper],
[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/slides/Manucharyan2018AtomicTypePredictionInUsingCNNPresentation.pdf slides],
[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/slides/Manucharyan2018AtomicTypePredictionInUsingCNNPresentation.pdf slides],
[https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/Manucharyan2018AtomicTypePredictionInUsingCNN/code/Manucharyan2018AtomicTypePredictionInUsingCNN.ipynb code]
[https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/Manucharyan2018AtomicTypePredictionInUsingCNN/code/Manucharyan2018AtomicTypePredictionInUsingCNN.ipynb code]
[https://www.youtube.com/watch?v=sShO-zIbidE video]
[https://www.youtube.com/watch?v=sShO-zIbidE video]
-
|Сергей Грудинин, [[Участник:Kadukovam|Мария Кадукова]]
+
|Sergei Grudinin, [[Участник:Kadukovam|Maria Kadukova]]
|Фаттахов Артур [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/rev.pdf review]
|Фаттахов Артур [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/rev.pdf review]
|BMF
|BMF
Строка 2530: Строка 2530:
|-
|-
|[[Участник:diraria|Мурзин Дмитрий]] [[Участник:andnlv|Данилов Андрей]]
|[[Участник:diraria|Мурзин Дмитрий]] [[Участник:andnlv|Данилов Андрей]]
-
|Распознавание текста на основе скелетного представления толстых линий и свёрточных сетей
+
|Распознавание текста на основе скелетного представления толстых линий and свёрточных сетей
|[https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/doc/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf paper], [https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/slides/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf slides], [https://github.com/Intelligent-Systems-Phystech/Group594/tree/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/code code]
|[https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/doc/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf paper], [https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/slides/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf slides], [https://github.com/Intelligent-Systems-Phystech/Group594/tree/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/code code]
[video]
[video]
Строка 2569: Строка 2569:
=== Task 1 (1-2) ===
=== Task 1 (1-2) ===
-
* '''Название''': Классификация суперпозиций движений физической активности
+
* '''Name:''' Классификация суперпозиций движений физической активности
* '''Task''': Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.
* '''Task''': Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.
-
Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.)
+
Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.)
* '''Данные''':
* '''Данные''':
** Собираются самостоятельно
** Собираются самостоятельно
Строка 2577: Строка 2577:
** Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
** Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
* '''References:''':
* '''References:''':
-
** Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
+
** Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
-
** Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471—1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
+
** Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471—1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
-
** Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
+
** Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
** Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
** Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
-
* '''Базовой алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
+
* '''Базовой алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
-
* '''Решение''': Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
+
* '''Решение''': Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
-
* '''Новизна''': Предложен способ классификации и анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
+
* '''Новизна''': Предложен способ классификации and анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
* '''Авторы''': Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,
* '''Авторы''': Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,
=== Task 2 (1) ===
=== Task 2 (1) ===
-
* '''Название''': Сравнение нейросетевых и непрерывно-морфологических методов в задаче детекции текста (Text Detection).
+
* '''Name:''' Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
* '''Task''': Automatically Detect Text in Natural Images.
* '''Task''': Automatically Detect Text in Natural Images.
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
* '''Данные''': синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
Строка 2595: Строка 2595:
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
* '''Базовой алгоритм''': [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
* '''Решение''': Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
-
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так и морфологических методов (решение задачи word detection).
+
* '''Новизна''': предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
* '''Авторы''': И. Н. Жариков.
* '''Авторы''': И. Н. Жариков.
* '''Expert''': Л. М. Местецкий (морфологические методы).
* '''Expert''': Л. М. Местецкий (морфологические методы).
=== Task 3 (1-2) ===
=== Task 3 (1-2) ===
-
* '''Название''': Распознавание текста на основе скелетного представления толстых линий и сверточных сетей
+
* '''Name:''' Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
* '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
* '''Данные''': Шрифты в растровом представлении.
* '''Данные''': Шрифты в растровом представлении.
Строка 2610: Строка 2610:
=== Task 4 (1-2) ===
=== Task 4 (1-2) ===
-
* '''Название''': Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
+
* '''Name:''' Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
-
* '''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
+
* '''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
* '''Данные''':
* '''Данные''':
** Коллекция текстовых документов TREC (!)
** Коллекция текстовых документов TREC (!)
Строка 2620: Строка 2620:
** Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
** Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
* '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
* '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
-
* '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
+
* '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
* '''Авторы''': Кулунчаков Андрей, В. В. Стрижов
* '''Авторы''': Кулунчаков Андрей, В. В. Стрижов
=== Task 5 (1) ===
=== Task 5 (1) ===
-
* '''Название''': Определение параметров нейросети, подлежащих оптимизации.
+
* '''Name:''' Определение параметров нейросети, подлежащих оптимизации.
* '''Task''': Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
* '''Task''': Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
** а) Параметры модели, подлежащие оптимизации
** а) Параметры модели, подлежащие оптимизации
Строка 2634: Строка 2634:
** [https://arxiv.org/pdf/1704.04289.pdf] SGD как стохастический процесс.
** [https://arxiv.org/pdf/1704.04289.pdf] SGD как стохастический процесс.
** [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.704.7138&rep=rep1&type=pdf] Вариационный вывод в нейросетях.
** [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.704.7138&rep=rep1&type=pdf] Вариационный вывод в нейросетях.
-
* '''Новизна''': полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления и удаления слоев.
+
* '''Новизна''': полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления and удаления слоев.
* '''Авторы''': Бахтеев Олег, В. В. Стрижов
* '''Авторы''': Бахтеев Олег, В. В. Стрижов
=== Task 6 (1) ===
=== Task 6 (1) ===
-
* '''Название''': Предсказание графовой структуры нейросетевой модели.
+
* '''Name:''' Предсказание графовой структуры нейросетевой модели.
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
* '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
* '''Данные''': Выборки MNIST, CIFAR-10
* '''Данные''': Выборки MNIST, CIFAR-10
Строка 2648: Строка 2648:
=== Task 7 (1) ===
=== Task 7 (1) ===
-
* '''Название''': Style Change Detection.
+
* '''Name:''' Style Change Detection.
* '''Task''': Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
* '''Task''': Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
* '''Данные''': PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)
* '''Данные''': PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)
Строка 2664: Строка 2664:
=== Task 8 (1) ===
=== Task 8 (1) ===
-
* '''Название''': Получение оценок правдоподобия с использованием автокодировщиков
+
* '''Name:''' Получение оценок правдоподобия с использованием автокодировщиков
* '''Task''': предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
* '''Task''': предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
* '''Данные''': предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
* '''Данные''': предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
Строка 2673: Строка 2673:
* '''Базовый алгоритм''':
* '''Базовый алгоритм''':
* '''Решение''': в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
* '''Решение''': в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
-
* '''Новизна''': получение оценок правдоподобия данных и правдоподобия модели, порождение текстов с помощью полученных оценок.
+
* '''Новизна''': получение оценок правдоподобия данных and правдоподобия модели, порождение текстов с помощью полученных оценок.
* '''Авторы''': Рита Кузнецова (consultant).
* '''Авторы''': Рита Кузнецова (consultant).
=== Task 9 (1) ===
=== Task 9 (1) ===
-
* '''Название''': Предсказание свойств и типов атомов в молекулярных графах при помощи сверточных сетей.
+
* '''Name:''' Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей.
* '''Task''': Multilabel classification using convolutional neural networks (CNN) on graphs.
* '''Task''': Multilabel classification using convolutional neural networks (CNN) on graphs.
-
Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты и химические элементы атомов, длины связей и величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов и типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, и типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, и было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN.
+
Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты and химические элементы атомов, длины связей and величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов and типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, and типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, and было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN.
-
Необходимо предсказать типы вершин и рёбер молекулярных графов :
+
Необходимо предсказать типы вершин and рёбер молекулярных графов :
** тип атома (тип вершины графа, около 150 классов),
** тип атома (тип вершины графа, около 150 классов),
** гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
** гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
** тип связи (вспомогательный признак, тип ребра, 5 классов).
** тип связи (вспомогательный признак, тип ребра, 5 классов).
-
Тип атома (вершины графа) основан на информации о его гибридизации и свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.
+
Тип атома (вершины графа) основан на информации о его гибридизации and свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.
-
* '''Данные''': Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты и химический элемент. Дополнительно посчитаны длины связей, величины углов и двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл и является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.
+
* '''Данные''': Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты and химический элемент. Дополнительно посчитаны длины связей, величины углов and двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл and является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.
Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.
Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.
Строка 2694: Строка 2694:
** [https://arxiv.org/pdf/1603.00856.pdf]
** [https://arxiv.org/pdf/1603.00856.pdf]
** [https://arxiv.org/pdf/1204.4539.pdf]
** [https://arxiv.org/pdf/1204.4539.pdf]
-
* '''Базовой алгоритм''': Предсказание гибридизаций и порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
+
* '''Базовой алгоритм''': Предсказание гибридизаций and порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
-
* '''Решение''': Предлагаемое решение задачи и способы проведения исследования.
+
* '''Решение''': Предлагаемое решение задачи and способы проведения исследования.
-
Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
+
Способы представления and визуализации данных and проведения анализа ошибок, анализа качества алгоритма.
На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа.
На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа.
-
Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) и сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.
+
Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) and сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.
-
* '''Новизна''': Предложенные молекулярные графы обладают 3D структурой и внутренней иерархией, что делает их идеальным объектом применения CNN.
+
* '''Новизна''': Предложенные молекулярные графы обладают 3D структурой and внутренней иерархией, что делает их идеальным объектом применения CNN.
-
* '''Авторы''': Сергей Грудинин, Мария Кадукова, В. В. Стрижов.
+
* '''Авторы''': Sergei Grudinin, Maria Kadukova, В. В. Стрижов.
=== Task 10 (1) ===
=== Task 10 (1) ===
-
* '''Название''': Формулировка и решение задачи оптимизации, сочетающей классификацию и регрессию, для оценки энергии связывания белка и маленьких молекул. Описание задачи [https://www.overleaf.com/read/rjdnyyxpdkyj]
+
* '''Name:''' Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [https://www.overleaf.com/read/rjdnyyxpdkyj]
* '''Task''':
* '''Task''':
С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
* '''Данные''':
* '''Данные''':
** Данные для бинарной классификации.
** Данные для бинарной классификации.
-
Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза и 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования и публикации в профильном журнале набор дескрипторов может быть расширен.
+
Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен.
Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
** Данные для регрессии.
** Данные для регрессии.
Строка 2718: Строка 2718:
* '''Базовой алгоритм''': [https://hal.inria.fr/hal-01591154/]
* '''Базовой алгоритм''': [https://hal.inria.fr/hal-01591154/]
В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
-
* '''Решение''': Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии и решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.
+
* '''Решение''': Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.
-
Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
+
Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
-
* '''Новизна''': В первую очередь, интерес представляет ''объединение задач классификации и регрессии'''.
+
* '''Новизна''': В первую очередь, интерес представляет ''объединение задач классификации and регрессии'''.
-
Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
+
Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
-
* '''Авторы''' Сергей Грудинин, Мария Кадукова, В. В. Стрижов.
+
* '''Авторы''' Sergei Grudinin, Maria Kadukova, В. В. Стрижов.
=2017=
=2017=
Строка 2843: Строка 2843:
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Smerdov2017Paraphrase/doc/Smerdov2017ParaphrasePresentation.pdf slides]
[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Smerdov2017Paraphrase/doc/Smerdov2017ParaphrasePresentation.pdf slides]
[https://www.youtube.com/watch?v=dW_xv2IlhC4 video]
[https://www.youtube.com/watch?v=dW_xv2IlhC4 video]
-
|[[Участник:Oleg Bakhteev|Олег Бахтеев]]
+
|[[Участник:Oleg Bakhteev|Oleg Bakhteev]]
|[[Участник:Dmitriy_Anikeyev|Дмитрий Аникеев]]
|[[Участник:Dmitriy_Anikeyev|Дмитрий Аникеев]]
|BMF
|BMF
Строка 2935: Строка 2935:
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/code code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/code code]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/data data]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/data data]
-
|[[Участник:khritankov|Антон Хританков]]
+
|[[Участник:khritankov|Anton Khritankov]]
|
|
| - MF
| - MF
Строка 2987: Строка 2987:
|-
|-
|Дилигул Александр
|Дилигул Александр
-
|Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным и результатам квантово-механических расчетов
+
|Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным and результатам квантово-механических расчетов
|
|
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Diligul2017Problem4/Doc/Article.pdf paper]
[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Diligul2017Problem4/Doc/Article.pdf paper]
Строка 3010: Строка 3010:
=== Task 1 ===
=== Task 1 ===
-
* '''Название''': Классификация видов деятельности человека по измерениям фитнес-браслетов.
+
* '''Name:''' Классификация видов деятельности человека по измерениям фитнес-браслетов.
-
* '''Task''': По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
+
* '''Task''': По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
* '''Данные''': Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
* '''Данные''': Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
* '''References:''':
* '''References:''':
-
** Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
+
** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
-
** Исаченко Р.В., Стрижов В.В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
+
** Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
-
** Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
+
** Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
-
* '''Базовой алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
+
* '''Базовой алгоритм''': Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
-
* '''Решение''': Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
+
* '''Решение''': Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
* '''Новизна''':: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
* '''Новизна''':: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
* '''Авторы''': В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.
* '''Авторы''': В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.
=== Task 2 ===
=== Task 2 ===
-
* '''Название''': Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
+
* '''Name:''' Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
-
* '''Task''': В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
+
* '''Task''': В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки and является избыточным. Требуется предложить метод снижения размерности признакового пространства.
* '''Данные''': Измерения положений пальцев при совершении простых жестов. [https://purl.stanford.edu/zk881ps0522 Описание экспериментов] [https://stacks.stanford.edu/file/druid:zk881ps0522/gestures.zip данные].
* '''Данные''': Измерения положений пальцев при совершении простых жестов. [https://purl.stanford.edu/zk881ps0522 Описание экспериментов] [https://stacks.stanford.edu/file/druid:zk881ps0522/gestures.zip данные].
* '''References:''':
* '''References:''':
-
** Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/doc/Makarchuk2016ECoGSignals.pdf pdf]
+
** Макарчук Г.И., Задаянчук А.И. Strizhov V.V. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/doc/Makarchuk2016ECoGSignals.pdf pdf]
-
** Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
+
** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
* '''Базовой алгоритм''': PLS
* '''Базовой алгоритм''': PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
Строка 3040: Строка 3040:
=== Task 3 ===
=== Task 3 ===
-
* '''Название''': Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
+
* '''Name:''' Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
* '''Task''': Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
* '''Task''': Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
* '''Данные''': Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
* '''Данные''': Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
Строка 3047: Строка 3047:
Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
* '''Базовой алгоритм''': AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
* '''Базовой алгоритм''': AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
-
* '''Решение''': Вычисление гессианов (C++ код у Сергея), изучение и запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
+
* '''Решение''': Вычисление гессианов (C++ код у Сергея), изучение and запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
* '''Новизна''': При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
* '''Новизна''': При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
* '''Авторы''': Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.
* '''Авторы''': Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.
=== Task 4 ===
=== Task 4 ===
-
* '''Название''': Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
+
* '''Name:''' Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
* '''Task''': Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
* '''Task''': Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
-
* '''Данные''': Структуры белков в PDB формате в различных состояниях и системах координат.
+
* '''Данные''': Структуры белков в PDB формате в различных состояниях and системах координат.
* '''References:''':
* '''References:''':
** Multiple structural alignment:
** Multiple structural alignment:
Строка 3075: Строка 3075:
Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569>
Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569>
DOI : 10.1002/jcc.23569
DOI : 10.1002/jcc.23569
-
* '''Решение''': Два варианта постановки оптимизационных задач (через матрицы поворота и через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом и релаксациями (spectral relaxation, SDP).
+
* '''Решение''': Два варианта постановки оптимизационных задач (через матрицы поворота and через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом and релаксациями (spectral relaxation, SDP).
* '''Новизна''': Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
* '''Новизна''': Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
* '''Авторы''': Грудинин Сергей, consultant: Карасиков Михаил.
* '''Авторы''': Грудинин Сергей, consultant: Карасиков Михаил.
=== Task 5 ===
=== Task 5 ===
-
* '''Название''': Локальная аппроксимация временных рядов для построения прогностических метамоделей.
+
* '''Name:''' Локальная аппроксимация временных рядов для построения прогностических метамоделей.
* '''Task''': Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
* '''Task''': Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
-
* '''Данные''': Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
+
* '''Данные''': Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями and соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
* '''References:''':
* '''References:''':
-
** Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
+
** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
-
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
+
** Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
* '''Базовой алгоритм''': [Карасиков 2016]
* '''Базовой алгоритм''': [Карасиков 2016]
* '''Решение''': См. [[Media:Local_appr.pdf|описание задачи]].
* '''Решение''': См. [[Media:Local_appr.pdf|описание задачи]].
Строка 3092: Строка 3092:
=== Task 6 ===
=== Task 6 ===
-
* '''Название''': Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
+
* '''Name:''' Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
-
* '''Task''': Задана выборка пар предложений с метками <<похожие>> и <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
+
* '''Task''': Задана выборка пар предложений с метками <<похожие>> and <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
-
* '''Данные''': Предлагается рассмотреть две выборки: [https://www.microsoft.com/en-us/download/details.aspx?id=52398 Microsoft Paraphrase Corpus] (небольшой набор предложений) и [http://sitem.herts.ac.uk/aeru/ppdb/en/ PPDB] (набор коротких сегментов, не всегда корректная разметка)
+
* '''Данные''': Предлагается рассмотреть две выборки: [https://www.microsoft.com/en-us/download/details.aspx?id=52398 Microsoft Paraphrase Corpus] (небольшой набор предложений) and [http://sitem.herts.ac.uk/aeru/ppdb/en/ PPDB] (набор коротких сегментов, не всегда корректная разметка)
* '''References:''':
* '''References:''':
** [http://deeplearning.net/tutorial/lstm.html [1]] Пошаговое описание реализации рекуррентной сети LSTM
** [http://deeplearning.net/tutorial/lstm.html [1]] Пошаговое описание реализации рекуррентной сети LSTM
Строка 3105: Строка 3105:
* '''Решение''': Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
* '''Решение''': Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
* '''Новизна''': Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
* '''Новизна''': Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
-
* '''Авторы''': Олег Бахтеев, consultant
+
* '''Авторы''': Oleg Bakhteev, consultant
=== Task 7 ===
=== Task 7 ===
-
* '''Название''': Детектирование внутреннего плагиата
+
* '''Name:''' Детектирование внутреннего плагиата
-
* '''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
+
* '''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
* '''Данные''': Предлагается рассмотреть корпус PAN-2011, PAN-2016
* '''Данные''': Предлагается рассмотреть корпус PAN-2011, PAN-2016
* '''References:''':
* '''References:''':
Строка 3117: Строка 3117:
** [https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf [4]] Methods for intrinsic plagiarism detection and author diarization
** [https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf [4]] Methods for intrinsic plagiarism detection and author diarization
* '''Базовый алгоритм''': В качестве базового алгоритма может выступать решение, описанное в [4].
* '''Базовый алгоритм''': В качестве базового алгоритма может выступать решение, описанное в [4].
-
* '''Решение''': Предлагается рассмотреть метод, описанный в [2] и строить стилевую функцию, основываясь на выходах нейронной сети.
+
* '''Решение''': Предлагается рассмотреть метод, описанный в [2] and строить стилевую функцию, основываясь на выходах нейронной сети.
* '''Новизна''': Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
* '''Новизна''': Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
* '''Авторы''': Рита Кузнецова, consultant
* '''Авторы''': Рита Кузнецова, consultant
=== Task 8 ===
=== Task 8 ===
-
* '''Название''': Адаптивные релаксации NP трудных задач через машинное обучение
+
* '''Name:''' Адаптивные релаксации NP трудных задач через машинное обучение
-
* '''Task''': Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач и в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. И последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
+
* '''Task''': Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач and в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. and последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
-
Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов и более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве и в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов.
+
Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов and более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве and в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов.
Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
* '''References:''': Методы семплинга/машинного обучения:
* '''References:''': Методы семплинга/машинного обучения:
Строка 3131: Строка 3131:
*# Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
*# Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
-
* '''Данные''': данные ieee + matpower содержащие описания энергетических сетей и режимов их функционирования.
+
* '''Данные''': данные ieee + matpower содержащие описания энергетических сетей and режимов их функционирования.
* '''Новизна''': указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
* '''Новизна''': указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
* '''Автор''': consultant: Yuri Maksimov, Expert: Михаил Чертков
* '''Автор''': consultant: Yuri Maksimov, Expert: Михаил Чертков
=== Task 9 ===
=== Task 9 ===
-
* '''Название''': Оптимальный алгоритм для восстановления динамических моделей.
+
* '''Name:''' Оптимальный алгоритм для восстановления динамических моделей.
-
* '''Task''': Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы и получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение и являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа и параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения и имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
+
* '''Task''': Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы and получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение and являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа and параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения and имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
* '''Данные''': Симулированные динамические конфигурации спинов в кинетической модели Изинга.
* '''Данные''': Симулированные динамические конфигурации спинов в кинетической модели Изинга.
* '''References:''':
* '''References:''':
Строка 3150: Строка 3150:
=== Task 10 ===
=== Task 10 ===
-
* '''Название''': Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
+
* '''Name:''' Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
-
* '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
+
* '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
-
* '''Данные''': Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
+
* '''Данные''': Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
* '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
* '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
-
* '''Базовой алгоритм''': Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
+
* '''Базовой алгоритм''': Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
-
* '''Решение''': Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) и определения оптимального числа моделей.
+
* '''Решение''': Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
* '''Новизна''': Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
* '''Новизна''': Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
* '''Авторы''': А.А. Адуенко, В.В. Стрижов.
* '''Авторы''': А.А. Адуенко, В.В. Стрижов.
=== Task 11 ===
=== Task 11 ===
-
* '''Название''': Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
+
* '''Name:''' Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
-
* '''Task''': Решается Task прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
+
* '''Task''': Решается Task прогнозирования биомедицинских сигналов and сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так and независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
* '''Данные''': Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
* '''Данные''': Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
* '''References:''': Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
* '''References:''': Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
* '''Базовой алгоритм''': PLS, алгоритм квадратичной оптимизации для выбора признаков.
* '''Базовой алгоритм''': PLS, алгоритм квадратичной оптимизации для выбора признаков.
-
* '''Решение''': построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
+
* '''Решение''': построить матрицу плана с субоптимальным набором объектов and признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
* '''Новизна''': Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
* '''Новизна''': Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
* '''Авторы''': А.М. Катруца, В.В. Стрижов.
* '''Авторы''': А.М. Катруца, В.В. Стрижов.
=== Task 12 ===
=== Task 12 ===
-
* '''Название''': Massively multitask deep learning for drug discovery
+
* '''Name:''' Massively multitask deep learning for drug discovery
* '''Task''': Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
* '''Task''': Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
* '''Данные''': разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
* '''Данные''': разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
* '''References:''': https://arxiv.org/pdf/1502.02072
* '''References:''': https://arxiv.org/pdf/1502.02072
* '''Базовой алгоритм''': мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
* '''Базовой алгоритм''': мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
-
* '''Решение''': Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу и предсказывает её биологическую активность против всех протеинов в выборке.
+
* '''Решение''': Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу and предсказывает её биологическую активность против всех протеинов в выборке.
* '''Новизна''': Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
* '''Новизна''': Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
* '''Авторы''': Expert -- Александр Исаев, consultant -- Мария Попова
* '''Авторы''': Expert -- Александр Исаев, consultant -- Мария Попова
=== Task 13 ===
=== Task 13 ===
-
* '''Название''': Unsupervised representation for molecules
+
* '''Name:''' Unsupervised representation for molecules
* '''Task''': Разработать unsupervised метод для репрезентации молекул
* '''Task''': Разработать unsupervised метод для репрезентации молекул
* '''Данные''': ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
* '''Данные''': ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
Строка 3190: Строка 3190:
=== Task 14 ===
=== Task 14 ===
-
* '''Название''': Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
+
* '''Name:''' Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
-
* '''Task''': Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически и хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана и Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости и когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
+
* '''Task''': Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически and хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана and Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости and когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
* '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
* '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
* '''References:''':
* '''References:''':
Строка 3199: Строка 3199:
*#''D.Mimno et al.'' Optimizing semantic coherence in topic models, 2011
*#''D.Mimno et al.'' Optimizing semantic coherence in topic models, 2011
*#http://palmetto.aksw.org/palmetto-webapp/
*#http://palmetto.aksw.org/palmetto-webapp/
-
* '''Базовой алгоритм''': Стандартные методы оценивания интерпретируемости и когерентности тем в тематических моделях.
+
* '''Базовой алгоритм''': Стандартные методы оценивания интерпретируемости and когерентности тем в тематических моделях.
-
* '''Решение''': Новый метод измерения интерпретируемости и когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости и когерентности, аналогичные [D.Newman, 2010].
+
* '''Решение''': Новый метод измерения интерпретируемости and когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости and когерентности, аналогичные [D.Newman, 2010].
-
* '''Новизна''': внутритекстовые меры интерпретируемости и когерентности ранее не предлагались.
+
* '''Новизна''': внутритекстовые меры интерпретируемости and когерентности ранее не предлагались.
* '''Авторы''': К.В.Воронцов. consultants: Виктор Булатов, Анна Потапенко, Артём Попов.
* '''Авторы''': К.В.Воронцов. consultants: Виктор Булатов, Анна Потапенко, Артём Попов.
=== Task 15 ===
=== Task 15 ===
-
* '''Название''': Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
+
* '''Name:''' Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
-
* '''Task''': Реализовать и сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
+
* '''Task''': Реализовать and сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
* '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
* '''Данные''': Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
* '''References:''':
* '''References:''':
*#''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]], 2017.
*#''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]], 2017.
-
*#''Чиркова Н. А, Воронцов К. В.'' [http://jmlda.org/papers/doc/2016/no2/Chirkova2016hARTM.pdf Аддитивная регуляризация мультимодальных иерархических тематических моделей] // Машинное обучение и анализ данных, 2016. T. 2. № 2.
+
*#''Чиркова Н. А, Воронцов К. В.'' [http://jmlda.org/papers/doc/2016/no2/Chirkova2016hARTM.pdf Аддитивная регуляризация мультимодальных иерархических тематических моделей] // Машинное обучение and анализ данных, 2016. T. 2. № 2.
* '''Базовой алгоритм''': Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
* '''Базовой алгоритм''': Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
-
* '''Решение''': Построить тематическую модель с модальностями источников и выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
+
* '''Решение''': Построить тематическую модель с модальностями источников and выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
* '''Новизна''': Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
* '''Новизна''': Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
* '''Авторы''': К.В.Воронцов. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
* '''Авторы''': К.В.Воронцов. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
=== Task 16 ===
=== Task 16 ===
-
* '''Название''': Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
+
* '''Name:''' Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
-
* '''Task''': Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность и поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC и MAP ранжирования диагнозов.
+
* '''Task''': Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность and поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC and MAP ранжирования диагнозов.
* '''Данные''': Выборка электрокардиограмм с известными диагнозами.
* '''Данные''': Выборка электрокардиограмм с известными диагнозами.
* '''References:''':
* '''References:''':
-
*#''Успенский В.М.'' Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с
+
*#''Успенский В.М.'' Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика and информация», 2008. - 116с
*#[[Технология информационного анализа электрокардиосигналов]].
*#[[Технология информационного анализа электрокардиосигналов]].
* '''Базовой алгоритм''': Методы классификации .
* '''Базовой алгоритм''': Методы классификации .
-
* '''Решение''': Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC и MAP (ранжирования диагнозов).
+
* '''Решение''': Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC and MAP (ранжирования диагнозов).
* '''Новизна''': До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
* '''Новизна''': До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
* '''Авторы''': К.В.Воронцов. consultants: Влада Целых.
* '''Авторы''': К.В.Воронцов. consultants: Влада Целых.
Строка 3241: Строка 3241:
=== Task Antiplagiarism + ===
=== Task Antiplagiarism + ===
-
* '''Название''': Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
+
* '''Name:''' Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
* '''Task''': Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
* '''Task''': Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
* '''Данные''': [http://pan.webis.de/clef11/pan11-web/plagiarism-detection.html PAN]
* '''Данные''': [http://pan.webis.de/clef11/pan11-web/plagiarism-detection.html PAN]
Строка 3247: Строка 3247:
*#''Романов А.В., Хританков А.С.'' Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке [http://www.machinelearning.ru/wiki/images/c/c4/6.Romanov.pdf pdf]
*#''Романов А.В., Хританков А.С.'' Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке [http://www.machinelearning.ru/wiki/images/c/c4/6.Romanov.pdf pdf]
* '''Базовый алгоритм''': метод шинглов с построением обратного индекса.
* '''Базовый алгоритм''': метод шинглов с построением обратного индекса.
-
* '''Решение''': Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) и последующий поиск ближайших объектов в многомерном метрическом пространстве.
+
* '''Решение''': Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) and последующий поиск ближайших объектов в многомерном метрическом пространстве.
* '''Новизна''': новый подход к решению задачи.
* '''Новизна''': новый подход к решению задачи.
* '''Авторы''': Алексей Романов (consultant)
* '''Авторы''': Алексей Романов (consultant)
Строка 3254: Строка 3254:
=== Task Vorontsov + ===
=== Task Vorontsov + ===
-
* '''Название''': Тематическое моделирование отрасли экономики по транзакционным данным банка.
+
* '''Name:''' Тематическое моделирование отрасли экономики по транзакционным данным банка.
-
* '''Task''': Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений и найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
+
* '''Task''': Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений and найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
* '''Данные''': выборка транзакций между фирмами, вида «покупатель, продавец, объём».
* '''Данные''': выборка транзакций между фирмами, вида «покупатель, продавец, объём».
* '''References:''':
* '''References:''':
Строка 3265: Строка 3265:
=== Task scoring + ===
=== Task scoring + ===
-
* '''Название''': Порождение и выбор признаков при построении модели кредитного скоринга.
+
* '''Name:''' Порождение and выбор признаков при построении модели кредитного скоринга.
* '''Task''': Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
* '''Task''': Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
* '''Данные''': Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
* '''Данные''': Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
Строка 3271: Строка 3271:
* '''Базовой алгоритм''': Алгоритм построения скоринговой модели, рекомендуемый SAS.
* '''Базовой алгоритм''': Алгоритм построения скоринговой модели, рекомендуемый SAS.
* '''Решение''': Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
* '''Решение''': Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
-
* '''Новизна''': Предложена функция ошибки, при использовании который порождение и выбор признаков, а также оптимизация параметров модели выполняются совместно.
+
* '''Новизна''': Предложена функция ошибки, при использовании который порождение and выбор признаков, а также оптимизация параметров модели выполняются совместно.
* '''Авторы''': Т.В. Вознесенская, В.В. Стрижов.
* '''Авторы''': Т.В. Вознесенская, В.В. Стрижов.
=== Task Popova + ===
=== Task Popova + ===
-
* '''Название''': Representation of molecules in 3D
+
* '''Name:''' Representation of molecules in 3D
-
* '''Task''': Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной и трансляционной инвариантности.
+
* '''Task''': Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной and трансляционной инвариантности.
* '''Данные''': Миллионы молекул, заданные 3D координатами
* '''Данные''': Миллионы молекул, заданные 3D координатами
* '''References:''': https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
* '''References:''': https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
* '''Базовой алгоритм''': low rank matrix/tensor factorization
* '''Базовой алгоритм''': low rank matrix/tensor factorization
-
* '''Решение''': Молекулы имеют различное число атомов, и поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
+
* '''Решение''': Молекулы имеют различное число атомов, and поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
* '''Новизна''': существующие алгоритмы зависят от числа атомов в молекуле
* '''Новизна''': существующие алгоритмы зависят от числа атомов в молекуле
* '''Авторы''': Expert -- Александр Исаев, consultant -- Мария Попова
* '''Авторы''': Expert -- Александр Исаев, consultant -- Мария Попова
=== Task Maksimov + ===
=== Task Maksimov + ===
-
* '''Название''': Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY и Гейзенберга).
+
* '''Name:''' Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY and Гейзенберга).
-
* '''Task''': Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- и трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
+
* '''Task''': Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- and трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
* '''Данные''': Симулированные конфигурации блочных спиновых моделей.
* '''Данные''': Симулированные конфигурации блочных спиновых моделей.
* '''References:''':
* '''References:''':
Строка 3297: Строка 3297:
=== Task Khritankova (Transfer Learning) ===
=== Task Khritankova (Transfer Learning) ===
-
* '''Название''': Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
+
* '''Name:''' Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
* '''Task''':
* '''Task''':
-
*# Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, и который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
+
*# Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, and который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
*# Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
*# Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
* '''Данные''': teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
* '''Данные''': teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
Строка 3305: Строка 3305:
Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
* '''Базовой алгоритм''': SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
* '''Базовой алгоритм''': SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
-
* '''Решение''': Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда и применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) и предложить доработку для повышения устойчивости (robustness).
+
* '''Решение''': Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда and применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) and предложить доработку для повышения устойчивости (robustness).
* '''Новизна''': Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
* '''Новизна''': Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
* '''Авторы''': Хританков
* '''Авторы''': Хританков
Строка 3311: Строка 3311:
=== Task INRIA-МТФИ + ===
=== Task INRIA-МТФИ + ===
-
* '''Название''': Оценка энергии связывания белка и маленьких молекул.
+
* '''Name:''' Оценка энергии связывания белка and маленьких молекул.
-
* '''Task''': Моделирование связывания белка и маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка и лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, и несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
+
* '''Task''': Моделирование связывания белка and маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка and лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, and несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
-
* '''Данные''': Около 10000 комплексов: для каждого из них есть 1 нативная поза и 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением и использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
+
* '''Данные''': Около 10000 комплексов: для каждого из них есть 1 нативная поза and 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением and использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
* '''References:''': PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
* '''References:''': PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
* '''Базовой алгоритм''': Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
* '''Базовой алгоритм''': Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
-
* '''Решение''': Необходимо свести использованную ранее задачу SVM к задаче регрессии и решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так и несколько других тестовых сетов с аналогичными Taskми, но другими данными.
+
* '''Решение''': Необходимо свести использованную ранее задачу SVM к задаче регрессии and решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так and несколько других тестовых сетов с аналогичными Taskми, но другими данными.
-
* '''Новизна''': Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.
+
* '''Новизна''': Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.
-
Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения и оптимизации интерес представляет объединение задач классификации и регрессии.
+
Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения and оптимизации интерес представляет объединение задач классификации and регрессии.
-
* '''Добавление''' Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) и несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но и вычислительная сложность предсказания.
+
* '''Добавление''' Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) and несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но and вычислительная сложность предсказания.
-
* '''Авторы''': Сергей Грудинин, Мария Кадукова
+
* '''Авторы''': Sergei Grudinin, Maria Kadukova
=== Task Strizhov and Kulunchakov + ===
=== Task Strizhov and Kulunchakov + ===
-
* '''Название''': Creation of delay-operators for multiscale forecasting by means of symbolic regression
+
* '''Name:''' Creation of delay-operators for multiscale forecasting by means of symbolic regression
* '''Task''': Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
* '''Task''': Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
* '''Данные''': Any data from the domain of multiscalse forecating of time series. See the [[Media:Kulunchakov2016MultiscaleForecast.pdf|full version]] of this introduction.
* '''Данные''': Any data from the domain of multiscalse forecating of time series. See the [[Media:Kulunchakov2016MultiscaleForecast.pdf|full version]] of this introduction.
Строка 3372: Строка 3372:
|-
|-
|Белозерова Анастасия
|Белозерова Анастасия
-
|Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов
+
|Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов
|[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/code code]
|[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/code code]
[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/doc/Belozerova2016LogicLinearClassificator.pdf paper]
[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/doc/Belozerova2016LogicLinearClassificator.pdf paper]
Строка 3558: Строка 3558:
=== Task 1 ===
=== Task 1 ===
* '''Данные''': Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
* '''Данные''': Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
-
* '''References:''': существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют и boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
+
* '''References:''': существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют and boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
* '''Базовой алгоритм''': Описан в постановке задачи
* '''Базовой алгоритм''': Описан в постановке задачи
-
* '''Решение''': модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами и сделать выводы, в частности о связи наличия улучшения в качестве и разнообразия множеств опорных объектов, построенных разными SVM ами.
+
* '''Решение''': модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами and сделать выводы, в частности о связи наличия улучшения в качестве and разнообразия множеств опорных объектов, построенных разными SVM ами.
* '''Новизна''': известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
* '''Новизна''': известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
* '''consultant''': Александр Адуенко
* '''consultant''': Александр Адуенко
=== Task 2 ===
=== Task 2 ===
-
* '''Название''': Темпоральная тематическая модель коллекции пресс-релизов.
+
* '''Name:''' Темпоральная тематическая модель коллекции пресс-релизов.
-
* '''Task''': Разработка методов анализа тематической структуры большой текстовой коллекции и её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости и полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности и событийности.
+
* '''Task''': Разработка методов анализа тематической структуры большой текстовой коллекции and её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости and полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности and событийности.
* '''Данные''': Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
* '''Данные''': Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
* '''References:''':
* '''References:''':
*# Дойков Н.В. [[Media:2015_417_DoykovNV.pdf|Адаптивная регуляризация вероятностных тематических моделей]]. ВКР бакалавра, ВМК МГУ. 2015.
*# Дойков Н.В. [[Media:2015_417_DoykovNV.pdf|Адаптивная регуляризация вероятностных тематических моделей]]. ВКР бакалавра, ВМК МГУ. 2015.
* '''Базовой алгоритм''': Классический LDA Д.Блэя c post-hoc анализом времени.
* '''Базовой алгоритм''': Классический LDA Д.Блэя c post-hoc анализом времени.
-
* '''Решение''': Реализация аддитивно регуляризованной тематической модели с помощью библиотеки [[BigARTM]]. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости и полноты.
+
* '''Решение''': Реализация аддитивно регуляризованной тематической модели с помощью библиотеки [[BigARTM]]. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости and полноты.
-
* '''Новизна''': Критерии устойчивости и полноты тематических моделей являются новыми.
+
* '''Новизна''': Критерии устойчивости and полноты тематических моделей являются новыми.
* '''consultant''': Никита Дойков, '''автор задачи''' К.В.Воронцов.
* '''consultant''': Никита Дойков, '''автор задачи''' К.В.Воронцов.
=== Task 3 ===
=== Task 3 ===
-
* '''Название''': Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов.
+
* '''Name:''' Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов.
-
* '''Task''': Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания и построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе и удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически и по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
+
* '''Task''': Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания and построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе and удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически and по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
* '''Данные''': Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
* '''Данные''': Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
* '''References:''': выдадим :)
* '''References:''': выдадим :)
Строка 3586: Строка 3586:
=== Task 4 ===
=== Task 4 ===
-
* '''Название''': Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
+
* '''Name:''' Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
-
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов и определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под [[BigARTM]], расширить вычислительные эксперименты, улучшить качество классификации.
+
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов and определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под [[BigARTM]], расширить вычислительные эксперименты, улучшить качество классификации.
* '''Данные''': Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
* '''Данные''': Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
* '''References:''': выдадим :)
* '''References:''': выдадим :)
Строка 3596: Строка 3596:
=== Task 5 ===
=== Task 5 ===
-
* '''Название''': Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
+
* '''Name:''' Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
-
* '''Task''': Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, и т.д.). Тематические модели дают интерпретируемые векторные представления слов и документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства и свободной от недостатков обеих моделей.
+
* '''Task''': Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, and т.д.). Тематические модели дают интерпретируемые векторные представления слов and документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства and свободной от недостатков обеих моделей.
-
* '''Данные''': Коллекции социальных сетей ЖЖ и ВК.
+
* '''Данные''': Коллекции социальных сетей ЖЖ and ВК.
* '''References:''': выдадим :)
* '''References:''': выдадим :)
* '''Базовой алгоритм''': Тематические модели, ранее построенные на этих данных.
* '''Базовой алгоритм''': Тематические модели, ранее построенные на этих данных.
* '''Решение''': Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке [[BigARTM]].
* '''Решение''': Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке [[BigARTM]].
-
* '''Новизна''': Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей и модели word2vec.
+
* '''Новизна''': Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей and модели word2vec.
* '''consultant''': Анна Потапенко, по техническим вопросам Мурат Апишев, '''автор задачи''' К.В.Воронцов.
* '''consultant''': Анна Потапенко, по техническим вопросам Мурат Апишев, '''автор задачи''' К.В.Воронцов.
=== Task 7 ===
=== Task 7 ===
-
* '''Название''': определение положения белков по электронной карте
+
* '''Name:''' определение положения белков по электронной карте
-
* '''Task''': неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы и вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей и вектором.
+
* '''Task''': неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы and вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей and вектором.
* '''Данные''': экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
* '''Данные''': экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
-
* '''References:''': статьи по методам решения задач квадратичного программирования и различным релаксациям
+
* '''References:''': статьи по методам решения задач квадратичного программирования and различным релаксациям
* '''Базовой алгоритм''': методы квадратичного программирования с различными релаксациями
* '''Базовой алгоритм''': методы квадратичного программирования с различными релаксациями
* '''Решение''': минимизация суммарной энергии белкового комплекса
* '''Решение''': минимизация суммарной энергии белкового комплекса
-
* '''Новизна''': применение методов квадратичного программирования и исследование их точности в Taskх восстановления электронных карт
+
* '''Новизна''': применение методов квадратичного программирования and исследование их точности в Taskх восстановления электронных карт
-
* '''consultant''': Александр Катруца, автор задачи: Сергей Грудинин.
+
* '''consultant''': Александр Катруца, автор задачи: Sergei Grudinin.
-
* '''Желательные навыки''': понимание и интерес к методам оптимизации, работа с пакетом CVX
+
* '''Желательные навыки''': понимание and интерес к методам оптимизации, работа с пакетом CVX
=== Task 8 ===
=== Task 8 ===
-
* '''Название''': Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
+
* '''Name:''' Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
-
* '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
+
* '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
* '''References:''':
* '''References:''':
-
**Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
+
**Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
-
**Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
+
**Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
-
**Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в Taskх классификации
+
**Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
**LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
**LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
-
**Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
+
**Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
-
* '''Базовой алгоритм''': Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
+
* '''Базовой алгоритм''': Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
* '''Решение''': Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
* '''Решение''': Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
-
* '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
+
* '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
-
* '''consultant''': Олег Бахтеев
+
* '''consultant''': Oleg Bakhteev
=== Task 9 ===
=== Task 9 ===
-
* '''Название''': восстановление первичной структуры белка по геометрии его главной цепи
+
* '''Name:''' восстановление первичной структуры белка по геометрии его главной цепи
* '''Task''': на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
* '''Task''': на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
* '''Данные''': на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
* '''Данные''': на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
-
* '''References:''': статьи по методам решения задач квадратичного программирования и различным релаксациям
+
* '''References:''': статьи по методам решения задач квадратичного программирования and различным релаксациям
* '''Базовой алгоритм''': методы квадратичного программирования с различными релаксациями
* '''Базовой алгоритм''': методы квадратичного программирования с различными релаксациями
* '''Решение''': минимизация суммарной энергии белка
* '''Решение''': минимизация суммарной энергии белка
-
* '''Новизна''': применение методов квадратичного программирования и исследование их точности
+
* '''Новизна''': применение методов квадратичного программирования and исследование их точности
-
* '''consultant''': Михаил Карасиков, автор задачи: Сергей Грудинин.
+
* '''consultant''': Михаил Карасиков, автор задачи: Sergei Grudinin.
-
* '''Желательные навыки''': понимание и интерес к методам оптимизации, работа с пакетом CVX
+
* '''Желательные навыки''': понимание and интерес к методам оптимизации, работа с пакетом CVX
=== Task 10 ===
=== Task 10 ===
-
* '''Название''': Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
+
* '''Name:''' Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
-
* '''Task''': В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов и протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
+
* '''Task''': В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
-
* '''Данные''': описание 8500+ протеинов и метки для 12 рецепторов
+
* '''Данные''': описание 8500+ протеинов and метки для 12 рецепторов
* '''References:''': будет отправлена studentу
* '''References:''': будет отправлена studentу
* '''Базовой алгоритм''': multi-task lasso регрессия из библиотеки python scikit-learn
* '''Базовой алгоритм''': multi-task lasso регрессия из библиотеки python scikit-learn
Строка 3651: Строка 3651:
* '''Новизна''': Multi-task learning подход является новаторским в области drug design
* '''Новизна''': Multi-task learning подход является новаторским в области drug design
* '''consultant''': Мария Попова
* '''consultant''': Мария Попова
-
* '''Желательные навыки''': понимание и интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python
+
* '''Желательные навыки''': понимание and интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python
=== Task 11 ===
=== Task 11 ===
-
* '''Название''': Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
+
* '''Name:''' Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
-
* '''Task''': В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой и предсказывать взаимодействие двух типов молекул: рецепторов и протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
+
* '''Task''': В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой and предсказывать взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
-
* '''Данные''': описание 8500+ протеинов и метки для 12 рецепторов
+
* '''Данные''': описание 8500+ протеинов and метки для 12 рецепторов
* '''References:''': будет отправлена studentу
* '''References:''': будет отправлена studentу
* '''Базовой алгоритм''': двухслойная нейронная сеть
* '''Базовой алгоритм''': двухслойная нейронная сеть
Строка 3664: Строка 3664:
===Task 12 ===
===Task 12 ===
-
* '''Название''': Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
+
* '''Name:''' Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
-
* '''Task''': Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры и избежать поломки или минимизировать потери.
+
* '''Task''': Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры and избежать поломки или минимизировать потери.
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
* '''References:''': Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
* '''References:''': Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
**Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [http://quantile.ru/01/01-AT.pdf]
**Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [http://quantile.ru/01/01-AT.pdf]
-
**Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
+
**Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
**Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
**Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
* '''Базовый алгоритм''': Бустинг, алгоритм Adaboost.
* '''Базовый алгоритм''': Бустинг, алгоритм Adaboost.
Строка 3677: Строка 3677:
===Task 13 ===
===Task 13 ===
-
* '''Название''': Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
+
* '''Name:''' Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
* '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
* '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
* '''References:''': Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
* '''References:''': Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
-
**Нейчев Р.Г., Катруца А.М., Стрижов В.В. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
+
**Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
* '''Базовый алгоритм''': метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
* '''Базовый алгоритм''': метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
* '''Решение''': Применить метод Белсли для обнаружения коррелирующих признаков.
* '''Решение''': Применить метод Белсли для обнаружения коррелирующих признаков.
Строка 3688: Строка 3688:
===Task 14 ===
===Task 14 ===
-
* '''Название''': Порождение признаков в задаче прогнозирования.
+
* '''Name:''' Порождение признаков в задаче прогнозирования.
* '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
* '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
* '''Данные''': Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
Строка 3694: Строка 3694:
**М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[http://strijov.com/papers/Kuznetsov2012Curvilinear.pdf]
**М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[http://strijov.com/papers/Kuznetsov2012Curvilinear.pdf]
* '''Базовый алгоритм''': Непараметрические порождающие функициии.
* '''Базовый алгоритм''': Непараметрические порождающие функициии.
-
* '''Решение''': Применить к признакам квазилинейные и нелинейные преобразования зависящие от параметра.
+
* '''Решение''': Применить к признакам квазилинейные and нелинейные преобразования зависящие от параметра.
* '''Новизна''': Предложен новый набор признаков для решения авторегрессионных задач.
* '''Новизна''': Предложен новый набор признаков для решения авторегрессионных задач.
-
* '''consultant''': Роман Исаченко
+
* '''consultant''': Roman Isachenko
===Task 15 ===
===Task 15 ===
-
* '''Название''': Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
+
* '''Name:''' Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
* '''Task''': Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
* '''Task''': Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
-
* '''Данные''': Многомерные временные ряды с показаниями ECOG и данные о движении обезьян [http://neurotycho.org/food-tracking-task]
+
* '''Данные''': Многомерные временные ряды с показаниями ECOG and данные о движении обезьян [http://neurotycho.org/food-tracking-task]
* '''References:''': Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
* '''References:''': Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
**Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[http://journal.frontiersin.org/article/10.3389/fneng.2010.00003/full]
**Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[http://journal.frontiersin.org/article/10.3389/fneng.2010.00003/full]
Строка 3710: Строка 3710:
===Task 16 ===
===Task 16 ===
-
* '''Название''': Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
+
* '''Name:''' Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
-
* '''Task''': Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию и параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [https://www.dropbox.com/s/6xkk3xuzaa4y472/AdaptiveNonlinearMC.pdf?dl=0]
+
* '''Task''': Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию and параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [https://www.dropbox.com/s/6xkk3xuzaa4y472/AdaptiveNonlinearMC.pdf?dl=0]
* '''Данные''': модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
* '''Данные''': модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
* '''References:''':
* '''References:''':
Строка 3718: Строка 3718:
**"Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
**"Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
* '''Базовый алгоритм''': Низкоранговое приближение
* '''Базовый алгоритм''': Низкоранговое приближение
-
* '''Решение''': И параметры, и параметризацию искать из данных.
+
* '''Решение''': and параметры, and параметризацию искать из данных.
* '''Новизна''': Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
* '''Новизна''': Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
* '''consultant''': Михаил Трофимов
* '''consultant''': Михаил Трофимов
Строка 3724: Строка 3724:
===Task 17 ===
===Task 17 ===
-
* '''Название''': Построение скоринговых моделей в системе SAS (либо MATLAB).
+
* '''Name:''' Построение скоринговых моделей в системе SAS (либо MATLAB).
* '''Task''': Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
* '''Task''': Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
* '''Данные''': Кредитная история/анкеты потенциальных заемщиков [http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/], [http://archive.ics.uci.edu/ml/datasets/Statlog+%28Australian+Credit+Approval%29/].
* '''Данные''': Кредитная история/анкеты потенциальных заемщиков [http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/], [http://archive.ics.uci.edu/ml/datasets/Statlog+%28Australian+Credit+Approval%29/].
Строка 3733: Строка 3733:
* '''Базовый алгоритм''': Логистическая регрессия
* '''Базовый алгоритм''': Логистическая регрессия
* '''Решение''': Смесь моделей
* '''Решение''': Смесь моделей
-
* '''Новизна''': Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так и мультимоделирование.
+
* '''Новизна''': Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так and мультимоделирование.
* '''consultant''': Раиса Джамтырова
* '''consultant''': Раиса Джамтырова
* '''Желательные навыки''': SAS
* '''Желательные навыки''': SAS
===Task 18 ===
===Task 18 ===
-
* '''Название''': Аппроксимация границ радужки глаза.
+
* '''Name:''' Аппроксимация границ радужки глаза.
-
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю и внешнюю границу радужки.
+
* '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
-
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны и другие размеры)
+
* '''Данные''': Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)
[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
* '''References:''':
* '''References:''':
-
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория и системы управления, 2014, № 2, с. 78–92.
+
** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
-
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
+
* '''Базовый алгоритм''': Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Решение''': См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
* '''Новизна''': Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
Строка 3751: Строка 3751:
=== Task 19 ===
=== Task 19 ===
-
* '''Название''': Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
+
* '''Name:''' Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
-
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие и более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
+
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие and более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
* '''Данные''': Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
* '''Данные''': Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
* '''References:''':
* '''References:''':
-
** ''Успенский В. М.'' Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика и информатика, 2008. – 116 с.
+
** ''Успенский В. М.'' Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика and информатика, 2008. – 116 с.
-
** ''Воронцов К. В.'' [[Media:Voron-2011-tnop.pdf|Теория надёжности обучения по прецедентам]]. Курс лекций ВМК МГУ и МФТИ. 2011.
+
** ''Воронцов К. В.'' [[Media:Voron-2011-tnop.pdf|Теория надёжности обучения по прецедентам]]. Курс лекций ВМК МГУ and МФТИ. 2011.
** ''Ишкина Ш. Х.'' Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
** ''Ишкина Ш. Х.'' Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
** MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
** MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
* '''Базовой алгоритм''': линейный наивный байесовский классификатор с отбором признаков.
* '''Базовой алгоритм''': линейный наивный байесовский классификатор с отбором признаков.
* '''Решение''': Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
* '''Решение''': Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
-
* '''Новизна''': Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков и улучшать качество классификации.
+
* '''Новизна''': Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков and улучшать качество классификации.
* '''consultant''': Ишкина Шаура, Кулунчаков Андрей (MVR Composer), '''автор задачи''': К.В.Воронцов
* '''consultant''': Ишкина Шаура, Кулунчаков Андрей (MVR Composer), '''автор задачи''': К.В.Воронцов
=== Task 20 ===
=== Task 20 ===
-
* '''Название''': Модель порождения объектов в задаче прогнозирования временных рядов
+
* '''Name:''' Модель порождения объектов в задаче прогнозирования временных рядов
*'''Task''': Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
*'''Task''': Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
* '''Данные''': Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
* '''Данные''': Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
Строка 3774: Строка 3774:
**Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Karasikov2015TimeSeriesClassification/doc/Karasikov2015TimeSeriesClassification.pdf?format=raw]
**Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Karasikov2015TimeSeriesClassification/doc/Karasikov2015TimeSeriesClassification.pdf?format=raw]
* '''Базовой алгоритм''': Различные эвристики
* '''Базовой алгоритм''': Различные эвристики
-
* '''Постановка задачи''': Формулировка и подробное описание задачи приведено по ссылке [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/Goncharov2016Consult.pdf?format=raw]
+
* '''Постановка задачи''': Формулировка and подробное описание задачи приведено по ссылке [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/Goncharov2016Consult.pdf?format=raw]
* '''Новизна''': рассмотрение модели порождения данных в подобной задаче
* '''Новизна''': рассмотрение модели порождения данных в подобной задаче
* '''consultant''': Гончаров Алексей
* '''consultant''': Гончаров Алексей
=== Task 21 ===
=== Task 21 ===
-
* '''Название''': Алгоритм прогнозирования структуры локально-оптимальных моделей
+
* '''Name:''' Алгоритм прогнозирования структуры локально-оптимальных моделей
-
*'''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, и на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
+
*'''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
* '''Данные''': Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
* '''Данные''': Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
* '''References:''':
* '''References:''':
Строка 3786: Строка 3786:
**Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
**Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
* '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
* '''Базовой алгоритм''': Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
-
* '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) и получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
+
* '''Решение''': Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
* '''consultant''': Кулунчаков Андрей
* '''consultant''': Кулунчаков Андрей
=== Task 22 ===
=== Task 22 ===
-
* '''Название''': Определение заимствований в тексте без указания источника
+
* '''Name:''' Определение заимствований в тексте без указания источника
-
*'''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
+
*'''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
* '''Данные''': Коллекция конкурса PAN-2011.
* '''Данные''': Коллекция конкурса PAN-2011.
* '''References:''':
* '''References:''':
*# Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
*# Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
-
* '''Базовый алгоритм, решение''': На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов и символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм и сравнить его с базовым методом.
+
* '''Базовый алгоритм, решение''': На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов and символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм and сравнить его с базовым методом.
* '''consultant''': [[Участник:mikethehuman|Михаил Кузнецов]]
* '''consultant''': [[Участник:mikethehuman|Михаил Кузнецов]]
=== Task 23 ===
=== Task 23 ===
-
* '''Название''': Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
+
* '''Name:''' Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
-
*'''Task''': Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных и возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
+
*'''Task''': Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных and возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
* '''Данные''': Коллекция конкурса PAN-2011.
* '''Данные''': Коллекция конкурса PAN-2011.
* '''References:''':
* '''References:''':
Строка 3810: Строка 3810:
=== Task 26 ===
=== Task 26 ===
-
* '''Название''': Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
+
* '''Name:''' Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
-
* '''Task''': Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии и регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
+
* '''Task''': Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии and регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
* '''Данные''': Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
* '''Данные''': Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
* '''References:''':
* '''References:''':
Строка 3820: Строка 3820:
*# Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
*# Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
* '''Базовой алгоритм''': Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
* '''Базовой алгоритм''': Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
-
* '''Решение''': Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, и поправки к предобусловливателю.
+
* '''Решение''': Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, and поправки к предобусловливателю.
-
* '''Новизна''': Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения и быстродействие полученного алгоритма.
+
* '''Новизна''': Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения and быстродействие полученного алгоритма.
* '''consultant''': Владимир Анатольевич Гаранжа (ВЦ РАН).
* '''consultant''': Владимир Анатольевич Гаранжа (ВЦ РАН).
=== Task 27 ===
=== Task 27 ===
-
* '''Название''': Кросс-язычный тематический поиск научных публикаций.
+
* '''Name:''' Кросс-язычный тематический поиск научных публикаций.
-
* '''Task''': Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке и выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
+
* '''Task''': Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке and выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
* '''Данные''': Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
* '''Данные''': Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
* '''References:''': выдадим.
* '''References:''': выдадим.
-
* '''Базовой алгоритм''': Тематическая модель, построенная по объединённой коллекции англоязычного arXiv и двуязычной англо-русской Википедии.
+
* '''Базовой алгоритм''': Тематическая модель, построенная по объединённой коллекции англоязычного arXiv and двуязычной англо-русской Википедии.
* '''Решение''': Построение регуляризованной тематической модели средствами библиотеки [[BigARTM]]. Применение стандартных средств построения инвертированных индексов.
* '''Решение''': Построение регуляризованной тематической модели средствами библиотеки [[BigARTM]]. Применение стандартных средств построения инвертированных индексов.
* '''Новизна''': Такого сервиса в русскоязычном интернете пока нет.
* '''Новизна''': Такого сервиса в русскоязычном интернете пока нет.
Строка 3835: Строка 3835:
=== Task 28 ===
=== Task 28 ===
-
* '''Название''': Поиск резонансных частот в растворах полимеров.
+
* '''Name:''' Поиск резонансных частот в растворах полимеров.
* '''Task''': Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
* '''Task''': Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
* '''Данные''': Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
* '''Данные''': Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
Строка 3893: Строка 3893:
|-
|-
|Иванов Илья
|Иванов Илья
-
|Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
+
|Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
|[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/code/ code],
|[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/code/ code],
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/Ivanov2016Covariance.pdf?format=raw paper],
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/Ivanov2016Covariance.pdf?format=raw paper],
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/presentation/Ivanov2016Covariance_presentation.pdf?format=raw slides]
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/presentation/Ivanov2016Covariance_presentation.pdf?format=raw slides]
-
|Олег Бахтеев
+
|Oleg Bakhteev
|
|
|BF
|BF
Строка 3940: Строка 3940:
|-
|-
|Софиенко Александр
|Софиенко Александр
-
|Согласование логических и линейных моделей классификации в информационном анализе электрокардиосигналов
+
|Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов
||[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/code/ code],
||[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/code/ code],
[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/doc/Sofienko2016LinearClassification.pdf?format=raw paper]
[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/doc/Sofienko2016LinearClassification.pdf?format=raw paper]
Строка 3975: Строка 3975:
|-
|-
|Хисматуллин Тимур
|Хисматуллин Тимур
-
|Анализ и классификация интерфейса комплекса ДНК-белок
+
|Анализ and классификация интерфейса комплекса ДНК-белок
|[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/code/ code]
|[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/code/ code]
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/paper/Khismatullin2016ProteinDNA.pdf?format=raw paper]
[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/paper/Khismatullin2016ProteinDNA.pdf?format=raw paper]
Строка 3988: Строка 3988:
=== Task 6 ===
=== Task 6 ===
-
* '''Название''': Sparse Regularized Regression on Protein Complex Data
+
* '''Name:''' Sparse Regularized Regression on Protein Complex Data
* '''Task''': найти лучшую модель регрессии на данных связывания белковых комплексов
* '''Task''': найти лучшую модель регрессии на данных связывания белковых комплексов
-
* '''Данные''': признаковое описание белковых комплексов и константы связывания для них
+
* '''Данные''': признаковое описание белковых комплексов and константы связывания для них
-
* '''References:''': статьи по регрессии и сравнению методов на схожих данных
+
* '''References:''': статьи по регрессии and сравнению методов на схожих данных
-
* '''Базовой алгоритм''': регуляризованная линейная регрессия (Lasso, Ridge, ...), SVR, kernel methods, etc..
+
* '''Базовой алгоритм''': регуляризованная линейная регрессия (Lasso, Ridge, ..), SVR, kernel methods, etc.
-
* '''Решение''': сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели и оптимизация параметров
+
* '''Решение''': сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели and оптимизация параметров
* '''Новизна''': получение лучшей модели регрессии для данных связывания белковых комплексов
* '''Новизна''': получение лучшей модели регрессии для данных связывания белковых комплексов
-
* '''consultant''': Александр Катруца, автор задачи: Сергей Грудинин.
+
* '''consultant''': Александр Катруца, автор задачи: Sergei Grudinin.
* '''Желательные навыки''': готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
* '''Желательные навыки''': готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
=== Task 8 ===
=== Task 8 ===
-
* '''Название''': Классификация физической активности: исследование изменения пространства параметров при дообучении и модификации моделей глубокого обучения
+
* '''Name:''' Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
-
* '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию и матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
+
* '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
* '''Данные''': Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
* '''References:''':
* '''References:''':
-
**Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
+
**Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
-
**Попова М. С., Стрижов В.В. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
+
**Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
-
**Бахтеев О.Ю., Попова М.С., Стрижов В.В. Системы и средства глубокого обучения в Taskх классификации
+
**Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
**LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
**LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
-
**Работы по пред-обучению (pre-training) и дообучению (fine-tuning)
+
**Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
-
* '''Базовой алгоритм''': Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки и языки программирования также допустимы).
+
* '''Базовой алгоритм''': Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
* '''Решение''': Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
* '''Решение''': Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
-
* '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны и будут использоваться в дальнейшем при анализе моделей глубокого обучения.
+
* '''Новизна''': Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
-
* '''consultant''': Олег Бахтеев
+
* '''consultant''': Oleg Bakhteev
=== Task 25 ===
=== Task 25 ===
-
* '''Название''': Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
+
* '''Name:''' Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
-
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) и выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме и на качество классификации.
+
* '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме and на качество классификации.
* '''Данные''': электрокардиограммы в формате KDM.
* '''Данные''': электрокардиограммы в формате KDM.
* '''References:''': выдадим :)
* '''References:''': выдадим :)
* '''Базовой алгоритм''': Линейный классификатор.
* '''Базовой алгоритм''': Линейный классификатор.
-
* '''Решение''': Прямое и обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
+
* '''Решение''': Прямое and обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
* '''Новизна''': Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
* '''Новизна''': Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
* '''consultant''': Виктор Сафронов (Научный центр им. В.И.Кулакова)
* '''consultant''': Виктор Сафронов (Научный центр им. В.И.Кулакова)
Строка 4086: Строка 4086:
|-
|-
|Ефимов Юрий
|Ефимов Юрий
-
|Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов
+
|Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
Строка 4099: Строка 4099:
|-
|-
|Жариков Илья
|Жариков Илья
-
|Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
+
|Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
|Ишкина Шаура
|Ишкина Шаура
Строка 4136: Строка 4136:
|-
|-
|Исаченко Роман
|Исаченко Роман
-
|Метрическое обучение и снижение размерности пространства в Taskх кластеризации временных рядов
+
|Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
|[[Участник:Katrutsa|Катруца Александр]]
|[[Участник:Katrutsa|Катруца Александр]]
Строка 4260: Строка 4260:
* '''Task:'''
* '''Task:'''
Дано:
Дано:
-
*# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
+
*# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
*# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
*# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
*# Функция потерь, по которой измеряется качество прогнозов: MAPE.
*# Функция потерь, по которой измеряется качество прогнозов: MAPE.
Строка 4266: Строка 4266:
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
-
Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
+
Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
Строка 4272: Строка 4272:
*# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
*# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
* '''References:'''
* '''References:'''
-
*# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
+
*# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
*# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
*# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
*# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
*# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
*# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
*# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
-
* '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
+
* '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
*# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
*# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
*# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
*# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
*# Сезонность оценивается по кластерам, исходя из методики [3], [4].
*# Сезонность оценивается по кластерам, исходя из методики [3], [4].
-
* '''Solution:''' Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
+
* '''Solution:''' Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
* '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
* '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
* '''consultant:''' Каневский Д.Ю.
* '''consultant:''' Каневский Д.Ю.
=== Task 2 ===
=== Task 2 ===
-
* '''Name:''' Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
+
* '''Name:''' Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
-
* '''Task:''' Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
+
* '''Task:''' Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
-
* '''Data:''' таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
+
* '''Data:''' таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
* '''References:'''
* '''References:'''
** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
Строка 4299: Строка 4299:
* '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
* '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
* '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
* '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
-
* '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
+
* '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
-
* '''consultant:''' Олег Бахтеев.
+
* '''consultant:''' Oleg Bakhteev.
=== Task 3 ===
=== Task 3 ===
-
* '''Название''': Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
+
* '''Name:''' Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
-
* '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
+
* '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
-
* '''Данные''': Синтетические данные и тесты.
+
* '''Данные''': Синтетические данные and тесты.
* '''References:''':
* '''References:''':
-
** Зайцев А.А., Стрижов В.В., Токмакова А.А. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
+
** Зайцев А.А., Strizhov V.V., Токмакова А.А. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
** Адуенко А. А. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
** Адуенко А. А. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
Строка 4317: Строка 4317:
=== Task 4 ===
=== Task 4 ===
-
* '''Название''': Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
+
* '''Name:''' Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
* '''Task''': постановка задачи из [http://www.swissquant.net/files/pdf/Robust%20Calculation%20and%20Parameter%20Estimation%20of%20the%20Hourly%20Price%20Forward%20Curve.pdf] формула (32)
* '''Task''': постановка задачи из [http://www.swissquant.net/files/pdf/Robust%20Calculation%20and%20Parameter%20Estimation%20of%20the%20Hourly%20Price%20Forward%20Curve.pdf] формула (32)
* '''Данные''': временные ряды с ценами на электроэнергию.
* '''Данные''': временные ряды с ценами на электроэнергию.
Строка 4323: Строка 4323:
** Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
** Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
**Основные статьи:
**Основные статьи:
-
*# [http://scl.hanyang.ac.kr/scl/database/papers/PESGM/PESGM2014/files/PESGM2014-000294.PDF] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
+
*# [http://scl.hanyang.ac.kr/scl/database/papers/PESGM/PESGM2014/files/PESGM2014-000294.PDF] - исследование влияния цен в одной стране на цену в другой and как это учесть при прогнозировании.
-
*# [http://www.eeh.ee.ethz.ch/uploads/tx_ethpublications/hildmann_EEM_2013.pdf] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
+
*# [http://www.eeh.ee.ethz.ch/uploads/tx_ethpublications/hildmann_EEM_2013.pdf] - обзор терминов and процессов, всплывающих в прогнозировании HPFC + мотивация
*# [http://www1.vwa.unisg.ch/RePEc/usg/sfwpfi/WPF-1311.pdf] - тоже про прогнозирование цен, но тут про спотовые цены
*# [http://www1.vwa.unisg.ch/RePEc/usg/sfwpfi/WPF-1311.pdf] - тоже про прогнозирование цен, но тут про спотовые цены
* '''Базовой алгоритм''':
* '''Базовой алгоритм''':
Строка 4330: Строка 4330:
*# Статья Сандуляну про модификацию Add-Del: [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf].
*# Статья Сандуляну про модификацию Add-Del: [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf].
* '''Решение''': применить в качестве метода отбора признаков модифицрованный метод Add-Del.
* '''Решение''': применить в качестве метода отбора признаков модифицрованный метод Add-Del.
-
* '''Новизна''': сравнение базвого и предложенного методов, анализ свойств предложенного метода.
+
* '''Новизна''': сравнение базвого and предложенного методов, анализ свойств предложенного метода.
* '''consultant:''' Александр Катруца.
* '''consultant:''' Александр Катруца.
=== Task 5 ===
=== Task 5 ===
-
* '''Название''': Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
+
* '''Name:''' Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
-
* '''Task''': Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%B1%D1%80%D0%B8%D0%BD%D0%BE%D0%BB%D0%B8%D0%B7|фибринолиза]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
+
* '''Task''': Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики and [https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%B1%D1%80%D0%B8%D0%BD%D0%BE%D0%BB%D0%B8%D0%B7|фибринолиза]. Требуется разработать алгоритм поиска координат отрезка and угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза and примерах, где данный процесс отсутствует.
* '''Данные''': Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
* '''Данные''': Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
* '''References:'''
* '''References:'''
-
** Описание прикладной задачи и техническое задание: по запросу.
+
** Описание прикладной задачи and техническое задание: по запросу.
* '''Базовой алгоритм''': Преобразование Хафа [https://www.cs.sfu.ca/~hamarneh/ecopy/compvis1999_hough.pdf|pdf], обсуждается.
* '''Базовой алгоритм''': Преобразование Хафа [https://www.cs.sfu.ca/~hamarneh/ecopy/compvis1999_hough.pdf|pdf], обсуждается.
* '''consultant:''' И.А. Матвеев
* '''consultant:''' И.А. Матвеев
Строка 4345: Строка 4345:
* '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
* '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
* '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
* '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
-
Нужно исследовать эту формулировку и предложить алгоритм решения. Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
+
Нужно исследовать эту формулировку and предложить алгоритм решения. Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
Thus, the optimal packing problem can be formulated as
Thus, the optimal packing problem can be formulated as
<tex>
<tex>
Строка 4354: Строка 4354:
\end{align}
\end{align}
</tex>
</tex>
-
* '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
+
* '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
* '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
* '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
* '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
Строка 4362: Строка 4362:
=== Task 7 ===
=== Task 7 ===
-
* '''Название''': Метрическое обучение и снижение размерности пространства в Taskх классификации временных рядов
+
* '''Name:''' Метрическое обучение and снижение размерности пространства в Taskх классификации временных рядов
* '''Task''': постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
* '''Task''': постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
* '''Данные''': временные ряды цен на электроэнергию
* '''Данные''': временные ряды цен на электроэнергию
Строка 4375: Строка 4375:
=== Task 8 ===
=== Task 8 ===
-
* '''Название''': Структурное обучение при порождении моделей
+
* '''Name:''' Структурное обучение при порождении моделей
-
* '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
+
* '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
* '''Данные''': Подколлекции TREC.
* '''Данные''': Подколлекции TREC.
-
* Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
+
* Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
* '''References:'''
* '''References:'''
** Jaakkola T. Scaled structured prediction.
** Jaakkola T. Scaled structured prediction.
Строка 4385: Строка 4385:
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
-
* '''Решение''': Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
+
* '''Решение''': Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
-
* * '''consultant:''' Анна Варфоломеева, Олег Бахтеев
+
* * '''consultant:''' Анна Варфоломеева, Oleg Bakhteev
=== Task 9 ===
=== Task 9 ===
-
* '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
+
* '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
-
* '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
+
* '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
-
* '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
+
* '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
* '''References:'''
* '''References:'''
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
*# [[Технология информационного анализа электрокардиосигналов]]
*# [[Технология информационного анализа электрокардиосигналов]]
-
*# Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
+
*# Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
*# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
*# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
Строка 4404: Строка 4404:
*# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
*# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
* '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
* '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
-
* '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
+
* '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
-
* '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
+
* '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
* '''consultant:''' Ишкина Шаура
* '''consultant:''' Ишкина Шаура
=== Task 10 ===
=== Task 10 ===
-
* '''Название''': Simplification of the IR models structure
+
* '''Name:''' Simplification of the IR models structure
* '''Task''': To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
* '''Task''': To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
* '''Данные''': TREC collections.
* '''Данные''': TREC collections.
Строка 4421: Строка 4421:
=== Task 11 ===
=== Task 11 ===
-
* '''Название''': Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
+
* '''Name:''' Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
-
* '''Task''': Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
+
* '''Task''': Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее and др.
* '''Данные''': Данные о грузовых железнодорожных перевозках (РЖД)
* '''Данные''': Данные о грузовых железнодорожных перевозках (РЖД)
* '''References:''':
* '''References:''':
-
**Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
+
**Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
** Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
** Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
* '''Базовой алгоритм''': ARMA, Hist.
* '''Базовой алгоритм''': ARMA, Hist.
-
* '''Решение''': В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
+
* '''Решение''': В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд and сезонность.
-
* '''Новизна''': Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
+
* '''Новизна''': Разработан and обоснован метод определения выполнения условия локальной стационарности временного ряда.
* '''consultant:''' Стенина Мария
* '''consultant:''' Стенина Мария
=== Task 12 ===
=== Task 12 ===
-
* '''Название''': Обучение метрик в Taskх полного и частичного обучения
+
* '''Name:''' Обучение метрик в Taskх полного and частичного обучения
-
* '''Task:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
+
* '''Task:''' состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
-
* '''Data:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
+
* '''Data:''' Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
-
* '''References:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
+
* '''References:''' Список литературы and описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
* '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
Строка 4442: Строка 4442:
=== Task 13 ===
=== Task 13 ===
-
* '''Название''': Построение иерархической тематической модели крупной конференции
+
* '''Name:''' Построение иерархической тематической модели крупной конференции
* '''Task''': Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя Expertные модели конференций прошлых лет. При этом возникают следующие подзадачи:
* '''Task''': Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя Expertные модели конференций прошлых лет. При этом возникают следующие подзадачи:
# Классификация тезисов новой конференции.
# Классификация тезисов новой конференции.
# Прогнозирование изменений структуры конференции.
# Прогнозирование изменений структуры конференции.
-
* '''Данные''': Тезисы и Expertные модели конференций EURO 2010, 2012, 2013.
+
* '''Данные''': Тезисы and Expertные модели конференций EURO 2010, 2012, 2013.
* '''References:''': Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group974/KuzminAduenkoStrijov2013AdoptiveTextClustering/doc/TextClustering_english_5.pdf?format=raw текст статьи]
* '''References:''': Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group974/KuzminAduenkoStrijov2013AdoptiveTextClustering/doc/TextClustering_english_5.pdf?format=raw текст статьи]
* '''Базовой алгоритм''':
* '''Базовой алгоритм''':
* '''Решение''': Для решения подзадач
* '''Решение''': Для решения подзадач
-
# предлагается объединить Expertные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
+
# предлагается объединить Expertные модели конференций прошлых лет в одну, and для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
-
# исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Expertы создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
+
# исследовать изменения в структуре конференций из года в год and определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Expertы создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
* '''Новизна''': Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
* '''Новизна''': Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
Строка 4458: Строка 4458:
=== Task 14 ===
=== Task 14 ===
-
* '''Название''': Регуляризация линейного наивного байесовского классификатора.
+
* '''Name:''' Регуляризация линейного наивного байесовского классификатора.
-
* '''Task''': Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
+
* '''Task''': Построение линейного классификатора является одной из классических and самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, and сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном and том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
-
* '''Данные''': Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
+
* '''Данные''': Один из трёх наборов данных, по выбору: классификация текстов на научные and ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных and здоровых.
* '''References:''':
* '''References:''':
*# ''Larsen'' (2005) Generalized Naive Bayes Classifiers.
*# ''Larsen'' (2005) Generalized Naive Bayes Classifiers.
Строка 4467: Строка 4467:
*# ''Zaidi, Carman, Cerquides, Webb'' (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
*# ''Zaidi, Carman, Cerquides, Webb'' (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
*# + спросить у [[Участник:Vokov|К.В.Воронцова]].
*# + спросить у [[Участник:Vokov|К.В.Воронцова]].
-
* '''Базовой алгоритм''': любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
+
* '''Базовой алгоритм''': любые готовые реализации LNB and SVM. Плюс наивный отбор признаков для LNB.
-
* '''Решение''': Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
+
* '''Решение''': Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые and зависимости Hold-out AUC от номера итерации.
* '''Новизна''': Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
* '''Новизна''': Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
* '''consultant:''' Михаил Усков. '''Гиперconsultant:''' [[Участник:Vokov|К.В.Воронцов]].
* '''consultant:''' Михаил Усков. '''Гиперconsultant:''' [[Участник:Vokov|К.В.Воронцов]].
=== Task 15 ===
=== Task 15 ===
-
* '''Название''': Тематическая модель интересов постоянных пользователей мобильного приложения.
+
* '''Name:''' Тематическая модель интересов постоянных пользователей мобильного приложения.
* '''Task''': Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
* '''Task''': Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
-
* '''Данные''': Для каждого пользователя имеются списки добавленных и откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
+
* '''Данные''': Для каждого пользователя имеются списки добавленных and откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
* '''References:''':
* '''References:''':
*# ''Vorontsov K. V., Potapenko A. A.'' [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
*# ''Vorontsov K. V., Potapenko A. A.'' [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
Строка 4481: Строка 4481:
* '''Базовой алгоритм''': Алгоритм случайного отбора слов.
* '''Базовой алгоритм''': Алгоритм случайного отбора слов.
* '''Решение''': Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
* '''Решение''': Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
-
* '''Новизна''': Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками и дизлайками.
+
* '''Новизна''': Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками and дизлайками.
* '''consultant:''' Виктор Сафронов. '''Гиперconsultant:''' [[Участник:Vokov|К.В.Воронцов]].
* '''consultant:''' Виктор Сафронов. '''Гиперconsultant:''' [[Участник:Vokov|К.В.Воронцов]].
Строка 4548: Строка 4548:
|-
|-
|Ефимов Юрий
|Ефимов Юрий
-
|Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов
+
|Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
Строка 4561: Строка 4561:
|-
|-
|Жариков Илья
|Жариков Илья
-
|Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
+
|Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
|Ишкина Шаура
|Ишкина Шаура
Строка 4598: Строка 4598:
|-
|-
|Исаченко Роман
|Исаченко Роман
-
|Метрическое обучение и снижение размерности пространства в Taskх кластеризации временных рядов
+
|Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
|[[Участник:Katrutsa|Катруца Александр]]
|[[Участник:Katrutsa|Катруца Александр]]
Строка 4723: Строка 4723:
* '''Task:'''
* '''Task:'''
Дано:
Дано:
-
*# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
+
*# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
*# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
*# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
*# Функция потерь, по которой измеряется качество прогнозов: MAPE.
*# Функция потерь, по которой измеряется качество прогнозов: MAPE.
Строка 4729: Строка 4729:
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
-
Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
+
Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
Строка 4735: Строка 4735:
*# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
*# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
* '''References:'''
* '''References:'''
-
*# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
+
*# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
*# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
*# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
*# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
*# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
*# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
*# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
-
* '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
+
* '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
*# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
*# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
*# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
*# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
*# Сезонность оценивается по кластерам, исходя из методики [3], [4].
*# Сезонность оценивается по кластерам, исходя из методики [3], [4].
-
* '''Solution:''' Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
+
* '''Solution:''' Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
* '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
* '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
* '''consultant:''' Каневский Д.Ю.
* '''consultant:''' Каневский Д.Ю.
=== Task 2 ===
=== Task 2 ===
-
* '''Name:''' Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
+
* '''Name:''' Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
-
* '''Task:''' Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
+
* '''Task:''' Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
-
* '''Data:''' таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
+
* '''Data:''' таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
* '''References:'''
* '''References:'''
** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
Строка 4762: Строка 4762:
* '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
* '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
* '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
* '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
-
* '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
+
* '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
-
* '''consultant:''' Олег Бахтеев.
+
* '''consultant:''' Oleg Bakhteev.
=== Task 3 ===
=== Task 3 ===
-
* '''Название''': Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
+
* '''Name:''' Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
-
* '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
+
* '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
-
* '''Данные''': Синтетические данные и тесты.
+
* '''Данные''': Синтетические данные and тесты.
* '''References:''':
* '''References:''':
-
** Зайцев А.А., Стрижов В.В., Токмакова А.А. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
+
** Зайцев А.А., Strizhov V.V., Токмакова А.А. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
** Адуенко А. А. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
** Адуенко А. А. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
Строка 4782: Строка 4782:
* '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
* '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
* '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
* '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
-
Нужно исследовать эту формулировку и предложить алгоритм решения.
+
Нужно исследовать эту формулировку and предложить алгоритм решения.
Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
Строка 4795: Строка 4795:
</tex>
</tex>
-
* '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
+
* '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
* '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
* '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
* '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
Строка 4803: Строка 4803:
=== Task 8 ===
=== Task 8 ===
-
* '''Название''': Структурное обучение при порождении моделей
+
* '''Name:''' Структурное обучение при порождении моделей
-
* '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
+
* '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
* '''Данные''': Подколлекции TREC.
* '''Данные''': Подколлекции TREC.
-
* Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
+
* Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
* '''References:'''
* '''References:'''
** Jaakkola T. Scaled structured prediction.
** Jaakkola T. Scaled structured prediction.
Строка 4813: Строка 4813:
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
-
* '''Решение''': Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
+
* '''Решение''': Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
-
* * '''consultant:''' Анна Варфоломеева, Олег Бахтеев
+
* * '''consultant:''' Анна Варфоломеева, Oleg Bakhteev
=== Task 9 ===
=== Task 9 ===
-
* '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
+
* '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
-
* '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
+
* '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
-
* '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
+
* '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
* '''References:'''
* '''References:'''
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
*# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
*# [[Технология информационного анализа электрокардиосигналов]]
*# [[Технология информационного анализа электрокардиосигналов]]
-
*# Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
+
*# Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
*# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
*# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
*# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
Строка 4832: Строка 4832:
*# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
*# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
* '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
* '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
-
* '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
+
* '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
-
* '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
+
* '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
* '''consultant:''' Ишкина Шаура
* '''consultant:''' Ишкина Шаура
=== Task 12 ===
=== Task 12 ===
-
* '''Название''': Обучение метрик в Taskх полного и частичного обучения
+
* '''Name:''' Обучение метрик в Taskх полного and частичного обучения
-
* '''Task:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
+
* '''Task:''' состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
-
* '''Data:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
+
* '''Data:''' Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
-
* '''References:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
+
* '''References:''' Список литературы and описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
* '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
* '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
Строка 4897: Строка 4897:
|-
|-
|[[Участник:Azhukov|Жуков Андрей]]
|[[Участник:Azhukov|Жуков Андрей]]
-
|Построение рейтингов вузов: панельный анализ и оценка устойчивости
+
|Построение рейтингов вузов: панельный анализ and оценка устойчивости
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/doc/Zhukov2014UniversityRanking.pdf?format=raw pdf]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/doc/Zhukov2014UniversityRanking.pdf?format=raw pdf]
|[[Участник:Mikethehuman|Кузнецов Михаил]]
|[[Участник:Mikethehuman|Кузнецов Михаил]]
Строка 4978: Строка 4978:
|-
|-
|[[Участник:Mshinkevich|Шинкевич Михаил]]
|[[Участник:Mshinkevich|Шинкевич Михаил]]
-
|Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели
+
|Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shinkevich2014RegularizatorsCombination/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shinkevich2014RegularizatorsCombination/doc/Shinkevich2014RegularizatorsCombination.pdf?format=raw pdf]
|[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shinkevich2014RegularizatorsCombination/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shinkevich2014RegularizatorsCombination/doc/Shinkevich2014RegularizatorsCombination.pdf?format=raw pdf]
| Дударенко Марина
| Дударенко Марина
Строка 5003: Строка 5003:
'''References:'''
'''References:'''
-
* [[Медиа:Task-PTM-Potapenko.pdf| Описание задачи и предлагаемые пути решения]]
+
* [[Медиа:Task-PTM-Potapenko.pdf| Описание задачи and предлагаемые пути решения]]
* Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-
* Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-
ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
Строка 5013: Строка 5013:
'''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
'''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
-
'''Novelty:''' Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.
+
'''Novelty:''' Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, and при этом сложна как для понимания, так and для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость and простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.
===2. Дифференциальная диагностика заболеваний по электрокардиограмме===
===2. Дифференциальная диагностика заболеваний по электрокардиограмме===
Строка 5019: Строка 5019:
'''consultant:''' В.Р. Целых
'''consultant:''' В.Р. Целых
-
'''Task:''' Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.
+
'''Task:''' Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого and второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.
'''Data:''' Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.
'''Data:''' Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.
Строка 5026: Строка 5026:
* Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
* Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
* Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
* Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
-
* Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
+
* Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика and информация», 2008. — 116 с.
'''Basic algorithm:''' Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.
'''Basic algorithm:''' Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.
-
'''Novelty:''' Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.
+
'''Novelty:''' Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации and исследована его обобщающая способность.
-
===3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели===
+
===3. Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели===
'''consultant:''' М.A. Дударенко
'''consultant:''' М.A. Дударенко
Строка 5040: Строка 5040:
Представление матрицы <tex>\|p(w|d)\|_{W\times D}</tex>
Представление матрицы <tex>\|p(w|d)\|_{W\times D}</tex>
-
в виде произведения двух матриц меньшего размера <tex>{\Phi=\|\phi_{wt}\|_{W\times T}}</tex> и <tex>{\Theta=\|\theta_{dt}\|_{T\times D}}</tex> не единственно:
+
в виде произведения двух матриц меньшего размера <tex>{\Phi=\|\phi_{wt}\|_{W\times T}}</tex> and <tex>{\Theta=\|\theta_{dt}\|_{T\times D}}</tex> не единственно:
<tex>\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'</tex>
<tex>\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'</tex>
для некоторых невырожденных <tex>S</tex>.
для некоторых невырожденных <tex>S</tex>.
Строка 5047: Строка 5047:
'''Data:''' Коллекция документов задаётся частотами слов. Поскольку для
'''Data:''' Коллекция документов задаётся частотами слов. Поскольку для
-
решения задачи необходимо знать «истинные» матрицы <tex>\Phi, \Theta,</tex> эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.
+
решения задачи необходимо знать «истинные» матрицы <tex>\Phi, \Theta,</tex> эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем and наличия фоновых тем.
'''References:'''
'''References:'''
Строка 5055: Строка 5055:
'''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
'''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
-
'''Novelty:''' Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.
+
'''Novelty:''' Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости and интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.
-
===4. Построение рейтингов вузов: панельный анализ и оценка устойчивости===
+
===4. Построение рейтингов вузов: панельный анализ and оценка устойчивости===
'''consultant:''' М.П. Кузнецов
'''consultant:''' М.П. Кузнецов
-
'''Task:''' Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.
+
'''Task:''' Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза and целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.
'''Data:''' Данные по ста ведущим мировым университетам за восемь лет.
'''Data:''' Данные по ста ведущим мировым университетам за восемь лет.
'''References:'''
'''References:'''
-
* Стрижов В.В. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
+
* Strizhov V.V. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
-
* Стрижов В.В. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
+
* Strizhov V.V. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
* Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
* Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
* ''Черновик статьи POF по запросу.''
* ''Черновик статьи POF по запросу.''
-
'''Basic algorithm:''' Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.
+
'''Basic algorithm:''' Методика построения рейтинга RUR and один из избыточно устойчивых алгоритмов для ранговых шкал.
-
'''Novelty:''' Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора и оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.
+
'''Novelty:''' Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора and оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.
===5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения===
===5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения===
Строка 5078: Строка 5078:
'''consultant:''' А.П. Мотренко
'''consultant:''' А.П. Мотренко
-
'''Task:''' Для повышения качества прогноза временных рядов хочется использовать Expertные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на Expertные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением Expertа.
+
'''Task:''' Для повышения качества прогноза временных рядов хочется использовать Expertные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на Expertные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей and найти структуру, наиболее согласованную с мнением Expertа.
'''References:'''
'''References:'''
Строка 5084: Строка 5084:
* J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
* J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
* J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
* J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
-
* Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
+
* Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
-
* Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.
+
* Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
'''Basic algorithm:''' моделирование структурных уравнений, SEM
'''Basic algorithm:''' моделирование структурных уравнений, SEM
-
'''Novelty:''' Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры и оценкой достоверности высказывания.
+
'''Novelty:''' Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры and оценкой достоверности высказывания.
===18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами===
===18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами===
Строка 5094: Строка 5094:
'''consultant:''' А.П. Мотренко
'''consultant:''' А.П. Мотренко
-
'''Task:''' (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
+
'''Task:''' (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда and исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных and выявлению связей между ними; описать границы применимости базового алгоритма and предложить новые варианты выявляемых структурных связей.
-
Data: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
+
Data: Синтетические данные, исторические биржевые цены на основные инструменты and данные по железнодорожным грузоперевозкам.
'''References:'''
'''References:'''
Строка 5101: Строка 5101:
* Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
* Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
* George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
* George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
-
* Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
+
* Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
-
* Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.
+
* Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
'''Basic algorithm:''' convergent cross mapping
'''Basic algorithm:''' convergent cross mapping
-
'''Novelty:''' Предложены различные структуры связей между временными рядами и метод проверки наличия связей
+
'''Novelty:''' Предложены различные структуры связей между временными рядами and метод проверки наличия связей
===6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов===
===6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов===
Строка 5111: Строка 5111:
'''consultant:''' М.П. Кузнецов
'''consultant:''' М.П. Кузнецов
-
'''Task:''' Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).
+
'''Task:''' Предложить and протестировать на тестовых and реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).
'''Data:''' Синтетические данные, данные по текстовым коллекциям LIG.
'''Data:''' Синтетические данные, данные по текстовым коллекциям LIG.
Строка 5117: Строка 5117:
'''References:'''
'''References:'''
* Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
* Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
-
* Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
+
* Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
-
* Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
+
* Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
* Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
* Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
* Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.
* Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.
'''Basic algorithm:''' Алгоритм полного перебора допустимых суперпозиций порождающих функций.
'''Basic algorithm:''' Алгоритм полного перебора допустимых суперпозиций порождающих функций.
-
'''Novelty:''' Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
+
'''Novelty:''' Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции and понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
===7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей===
===7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей===
Строка 5129: Строка 5129:
'''consultant:''' Р.А. Сологуб, М.П. Кузнецов
'''consultant:''' Р.А. Сологуб, М.П. Кузнецов
-
'''Task:''' Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.
+
'''Task:''' Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма and для алгоритма поэлементного сравнения отображений.
-
'''Data:''' Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.
+
'''Data:''' Данные по биржевым опционам: зависимость волатильности опциона от цены and времени его исполнения.
'''References:'''
'''References:'''
-
* Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
+
* Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
-
* Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
+
* Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
* Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
* Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
* Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
* Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
-
* Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.
+
* Strizhov V.V., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.
'''Basic algorithm:''' Алгоритм поэлементного сравнения отображений.
'''Basic algorithm:''' Алгоритм поэлементного сравнения отображений.
-
'''Novelty:''' Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.
+
'''Novelty:''' Предложен быстрый алгоритм упрощения суперпозиций and поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.
===8. Построение прогностических моделей как суперпозиций Expertно-заданных функций===
===8. Построение прогностических моделей как суперпозиций Expertно-заданных функций===
Строка 5158: Строка 5158:
'''Novelty:''' Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.
'''Novelty:''' Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.
-
Сравнение структурной и топологической сложности в Taskх классификации.
+
Сравнение структурной and топологической сложности в Taskх классификации.
===9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов ===
===9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов ===
Строка 5164: Строка 5164:
'''consultant:''' Н.П. Ивкин
'''consultant:''' Н.П. Ивкин
-
'''Task:''' Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.
+
'''Task:''' Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба and др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.
'''Data:''' данные с акселерометра мобильного телефона.
'''Data:''' данные с акселерометра мобильного телефона.
Строка 5177: Строка 5177:
'''consultant:''' А.А. Адуенко
'''consultant:''' А.А. Адуенко
-
'''Task:''' Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.
+
'''Task:''' Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей and градиентный бустинг.
'''Data:''' данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).
'''Data:''' данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).
Строка 5183: Строка 5183:
'''References:'''
'''References:'''
* смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
* смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
-
* бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)
+
* бустинг (лекция «Композиционные методы классификации and регрессии» Воронцова)
'''Basic algorithm:''' бустинг.
'''Basic algorithm:''' бустинг.
-
'''Novelty:''' Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.
+
'''Novelty:''' Выявление and объяснение сходств and различий решений, полученных двумя указанными алгоритмами.
=== 11. Выбор оптимальных структур прогностических моделей методами структурного обучения ===
=== 11. Выбор оптимальных структур прогностических моделей методами структурного обучения ===
Строка 5211: Строка 5211:
'''Task:''' Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.
'''Task:''' Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.
-
'''Data:''' почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).
+
'''Data:''' почасовые данные о ценах and объема потребления электроэнергии (вставить ссылку).
'''References:'''
'''References:'''
-
* Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
+
* Сандуляну Л.Н., Strizhov V.V. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
*''(взять из последней статьи Фадеева)''
*''(взять из последней статьи Фадеева)''
'''Basic algorithm:''' авторегрессионное прогнозирование, описанное в работе Сандуляну.
'''Basic algorithm:''' авторегрессионное прогнозирование, описанное в работе Сандуляну.
-
'''Novelty:''' Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.
+
'''Novelty:''' Предложен алгоритм совместной оценки параметров инвариантов and авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.
=== 13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток ===
=== 13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток ===
Строка 5229: Строка 5229:
'''References:'''
'''References:'''
-
*Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
+
*Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
'''Basic algorithm:''' гистограммное прогнозирование, описанное в статье.
'''Basic algorithm:''' гистограммное прогнозирование, описанное в статье.
-
'''Novelty:''' предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.
+
'''Novelty:''' предлагается повысить качество прогноза путем разделения данных на меньшие части and прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.
===14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра ===
===14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра ===
'''consultant:''' А.А. Токмакова
'''consultant:''' А.А. Токмакова
-
'''Task:''' Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.
+
'''Task:''' Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую and точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.
'''Data:''' Набор временных рядов измерений акселерометра.
'''Data:''' Набор временных рядов измерений акселерометра.
Строка 5254: Строка 5254:
'''Task:''' Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
'''Task:''' Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
-
'''Data:''' Библиотека квазипериодических и апериодических временных рядов
+
'''Data:''' Библиотека квазипериодических and апериодических временных рядов
'''References:'''
'''References:'''
-
* Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112.
+
* Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 104-112.
-
* Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.
+
* Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 92-103.
'''Basic algorithm:''' Использовать алгоритм SAS/SPSS.
'''Basic algorithm:''' Использовать алгоритм SAS/SPSS.
Строка 5266: Строка 5266:
'''consultant:''' И.А. Матвеев
'''consultant:''' И.А. Матвеев
-
'''Task:''' В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.
+
'''Task:''' В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания and более того, использование данных с затенённых участков может порождать ложные признаки and снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.
-
'''Data:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.
+
'''Data:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны and другие размеры) and координаты центров and радиусы двух окружностей, аппроксимирующих зрачок and радужку.
'''References:'''
'''References:'''
-
* [[Медиа:TaskIris.pdf |Описание задачи и предлагаемые пути решения]]
+
* [[Медиа:TaskIris.pdf |Описание задачи and предлагаемые пути решения]]
* Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
* Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
* Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
* Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
Строка 5277: Строка 5277:
* Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
* Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
* G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
* G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
-
'''Basic algorithm:''' метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].
+
'''Basic algorithm:''' метод, использующий скользящее окно and текстурные признаки [2006: Xu, Zhang, Ma].
'''Novelty:''' построена маска открытой области радужки.
'''Novelty:''' построена маска открытой области радужки.
Строка 5284: Строка 5284:
'''consultant:''' Ю.В. Максимов
'''consultant:''' Ю.В. Максимов
-
'''Task:''' Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.
+
'''Task:''' Исследовать различные подходы к решению задач классификации с многими классами and сравнить их эффективность.
'''Data:''' Данные с различным числом классов.
'''Data:''' Данные с различным числом классов.
Строка 5292: Строка 5292:
'''References:'''
'''References:'''
-
* [[Медиа:LearningEmbedding.pdf |Описание задачи и предлагаемые пути решения]]
+
* [[Медиа:LearningEmbedding.pdf |Описание задачи and предлагаемые пути решения]]
* Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
* Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
* Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
* Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
Строка 5307: Строка 5307:
! Номер
! Номер
|-
|-
-
|Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.
+
|Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) and нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means and EM, and показать сравнение результатов кластеризации на графике.
|Плавин
|Плавин
| 1
| 1
Строка 5315: Строка 5315:
| 2
| 2
|-
|-
-
|Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] и нарисовать спрогнозированные и исходный ряды на одном графике.
+
|Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] and нарисовать спрогнозированные and исходный ряды на одном графике.
|Кулунчаков Андрей.
|Кулунчаков Андрей.
| 3
| 3
|-
|-
-
|Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов и исходного ряда.
+
|Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов and исходного ряда.
|Авдюхов
|Авдюхов
| 4
| 4
Строка 5335: Строка 5335:
| 7
| 7
|-
|-
-
|Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
+
|Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] and нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
|Ефимова Ирина
|Ефимова Ирина
| 8
| 8
Строка 5343: Строка 5343:
| 9
| 9
|-
|-
-
|Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия.
+
|Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки and их выпуклая оболочка – замкнутая ломаная линия.
|Макарова Анастасия
|Макарова Анастасия
| 10
| 10
Строка 5359: Строка 5359:
| 13
| 13
|-
|-
-
|Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.
+
|Сгенерировать набор точек на плоскости. Выделить and визуализировать главные компоненты.
| Липатова
| Липатова
| 14
| 14
Строка 5379: Строка 5379:
|17
|17
|-
|-
-
|Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.
+
|Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.
|Костюк
|Костюк
|18
|18
Строка 5387: Строка 5387:
|19
|19
|-
|-
-
|Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).
+
|Показать разницу в скорости выполнения матричных операций and операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] and другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).
|
|
|20
|20
Строка 5419: Строка 5419:
|MAIPVTDCHS
|MAIPVTDCHS
|-
|-
-
|Векторная авторегрессия и управление макроэкономическими показателями
+
|Векторная авторегрессия and управление макроэкономическими показателями
|Кащеева Мария
|Кащеева Мария
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kashcheeva2013InverseVAR/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kashcheeva2013InverseVAR/doc]
Строка 5434: Строка 5434:
|MAIPV.DCHS
|MAIPV.DCHS
|-
|-
-
|Векторная авторегрессия и управление макроэкономическими показателями
+
|Векторная авторегрессия and управление макроэкономическими показателями
|Гринчук Олег
|Гринчук Олег
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Grinchuk2013InverseVAR/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Grinchuk2013InverseVAR/doc]
Строка 5452: Строка 5452:
|Костин Александр
|Костин Александр
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kostin2013Invariant4LocalForecast/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kostin2013Invariant4LocalForecast/doc]
-
|MAI.VT..HS
+
|MAI.VT.HS
|-
|-
|Алгоритм генетического программирования для решения задачи прогнозирования
|Алгоритм генетического программирования для решения задачи прогнозирования
Строка 5464: Строка 5464:
|MAIPVTDCHS
|MAIPVTDCHS
|-
|-
-
| Моделирование процесса обучения и забывания при оценке качества производства
+
| Моделирование процесса обучения and забывания при оценке качества производства
|Неклюдов Кирилл
|Неклюдов Кирилл
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Neklyudov2013LearnForget/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Neklyudov2013LearnForget/doc]
-
|MAI...DC.S
+
|MAI..DC.S
|-
|-
|Обзор алгоритмов упрощения алгебраических выражений
|Обзор алгоритмов упрощения алгебраических выражений
Строка 5474: Строка 5474:
|MAIPVTD.S
|MAIPVTD.S
|-
|-
-
|Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии
+
|Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
|Ибраимова Айжан
|Ибраимова Айжан
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Ibraimova2013ScoringSelection/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Ibraimova2013ScoringSelection/doc]
-
|MAIP.TD...
+
|MAIP.TD..
|-
|-
|Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов
|Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов
|Бырдин Александр
|Бырдин Александр
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Byrdin2013RedBook/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Byrdin2013RedBook/doc]
-
|MAI..TD..S
+
|MAI.TD.S
|-
|-
|Визуализация матрицы парных расстояний в тематическом моделировании
|Визуализация матрицы парных расстояний в тематическом моделировании
|Вдовина Евгения
|Вдовина Евгения
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Vdovina2013DistanceVisualizing/doc]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Vdovina2013DistanceVisualizing/doc]
-
|MAI..TDC.S
+
|MAI.TDC.S
|-
|-
|Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов
|Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов
|Антипова Наташа
|Антипова Наташа
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Antipova2013PlausibleExpert]
|[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Antipova2013PlausibleExpert]
-
|MAIP.T...S
+
|MAIP.T..S
|}
|}
===Task 2. Surname2013MassProduction (*eng)===
===Task 2. Surname2013MassProduction (*eng)===
-
*'''Название.''' Порождение и оптимизация логических описаний при построении производственных линий.
+
*'''Название.''' Порождение and оптимизация логических описаний при построении производственных линий.
-
*'''Проблема.''' Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
+
*'''Проблема.''' Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм and протестировать его на синтетических данных.
*'''Данные.''' Требуется создать.
*'''Данные.''' Требуется создать.
*'''References:.''' Нужен поиск (скорее всего немецких публикаций).
*'''References:.''' Нужен поиск (скорее всего немецких публикаций).
Строка 5504: Строка 5504:
===Task 3. Surname2013LearnForget (eng)===
===Task 3. Surname2013LearnForget (eng)===
-
*'''Название.''' Моделирование процесса обучения и забывания при оценке качества производства.
+
*'''Название.''' Моделирование процесса обучения and забывания при оценке качества производства.
*'''Проблема.''' Найти адекватную регрессионную модель, описывающую деятельность группы людей.
*'''Проблема.''' Найти адекватную регрессионную модель, описывающую деятельность группы людей.
-
*'''Данные.''' Данные по скорости и качеству сборки бумажных самолетиков.
+
*'''Данные.''' Данные по скорости and качеству сборки бумажных самолетиков.
*'''References:.''' Нужно искать.
*'''References:.''' Нужно искать.
*'''Предлагаемый алгоритм.''' Процедура анализа регрессионных остатков.
*'''Предлагаемый алгоритм.''' Процедура анализа регрессионных остатков.
Строка 5513: Строка 5513:
===Task 4. Surname2013GeneticProg===
===Task 4. Surname2013GeneticProg===
*'''Название.''' Алгоритм генетического программирования для решения задачи прогнозирования.
*'''Название.''' Алгоритм генетического программирования для решения задачи прогнозирования.
-
*'''Проблема.''' Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
+
*'''Проблема.''' Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП and с нейронными сетями.
*'''Данные.''' Тестовый набор задач, взять на UCI или на Полигоне.
*'''Данные.''' Тестовый набор задач, взять на UCI или на Полигоне.
*'''References:.''' Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
*'''References:.''' Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
Строка 5528: Строка 5528:
===Task 6. Surname2013RedListExplanation===
===Task 6. Surname2013RedListExplanation===
*'''Название.''' Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
*'''Название.''' Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
-
*'''Проблема.''' Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
+
*'''Проблема.''' Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным and "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
*'''Данные.''' Expertные оценки краснокнижных видов.
*'''Данные.''' Expertные оценки краснокнижных видов.
*'''References:.''' References: по алгоритмам метрической классификации.
*'''References:.''' References: по алгоритмам метрической классификации.
Строка 5541: Строка 5541:
===Task 11. Surname2013Invaraint4LocalForecast ===
===Task 11. Surname2013Invaraint4LocalForecast ===
*'''Название.''' Инвариантные преобразования в Taskх локального прогнозирования.
*'''Название.''' Инвариантные преобразования в Taskх локального прогнозирования.
-
*'''Проблема.''' Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
+
*'''Проблема.''' Совместить алгоритмы инвариантного преобразования времени and амплитуды прогнозируемых временных рядов.
*'''Данные.''' Временные ряды измерения пульсовой волны.
*'''Данные.''' Временные ряды измерения пульсовой волны.
*'''References:.''' Найти, избежать тривиальных ссылок.
*'''References:.''' Найти, избежать тривиальных ссылок.
Строка 5547: Строка 5547:
===Task 8. Surname2013PlausibleExpert===
===Task 8. Surname2013PlausibleExpert===
*'''Название.''' Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
*'''Название.''' Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
-
*'''Проблема.''' Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
+
*'''Проблема.''' Исследование взаимосвязи биржевых цен на основные инструменты and железнодорожных грузоперевозок.
*'''Данные.''' Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
*'''Данные.''' Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
*'''References:.''' Публикации по CCM.
*'''References:.''' Публикации по CCM.
Строка 5554: Строка 5554:
=== Task 9. Surname2013DeepLearning===
=== Task 9. Surname2013DeepLearning===
*'''Название.''' Порождение нейронных сетей с Expertно-заданными функциями активации.
*'''Название.''' Порождение нейронных сетей с Expertно-заданными функциями активации.
-
*'''Проблема.''' Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
+
*'''Проблема.''' Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления and цен на электроэнергию.
*'''Данные.''' Посуточные данные за три года.
*'''Данные.''' Посуточные данные за три года.
*'''References:.''' Deep Learning.
*'''References:.''' Deep Learning.
-
*'''Предлагаемый алгоритм.''' Построение нейронной сети и оценка ее параметров.
+
*'''Предлагаемый алгоритм.''' Построение нейронной сети and оценка ее параметров.
===Task 16. Surname2013ScoringSelection===
===Task 16. Surname2013ScoringSelection===
-
*'''Название.''' Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
+
*'''Название.''' Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии.
-
*'''Проблема.''' С помощью генетического алгоритма найти информативные объекты и признаки.
+
*'''Проблема.''' С помощью генетического алгоритма найти информативные объекты and признаки.
*'''Данные.''' Данные по потребительским кредитам.
*'''Данные.''' Данные по потребительским кредитам.
*'''References:.''' -
*'''References:.''' -
Строка 5572: Строка 5572:
===Task 15. Surname2013InverseVAR===
===Task 15. Surname2013InverseVAR===
-
*'''Название.''' Векторная авторегрессия и управление макроэкономическими показателями.
+
*'''Название.''' Векторная авторегрессия and управление макроэкономическими показателями.
*'''Проблема.''' Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
*'''Проблема.''' Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
*'''Данные.''' Макроэкономические показатели России за последние 16 лет.
*'''Данные.''' Макроэкономические показатели России за последние 16 лет.
Строка 5587: Строка 5587:
===Task 13. Surname2013RhoNets===
===Task 13. Surname2013RhoNets===
*'''Название.''' Сравнение быстрых алгоритмов кластеризации.
*'''Название.''' Сравнение быстрых алгоритмов кластеризации.
-
*'''Проблема.''' Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
+
*'''Проблема.''' Сравнить алгоритм кластеризации с использованием $\rho$-сетей and быстрый алгоритм $k$-средних.
*'''Данные.''' Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
*'''Данные.''' Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
*'''References:.''' $k$-средних, $\varepsilon$-сети.
*'''References:.''' $k$-средних, $\varepsilon$-сети.
Строка 5601: Строка 5601:
===Task 1. Surname2013Txt2Bib===
===Task 1. Surname2013Txt2Bib===
*'''Название.''' Разметка библиографических записей с помощью логических алгоритмов.
*'''Название.''' Разметка библиографических записей с помощью логических алгоритмов.
-
*'''Проблема.''' Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
+
*'''Проблема.''' Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений and выбран адекватный алгоритм.
*'''Данные.''' В MLAlgorithms.
*'''Данные.''' В MLAlgorithms.
-
*'''References:.''' Работа А. Ивановой и все, что есть по теме за последние два года.
+
*'''References:.''' Работа А. Ивановой and все, что есть по теме за последние два года.
*'''Предлагаемый алгоритм.''' Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
*'''Предлагаемый алгоритм.''' Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
*'''Базовый алгоритм.''' Тупиковые покрытия.
*'''Базовый алгоритм.''' Тупиковые покрытия.
Строка 5628: Строка 5628:
! Кто делает
! Кто делает
|-
|-
-
|Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
+
|Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс and ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
|Митяшов Андрей
|Митяшов Андрей
|-
|-
Строка 5640: Строка 5640:
|Шубин Андрей
|Шубин Андрей
|-
|-
-
|Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
+
|Разобраться как работает web-соединение and regexp. Сделать поисковый запрос по теме and сверстать из нее запись BibTeX.
|
|
|-
|-
Строка 5646: Строка 5646:
|Воронов Сергей
|Воронов Сергей
|-
|-
-
|Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.
+
|Повернуть and увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.
|Антипова Наташа
|Антипова Наташа
|-
|-
Строка 5670: Строка 5670:
|
|
|-
|-
-
|Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.
+
|Создать несколько групп точек на плоскости and выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.
|Перекрестенко Дмитрий
|Перекрестенко Дмитрий
|-
|-
-
|Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту.
+
|Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить and проиграть определенную ноту.
|
|
|-
|-
Строка 5679: Строка 5679:
|Бырдин Александр
|Бырдин Александр
|-
|-
-
|Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие).
+
|Показать разницу в скорости выполнения матричных операций and операций в цикле. Показать эффективность параллельных вычислений (parfor and другие).
|Катруца Александр
|Катруца Александр
|-
|-
-
|Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией.
+
|Предложить варианты визуализации четырехмерных векторов and пространств. Сравнить их со встроенной функцией.
|
|
|-
|-
-
|Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.
+
|Сгладить временной ряд скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.
|Чинаев Николай
|Чинаев Николай
|-
|-
Строка 5712: Строка 5712:
|Опубликовано
|Опубликовано
|-
|-
-
|Иерархическая тематическая кластеризация тезисов и визуализация
+
|Иерархическая тематическая кластеризация тезисов and визуализация
|Кузьмин Арсентий
|Кузьмин Арсентий
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering]
|Опубликовано
|Опубликовано
|-
|-
-
|Совместный выбор объектов и признаков в Taskх многоклассовой классификации.
+
|Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
|Адуенко Александр
|Адуенко Александр
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection]
Строка 5732: Строка 5732:
|Принято
|Принято
|-
|-
-
|Статистические критерии однородности и согласия для сильно разреженных дискретных распределений
+
|Статистические критерии однородности and согласия для сильно разреженных дискретных распределений
|Целых Влада
|Целых Влада
|
|
Строка 5754: Строка 5754:
*'''Name:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
*'''Name:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
*'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
-
*'''Data:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
+
*'''Data:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы and число статей выбранных авторов в журналах.
*'''References:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
*'''References:''' [[Media:Voron-2008-11-10-cf.pdf|К.В.Воронцов «Коллаборативная фильтрация»]].
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
*'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
-
*'''Basic algorithm:''' Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
+
*'''Basic algorithm:''' Вычисленный IF журналов and h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
-
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
+
*'''Проблема:''' [[Media:Strijov2012SciRating.pdf‎|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов and журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
===2. 2012ExpertRanking===
===2. 2012ExpertRanking===
Строка 5766: Строка 5766:
*'''Data:''' Интернет-голосование за список книг, голосование без кооптации.
*'''Data:''' Интернет-голосование за список книг, голосование без кооптации.
*'''References:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
*'''References:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
-
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
+
*'''Предлагаемый алгоритм:''' Нахождение пересечения конусов and оценка эффективной размерности пространства или другой алгоритм.
-
*'''Basic algorithm:''' Медиана Кемени и другие алгоритмы.
+
*'''Basic algorithm:''' Медиана Кемени and другие алгоритмы.
-
*'''Проблема:''' Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
+
*'''Проблема:''' Требуется проиллюстрировать and изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
===3. 2012StructureRegression===
===3. 2012StructureRegression===
*'''Name:''' Выбор признаков в Taskх структурной регрессии
*'''Name:''' Выбор признаков в Taskх структурной регрессии
-
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
+
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
*'''Data:''' библиографические записи из BibTeX collection on CS.
*'''Data:''' библиографические записи из BibTeX collection on CS.
-
*'''References:''' работы Jaakkola и его команды, возможно, код.
+
*'''References:''' работы Jaakkola and его команды, возможно, код.
*'''Предлагаемый алгоритм:''' Структурная регрессия.
*'''Предлагаемый алгоритм:''' Структурная регрессия.
*'''Basic algorithm:''' описан Валентином.
*'''Basic algorithm:''' описан Валентином.
-
*'''Требуется:''' сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
+
*'''Требуется:''' сегментировать входной текст and поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
===4. 2012LogicClassification===
===4. 2012LogicClassification===
*'''Name:''' Построение логических правил при разметке текстов
*'''Name:''' Построение логических правил при разметке текстов
-
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
+
*'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
*'''Data:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
*'''Data:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
*'''References:''' работы Инякина, Чувилина, Кудинова.
*'''References:''' работы Инякина, Чувилина, Кудинова.
Строка 5789: Строка 5789:
=== 5. 2012RankClustering ===
=== 5. 2012RankClustering ===
-
* '''Name:''' Ранговая кластеризация и алгоритмы динамического выравнивания.
+
* '''Name:''' Ранговая кластеризация and алгоритмы динамического выравнивания.
* '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
* '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
-
* '''Data:''' Испорченные и некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
+
* '''Data:''' Испорченные and некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
* '''References:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
* '''References:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
* '''Ключевые слова:''' DTW — модификации, k-Means.
* '''Ключевые слова:''' DTW — модификации, k-Means.
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
* '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
-
* '''Basic algorithm:''' k-Means и его высокопроизводительные вариации.
+
* '''Basic algorithm:''' k-Means and его высокопроизводительные вариации.
-
* '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
+
* '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать and учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
===6. 2012ThematicClustering===
===6. 2012ThematicClustering===
Строка 5802: Строка 5802:
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
*'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
*'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
*'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
-
*'''References:''' по кластеризации, и введению расстояний между текстами как мешками слов.
+
*'''References:''' по кластеризации, and введению расстояний между текстами как мешками слов.
*'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
*'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
*'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
*'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
*'''Basic algorithm:''' k-Means
*'''Basic algorithm:''' k-Means
-
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
+
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
===7. 2012ThematicHierarchy===
===7. 2012ThematicHierarchy===
Строка 5829: Строка 5829:
** корректировки названий тем/подтем конференции,
** корректировки названий тем/подтем конференции,
** переносе тезиса из одной темы в другую,
** переносе тезиса из одной темы в другую,
-
** адекватности соответствия модельной и фактический кластеризации.
+
** адекватности соответствия модельной and фактический кластеризации.
===9. 2012CovSelection===
===9. 2012CovSelection===
-
*'''Name:''' Совместный выбор объектов и признаков в Taskх многоклассовой классификации.
+
*'''Name:''' Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
*'''Тизер:''' Ранжирование поисковых выдач Яндекса.
*'''Тизер:''' Ранжирование поисковых выдач Яндекса.
*'''Data:''' Яндекс – математика.
*'''Data:''' Яндекс – математика.
Строка 5839: Строка 5839:
*'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
*'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
*'''Basic algorithm:''' SVM.
*'''Basic algorithm:''' SVM.
-
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
+
*'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что and данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
===10. 2012ThematicMatching===
===10. 2012ThematicMatching===
Строка 5845: Строка 5845:
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
*'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
*'''Data:''' Авторефераты диссертаций (SugarSync). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
*'''Data:''' Авторефераты диссертаций (SugarSync). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
-
*'''References:''' (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
+
*'''References:''' (Статья С. Царькова «Морфологические and статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
-
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
+
*'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические and статистические признаки.
*'''Предлагаемый алгоритм:'''
*'''Предлагаемый алгоритм:'''
-
*'''Basic algorithm:''' C-Value и TF-IDF.
+
*'''Basic algorithm:''' C-Value and TF-IDF.
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
*'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
*'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
*'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
Строка 5856: Строка 5856:
===11. 2012FeatureGen===
===11. 2012FeatureGen===
-
*'''Name:''' Последовательное порождение и выбор признаков в задаче многоклассовой классификации
+
*'''Name:''' Последовательное порождение and выбор признаков в задаче многоклассовой классификации
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
*'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
*'''Data:''' синтетические, интернет-коллекция.
*'''Data:''' синтетические, интернет-коллекция.
Строка 5876: Строка 5876:
===Темы К.В. Воронцова===
===Темы К.В. Воронцова===
-
* '''2012SparceDistribution''' Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)
+
* '''2012SparceDistribution''' Статистические критерии однородности and согласия для сильно разреженных дискретных распределений (В.Ц.)
=== 2012LatentModels===
=== 2012LatentModels===
Строка 5886: Строка 5886:
*'''Предлагаемый алгоритм:''' hHDP.
*'''Предлагаемый алгоритм:''' hHDP.
*'''Basic algorithm:''' HDP.
*'''Basic algorithm:''' HDP.
-
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.
+
*'''Проблема:''' Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
== Ссылки ==
== Ссылки ==
Строка 5897: Строка 5897:
==Публикация работ==
==Публикация работ==
-
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).
+
Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов and редактора учтены) >> Опубликовано (вышел номер).
{|class="wikitable"
{|class="wikitable"
|-
|-
Строка 5907: Строка 5907:
! State
! State
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков и оптимизация метрики при кластеризации коллекции документов]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков and оптимизация метрики при кластеризации коллекции документов]
-
|Адуенко А.А., Кузьмин А.А., Стрижов В.В.
+
|Адуенко А.А., Кузьмин А.А., Strizhov V.V.
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
Строка 5915: Строка 5915:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов]
-
|Будников Е.А., Стрижов В.В.
+
|Будников Е.А., Strizhov V.V.
|[http://novtex.ru/IT/ Информационные технологии]
|[http://novtex.ru/IT/ Информационные технологии]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
Строка 5922: Строка 5922:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов]
-
|Кузьмин А.А., Стрижов В.В.
+
|Кузьмин А.А., Strizhov V.V.
|[http://novtex.ru/pi.html Программная инженерия]
|[http://novtex.ru/pi.html Программная инженерия]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
Строка 5929: Строка 5929:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов]
-
|Адуенко А.А., Стрижов В.В.
+
|Адуенко А.А., Strizhov V.V.
|[http://novtex.ru/pi.html Программная инженерия]
|[http://novtex.ru/pi.html Программная инженерия]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
Строка 5936: Строка 5936:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами]
-
|Адуенко А.А., Стрижов В.В.
+
|Адуенко А.А., Strizhov V.V.
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
Строка 5943: Строка 5943:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации]
-
|Медведникова М.М., Стрижов В.В.
+
|Медведникова М.М., Strizhov V.V.
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
|[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
Строка 5949: Строка 5949:
|Опубликовано
|Опубликовано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов и признаков в Taskх многоклассовой классификации коллекции документов]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов]
-
|Адуенко А.А., Стрижов В.В.
+
|Адуенко А.А., Strizhov V.V.
| [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
| [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
Строка 5957: Строка 5957:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов]
-
|Иванова А.В., Адуенко А.А., Стрижов В.В.
+
|Иванова А.В., Адуенко А.А., Strizhov V.V.
|[http://novtex.ru/pi.html Программная инженерия]
|[http://novtex.ru/pi.html Программная инженерия]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
Строка 5964: Строка 5964:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов]
-
|Цыганова С.В., Стрижов В.В.
+
|Цыганова С.В., Strizhov V.V.
|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
Строка 5971: Строка 5971:
|-
|-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения]
-
|Варфоломеева А.А., Стрижов В.В.
+
|Варфоломеева А.А., Strizhov V.V.
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
Строка 5977: Строка 5977:
|Отрецензировано
|Отрецензировано
|-
|-
-
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании]
+
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании]
|Целых В.Р., Воронцов К.В.
|Целых В.Р., Воронцов К.В.
-
|[http://jmlda.org Машинное обучение и анализ данных]
+
|[http://jmlda.org Машинное обучение and анализ данных]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
|17.12.2012
|17.12.2012
Строка 5994: Строка 5994:
== Список принятых к публикации работ ==
== Список принятых к публикации работ ==
* 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
* 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
-
* 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
+
* 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков and оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
* 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
* 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
* 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
* 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
* 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
* 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
* 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
* 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
-
* 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
+
* 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
* 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
* 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
* 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
* 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
* 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
* 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
-
* 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
+
* 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]
Строка 6053: Строка 6053:
|[r]сaipvdstj.(10)
|[r]сaipvdstj.(10)
|-
|-
-
|Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии (пример)
+
|Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии (пример)
|Степан Лобастов
|Степан Лобастов
|Егор Клочков
|Егор Клочков
Строка 6065: Строка 6065:
|[r]сaipvdstjr(10)
|[r]сaipvdstjr(10)
|-
|-
-
|Полиномы Чебышева и прогнозирование временных рядов
+
|Полиномы Чебышева and прогнозирование временных рядов
|Валерия Бочкарева
|Валерия Бочкарева
|Степан Лобастов
|Степан Лобастов
Строка 6071: Строка 6071:
|[.]сaipvdst-r(9)
|[.]сaipvdst-r(9)
|-
|-
-
|Кластеризация и составление словаря аминокислотных последовательностей
+
|Кластеризация and составление словаря аминокислотных последовательностей
|Татьяна Шпакова
|Татьяна Шпакова
|Влада Целых
|Влада Целых
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shpakova2012Clustering/ Shpakova2012Clustering]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shpakova2012Clustering/ Shpakova2012Clustering]
-
|[.]сaipvdst..(9)
+
|[.]сaipvdst.(9)
|-
|-
-
|Векторная авторегрессия и управление макроэкономическими показателями
+
|Векторная авторегрессия and управление макроэкономическими показателями
|Александр Шульга
|Александр Шульга
|
|
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shulga2012VAR Shulga2012VAR]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shulga2012VAR Shulga2012VAR]
-
|[.]сaipvds...(9)
+
|[.]сaipvds..(9)
|-
|-
|Аппроксимация эмпирических функций распределения
|Аппроксимация эмпирических функций распределения
Строка 6087: Строка 6087:
|Александр Адуенко
|Александр Адуенко
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012ApproximateFunc/ Ivanova2012 ApproximateFunc]
|[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012ApproximateFunc/ Ivanova2012 ApproximateFunc]
-
|[r]сaipvd....(9)
+
|[r]сaipvd..(9)
|-
|-
|}
|}
== Аннотации ==
== Аннотации ==
-
=== Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии ===
+
=== Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии ===
-
Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [http://math.tntech.edu/machida/MSD/lecture7.pdf] и кредитном скроллинге. В реальных условиях число признаков обычно велико, и важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.
+
Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [http://math.tntech.edu/machida/MSD/lecture7.pdf] and кредитном скроллинге. В реальных условиях число признаков обычно велико, and важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.
Ключевые слова: logit model, feature selection, boosting.
Ключевые слова: logit model, feature selection, boosting.
Строка 6113: Строка 6113:
== Черновой список задач ==
== Черновой список задач ==
-
# Кластеризация и составление словаря аминокислотных последовательностей
+
# Кластеризация and составление словаря аминокислотных последовательностей
# Oblivious decision trees: алгоритм Яндекс для системы Полигон
# Oblivious decision trees: алгоритм Яндекс для системы Полигон
# Сравнительный анализ регрессионных остатков в SVN-регрессии
# Сравнительный анализ регрессионных остатков в SVN-регрессии
Строка 6120: Строка 6120:
# Многоуровневая классификация при обнаружении движения цен
# Многоуровневая классификация при обнаружении движения цен
# CMARS: аппроксимация сплайнами
# CMARS: аппроксимация сплайнами
-
# Полиномы Чебышева и метод прогонки при прогнозировании временных рядов
+
# Полиномы Чебышева and метод прогонки при прогнозировании временных рядов
-
# Сравнение методов ARMA и FLS при ретроспективном прогнозировании
+
# Сравнение методов ARMA and FLS при ретроспективном прогнозировании
# Локальные методы прогнозирования с выбором метрики
# Локальные методы прогнозирования с выбором метрики
# Локальные методы прогнозирования с выбором инвариантного преобразования
# Локальные методы прогнозирования с выбором инвариантного преобразования
-
# Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии
+
# Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
-
# Векторная авторегрессия и управление макроэкономическими показателями
+
# Векторная авторегрессия and управление макроэкономическими показателями
# Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников
# Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников
Строка 6132: Строка 6132:
# Аппроксимация эмпирических функций распределения
# Аппроксимация эмпирических функций распределения
# Алгоритмические основы построения банковских скоринговых карт
# Алгоритмические основы построения банковских скоринговых карт
-
# Сингулярное разложение и поисковая машина
+
# Сингулярное разложение and поисковая машина
# Сравнение алгоритмов многокритериальной оптимизации
# Сравнение алгоритмов многокритериальной оптимизации
# Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
# Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
Строка 6142: Строка 6142:
# Фактор Оккама для параметрических моделей с известной областью определения параметров
# Фактор Оккама для параметрических моделей с известной областью определения параметров
# Создание алгоритмов последовательной модификации моделей
# Создание алгоритмов последовательной модификации моделей
-
# Порождение и выбор моделей классификации
+
# Порождение and выбор моделей классификации
-
== И еще задачи ==
+
== and еще задачи ==
-
* Функция расстояния между формулами и поиск.
+
* Функция расстояния между формулами and поиск.
* Поиск объектов (техническая работа).
* Поиск объектов (техническая работа).
Строка 6179: Строка 6179:
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]]
* [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]]
-
* [[Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация и стандартизация научных исследований]]
+
* [[Автоматизация and стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация and стандартизация научных исследований]]
== Задачи ==
== Задачи ==
Строка 6190: Строка 6190:
! Комментарии
! Комментарии
|-
|-
-
| Устойчивость и сходимость оценок гиперпараметров линейных регрессионных моделей (пример)|Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых и коррелирующих признаков
+
| Устойчивость and сходимость оценок гиперпараметров линейных регрессионных моделей (пример)|Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых and коррелирующих признаков
| Токмакова Александра
| Токмакова Александра
| Мотренко Анастасия
| Мотренко Анастасия
Строка 6196: Строка 6196:
|
|
|-
|-
-
| Выбор моделей прогнозирования объемов потребления и цен электроэнергии (пример)|Выбор моделей прогнозирования цен на электроэнергию
+
| Выбор моделей прогнозирования объемов потребления and цен электроэнергии (пример)|Выбор моделей прогнозирования цен на электроэнергию
| Леонтьева Любовь
| Леонтьева Любовь
| Гребенников Евгений
| Гребенников Евгений
Строка 6202: Строка 6202:
|
|
|-
|-
-
| Многоклассовый прогноз вероятности наступления инфаркта и оценка необходимого объема выборки пациентов (пример)
+
| Многоклассовый прогноз вероятности наступления инфаркта and оценка необходимого объема выборки пациентов (пример)
| Мотренко Анастасия
| Мотренко Анастасия
| Токмакова Александра
| Токмакова Александра
Строка 6214: Строка 6214:
|
|
|-
|-
-
| Событийное моделирование и прогноз цен на сахар|Событийное моделирование и прогноз финансовых временных рядов
+
| Событийное моделирование and прогноз цен на сахар|Событийное моделирование and прогноз финансовых временных рядов
| Александр Романенко
| Александр Романенко
| Егор Будников
| Егор Будников
Строка 6232: Строка 6232:
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
* [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]]
* [[Отчет о выполнении исследовательского проекта (практика, В.В. Стрижов)|Отчет о выполнении исследовательского проекта]]
-
* [[Автоматизация и стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация и стандартизация научных исследований]]
+
* [[Автоматизация and стандартизация научных исследований (практика, В.В. Стрижов)|Автоматизация and стандартизация научных исследований]]
См. также
См. также
Строка 6258: Строка 6258:
| Опубл. в JMLDA
| Опубл. в JMLDA
|-
|-
-
| [[Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)]]
+
| [[Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)]]
| Любовь Леонтьева
| Любовь Леонтьева
| Михаил Бурмистров
| Михаил Бурмистров
Строка 6294: Строка 6294:
=== Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров ===
=== Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров ===
В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода
В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода
-
состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра и наложенного шума.
+
состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра and наложенного шума.
-
=== Task 2: Экспоненциальное сглаживание и прогноз ===
+
=== Task 2: Экспоненциальное сглаживание and прогноз ===
В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.
В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.
=== Task 3: [[Выделение периодической компоненты временного ряда (пример)]] ===
=== Task 3: [[Выделение периодической компоненты временного ряда (пример)]] ===
-
В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции и метода наименьших квадратов на зашумлённом модельном синусе и реальном временном ряде электрокардиограммы.
+
В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции and метода наименьших квадратов на зашумлённом модельном синусе and реальном временном ряде электрокардиограммы.
-
===Task 4: Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда) (пример)===
+
===Task 4: Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда) (пример)===
-
В работе описывается метод гусеницы и его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент и последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы и числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.
+
В работе описывается метод гусеницы and его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент and последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы and числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.
===Task 5: [[Прогнозирование функциями дискретного аргумента (пример)]] ===
===Task 5: [[Прогнозирование функциями дискретного аргумента (пример)]] ===
Строка 6329: Строка 6329:
«ближайшего соседа»).
«ближайшего соседа»).
-
Пусть имеется временной ряд, и стоит Task продолжить его. Предполагается, что такое продолжение определяется
+
Пусть имеется временной ряд, and стоит Task продолжить его. Предполагается, что такое продолжение определяется
предысторией, т.е. в ряде нужно найти часть, которая после
предысторией, т.е. в ряде нужно найти часть, которая после
-
некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков
+
некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A and есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков
временного ряда (подробнее об этом см. [http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%2C%D0%BF%D0%BE%D0%B8%D1%81%D0%BA_%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29&action=edit здесь]). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько
временного ряда (подробнее об этом см. [http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%2C%D0%BF%D0%BE%D0%B8%D1%81%D0%BA_%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29&action=edit здесь]). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько
ближайших соседей. Продолжение запишется в виде их линейной комбинации.
ближайших соседей. Продолжение запишется в виде их линейной комбинации.
Строка 6337: Строка 6337:
=== Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример) ===
=== Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример) ===
-
[[временной ряд|Временным рядом]] называется последовательность упорядоченных по времени значений некоторой вещественной переменной <tex>$\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$</tex>. Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей и его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах.
+
[[временной ряд|Временным рядом]] называется последовательность упорядоченных по времени значений некоторой вещественной переменной <tex>$\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$</tex>. Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей and его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине and других сферах.
-
Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности и транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".
+
Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности and транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".
=== Task 10: Выбор функции активации при прогнозировании нейронными сетями===
=== Task 10: Выбор функции активации при прогнозировании нейронными сетями===
-
Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- и многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.
+
Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- and многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.
-
Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа и параметров функции активации.
+
Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа and параметров функции активации.
===Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью===
===Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью===
Строка 6351: Строка 6351:
Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы
Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы
оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной
оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной
-
суммы текущего и предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана.
+
суммы текущего and предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана.
Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной,
Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной,
-
гиперболического тангенса), от числа нейронов в промежуточном слое и от ширины скользящего окна.
+
гиперболического тангенса), от числа нейронов в промежуточном слое and от ширины скользящего окна.
Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.
Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.
-
===Task 13: [[Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)]]===
+
===Task 13: [[Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)]]===
-
Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки и сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся и периодических до шумовых), и, наконец, восстановление ряда.
+
Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки and сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся and периодических до шумовых), и, наконец, восстановление ряда.
-
Областью применения алгоритма являются задачи как метеорологии и геофизики, так и экономики и медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.
+
Областью применения алгоритма являются задачи как метеорологии and геофизики, так and экономики and медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.
===Task 14: Использование теста Гренджера при прогнозировании временных рядов===
===Task 14: Использование теста Гренджера при прогнозировании временных рядов===
-
При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений).
+
При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений and явлений природного характера (например, землятрясений).
Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.
Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.
-
===Task 15: Прогнозирование и аппроксимация сплайнами===
+
===Task 15: Прогнозирование and аппроксимация сплайнами===
Описание.
Описание.
-
===Task 16: ARIMA и GARCH при прогнозировании высоковолатильных рядов ===
+
===Task 16: ARIMA and GARCH при прогнозировании высоковолатильных рядов ===
Описание.
Описание.
-
===Task 17: Прогнозирование и SVN–регрессия ===
+
===Task 17: Прогнозирование and SVN–регрессия ===
Описание.
Описание.
-
== Доклады и экзамен (возможны уточнения) ==
+
== Доклады and экзамен (возможны уточнения) ==
* Доклад-1 6 апреля
* Доклад-1 6 апреля
* Контрольная точка 12 мая
* Контрольная точка 12 мая
Строка 6385: Строка 6385:
# Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
# Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
-
# Прогнозирование и экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
+
# Прогнозирование and экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
# Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
# Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
-
# Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда)
+
# Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда)
# Многомерная гусеница, выбор временных рядов при прогнозировании
# Многомерная гусеница, выбор временных рядов при прогнозировании
# Многомерная авторегрессия
# Многомерная авторегрессия
Строка 6398: Строка 6398:
# Прогнозирование функциями дискретного аргумента
# Прогнозирование функциями дискретного аргумента
# Использование теста Гренджера при прогнозировании временных рядов
# Использование теста Гренджера при прогнозировании временных рядов
-
# Прогнозирование и SVN – регрессия
+
# Прогнозирование and SVN – регрессия
-
# ARIMA и GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
+
# ARIMA and GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
-
# Прогнозирование и аппроксимация сплайнами
+
# Прогнозирование and аппроксимация сплайнами
# Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты
# Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты

Версия 21:05, 9 февраля 2023

Шаблон:Main article

Содержание

2021

Author Topic Links Consultant Letters Reviewer
Grebenkova Olga (example) Variational optimization of deep learning models with model complexity control LinkReview

GitHub Paper Slides Video

Oleg Bakhteev AILP+UXBR+HCV+TEDWSS Shokorov Vyacheslav

Review

Pilkevich Anton Existence conditions for hidden feedback loops in recommender systems GitHub

LinkReview Paper Slides Video

Khritankov Anton AILB*P-X+R-B-H1CVO*T-EM*H1WJSF Gorpinich Maria

Review

Antonina Kurdyukova| Determining the phase and disorder of human movement based on the signals of wearable devices LinkReview

GitHub Paper Slides Video

Georgy Kormakov AILB*PXBRH1CVO*TEM*WJSF Pilkevich Anton

Review

Yakovlev Konstantin A differentiable search algorithm for model architecture with control over its complexity LinkReview

GitHub Paper Slides Video

Grebenkova Olga AILB*PXBRH1CVO*TEM*WJSF Pyrau Vitaly

Review

Gorpinich Maria Trajectory Regularization of Deep Learning Model Parameters Optimization Based on Knowledge Distillation LinkReview

GitHub Paper Slides Video

Oleg Bakhteev AILB*P+XBRC+VH1O*TEM*WJSF Kulakov Yaroslav

Review

Alexandr Tolmachev Analysis of the QPFS Feature Selection Method for Generalized Linear Models LinkReview

GitHub Paper Slides Video

Aduenko Alexander AILB*PXB-R-H1CVO*TEM*WJSF Antonina Kurdyukova

Review

Kulakov Yaroslav BCI: Selection of consistent models for building a neural interface LinkReview

GitHub Paper Slides Video

Isachenko Roman AILB*PXBRH1CVO*TEM*WJ0SF Zverev Egor

Review

Pyrau Vitaly Experimental comparison of several problems of operational planning of biochemical production. LinkReview

GitHub Paper Slides Video

Trenin Sergey Alekseevich AILB*PXBRH1CVO*TEM*WJSF Yakovlev Konstantin

Review

Bazhenov Andrey Search for the boundaries of the iris by the method of circular projections LinkReview

GitHub Paper Slides Video

Matveev Ivan Alekseevich AILB*PXB0RH1CVO*TEM*WJ0SF
Zverev Egor Learning co-evolution information with natural language processing for protein folding problem LinkReview

GitHub Paper Slides Video

Sergei Grudinin, Ilya Igashov AILB*PXBRH1CVO*TEM*WJSF Alexandr Tolmachev

Review

Gorchakov Vyacheslav Importance Sampling for Chance Constrained Optimization LinkReview

Github Paper Video

Yuri Maksimov AILB*PX0B0R0H1C0V0O*0T0E0M*0W0JS0F Bazhenov Andrey

Review

Lindemann Nikita Training with an expert for a sample with many domains LinkReview

Github Paper Slides

Andrey Grabovoi AILPXBRH1C0V0O*TE0M*0W0J0SF0

Task 74

  • Name: Existence conditions for hidden feedback loops in recommender systems
  • Problem description: В рекомендательных системах известен эффект искусственного непреднамеренного ограничения выбора пользователя вследствие адаптации модели к его предпочтениям (echo chamber/filter bubble). Эффект является частным случаем петель скрытой обратной связи (hidden feedback loop). (см. - Analysis H.F.L.). Выражается в том, что путем рекомендации одних and тех же интересных пользователю объектов, алгоритм максимизирует качество своей работы. Проблема в а) недостаточном разнообразии б) насыщении / изменчивости интересов пользователя.
  • Task: Понятно, что алгоритм не знает интересов пользователя and пользователь не всегда честен в выборе. При каких условиях, каких свойствах алгоритма обучения and нечестности (отклонении выбора пользователя от его интересов) будет наблюдаться указанный эффект? Уточнение. Рекомендательный алгоритм выдает пользователю объекты a_t на выбор. Пользователь выбирает один из них c_t из Бернулли от модели интереса mu(a_t) . На основе выбора пользователя алгоритм изменяет свое внутреннее состояние w_t and выдает следующий набор объектов пользователю. На бесконечном горизонте нужно максимизировать суммарное вознаграждение sum c_t. Найти условия существования неограниченного роста интереса пользователя к предлагаемым объектам в рекомендательной системе с алгоритмом Thomson Sampling (TS) MAB в условиях зашумленности выбора пользователя c_t. Без шума известно, что всегда неограниченный рост (в модели) [1].
  • Data: создаются в рамках эксперимента (имитационная модель) по аналогии со статьей [1], внешние данные не требуются.
  • References:
    1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
    2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
    3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
  • Basic algorithm: Исходная математическая модель исследуемого явления описана в статье [1]. Метод экспериментального исследования - в статье [2]. Базовый исходный код доступен в [3]
  • Solution: Нужно вывести условия существования положительной обратной связи для алгоритма Thomson Sampling Multi-armed Bandit исходя из известных теоретических свойств этого алгоритма. Затем проверить их выполнение в имитационной модели. Для проверки выполняется серия экспериментов с исследованием диапазонов параметров and оценкой ошибки (variance) моделирования. Результаты сопоставляются с построенной ранее математической моделью эффекта. Есть реализация системы проведения эксперимента, которую можно доработать для данной задачи.
  • Novelty: Исследуемый эффект положительной обратной связи наблюдается в реальных and модельных системах and описан во многих публикациях как нежелательное явление. Есть его модель для ограниченного случая отсутствия шума в действиях пользователя, что не реализуется на практике. В предлагаемых условиях Task ранее не ставилась and не решалась для рекомендательных систем. Для задачи регрессии решение известно.
  • Authors: Expert, consultant - Anton Khritankov

Task 77

  • Name: Определение фазы and разладки движения человека по сигналам носимых устройств
  • Task: Исследуется широкий класс периодических движений человека или животного. Требуется найти начало and конец движения. Требуется понять, когда заканчивается один тип движения and начинается другой. Для этого решается Task сегментации временных рядов. Строится фазовая траектория одного движения and отыскивается его фактическая размерность. Цель работы в том, что надо описать способ нахождения минимальной размерности фазового пространства. По повторению фазовой сегментировать периодические действия человека. Надо также предложить метод извлечения нулевой фазы в данном пространстве для конкретного действия. Бонус: найти разладку фазовой траектории and указать на смену типа движения. Бонус 2: сделать это для различных положений телефона, предложив модели инвариантных преобразований.
  • Data: 
Данные состоят из считанных с трехосевого акселерометра временных рядов с явно выделенным периодичным классом (ходьба, бег, шаги вверх and вниз по лестнице and т.п.). Возможно получение собственных данных с мобильного устройства, либо получение модельных данных из датасета UCI HAR
  • References:
    1. A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476
1.(Сегментация временных рядов с периодическими действиями: решалась Task сегментации с использованием фазового пространства фиксированной размерности.) PDFURL
    2. A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14.
( Классификация человеческой активности с помощью сегментации временных рядов
: исследовались классификаторы над получаемыми сегментами.) PDFURL
    3. Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты
: исследовались методы сегментации с использованием анализа главных компонент and перехода в фазовое пространство.) Text Slides DOI
  • Basic algorithm: 
Базовый алгоритм описан в 1 and 3 работах, код тут, код работы 3 у автора.
  • Solution: 
Предлагается рассмотреть различные алгоритмы понижения размерности and сравнить различные пространства, в которых строится фазовая траектория. Разработать алгоритм поиска минимальной размерности фазового пространства, в котором фазовая траектория не имеет самопересечений с точностью до стандартного отклонения восстановленной траектории.
  • Novelty: 
В статье Мотренко размерность пространства равна двум. Этот недочет надо обязательно исправить. Фазовая траетория не должна самопересекаться. А если мы сможем отличить один тип движения от другого внутри одного периода (перешли с бега на шаг and в течение полутора шагов это поняли) - вообще будет замечательно.
  • Authors: 
consultants: Kormakov G.V., Tikhonov D.M., Expert Strizhov V.V.

Task 78

  • Name: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
  • Task: Задачи оптимизации с вероятностными ограничениями часто встречаются в инженерной практике. Например, Task минимизации генерации энергии в энергетических сетях, со (случайным образом флуктуирующими) возобновляемыми источниками энергии. При этом необходимо выполнение ограничений безопасности: напряжения у генераторов and потребителей, а также токи на линиях должны быть меньше определенных порогов. Вместе с тем, даже в самых простых ситуациях Task не может быть разрешена точно. Самый известный подход, это методы chance constrained optimization, которые часто дают неплохое приближение. Альтернативный подход – семплирование режимов работы сети and решения задачи на наборе данных задачи классификации: отделение плохих режимов от хороших с заданной ошибкой второго рода. Вместе с тем, для достаточно точного решения, требуются очень большой объем данных, что часто делает задачу численно не эффективной. Мы предлагаем использовать “семплирование по важности” (importance sampling) для уменьшения числа сценариев. Семплирование по важности состоит из подмены выборки из номинального решения, которое часто не несет информации так как все плохие события очень редки, на синтетическое распределение, которое семплирует выборку в окрестности плохих событий.            
  • Problem statement: найти минимум выпуклой функции (цены) при вероятностных ограничениях (вероятность превысить определенный порог для системы линейных/квадратичных функций мала) and численно показать эффективность применения семплирования в этой задаче.
  • Data: Данные доступны в пакетах pypower and matpower в виде csv файлов.
  • References: Основу предлагаемых алгоритмов составляют 3 статьи:
    1. Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
    2. A. Nemirovski. On safe tractable approximations of chance constraints [1]
    3. S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
    4. Кроме того у авторов задачи есть черновик статьи, в который нужно добавить численную часть.
  • Basic algorithm: Список базовых алгоритмов представлен в этой лекции [2]
  • Solution: в численных экспериментах нужно сравнить требования по размеру выборки для стандартных методов (scenario approximation) and с использованием семплирования по важности для получения сравнимого по качеству решение (и обратная Task, имея равные длины выборки сравнить качество решения)           
  • Novelty: Task давно известна в коммьюнити and scenario approximation один из основных методов. Вместе с тем importance sampling помогает существенно снизить число сценариев. Мы недавно получили ряд интересных результатов, как вычислять оптимальные семплеры, с их использованием сложность задачи существенно снизится
  • Authors: Expert – Yuri Maksimov, consultant – Yuri Maksimov and Alexander Lukashevich, student.

Task 79

  • Name: Improving Bayesian Inference in Physics Informed Machine Learning
  • Task: Методы машинного обучения в настоящий момент широко применяются в физике, в частности при решении задач турбулентности или анализа устойчивости физических сетей. Вместе с тем ключевым вопросом является какие режимы выбирать для обучения моделей. Частый выбор – последовательности точек, равномерно покрывающие допустимое множество. Однако, часто такие последовательности мало информативны, особенно в случае, если аналитические методы дают область, где система гарантированно устойчива. В задаче предлагается несколько методов семплирования: позволяющих учесть эту информацию. Нашей целью является их сравнить and найти тот, который требует минимального размера выборки (эмпирическое сравнение).
  • Data: Эксперимент предлагается провести на модельных and реальных данных. Модельный эксперимент состоит в анализе устойчивости (слегка нелинейных) дифференциальных уравнений (синтетические данные генерируются самостоятельно). Второй эксперимент состоит в анализе устойчивости энергетических систем (данные matpower, pypower, GridDyn).
  • References:
    1. Art Owen. Quasi Monte Carlo Sampling. LINK 
    2. Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [3]
    3. A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [4]
    4. Polson and Solokov. Deep Learning: A Bayesian Perspective [5]
    5. Кроме того: у авторов задачи есть черновик работы по этой теме
  • Basic algorithm: Базовый алгоритм, который мы улучшаем, это Quasi Monte Carlo (QMC, [6]). Task построить последовательности с низким разбросом (low discrepancy sequence) не покрывающее полиэдральную область and область, данную пересечением квадратичных ограничений. Еще один алгоритм, с которым нам потребуется сравнение:

E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [7]

  • Solution: методы семплирования по важности, в частности расширение подхода (Boy, Ryi, 2014) and (Owen, Maximov, Chertkov, 2017) and их приложения к ML/DL для физических задач
  • Novelty: в существенном снижении сложности выборки and явном использовании имеющихся and аналитических результатов and лернинга для решения физических задач, до этого ML подходы and аналитические решения шли по большей части параллельными курсами
  • Authors: Expert Yuri Maksimov, consultant Yuri Maksimov and Alexander Lukashevich, student.

 

Task 81

  • Name: NAS — Порождение and выбор архитектур нейронных сетей
  • Task: Task выбора оптимальной архитектуры нейросети ставится как Task семплирования вектора структурных параметров. Критерий оптимальности определяется в терминах точности, сложности and устойчивости модели. Сама процедура семплирования состоит из двух шагов: порождение новой структуры and отклонение этой структуры, если она не удовлетворяет критерию оптимальности. Предлагается исследовать различные способы семплирования. Постановка задачи выбора оптимальной структуры описана в работе Potanin-1
  • Data: : В качестве данных предлагается два отдельных множества. Первое – состоит из одного элемента, это популярный датасет MNIST. Плюсы – является сильным and общепринятым бейзлайном, использовался как бенчмарк для статьи WANN, довольно большой (многоклассовая классификация). Второе множество – набор датасетов для задачи регрессии. Размер варьируется от совсем маленького до довольно большого. Вот ссылка на датасет and ноутбук для загрузки данных данные.
  • References:
    1. Potanin - 1
    2. Potanin - 2. Еще одна работа, текст передается заинтересованному studentу, но без публикации.
    3. Стрижов завлаб Функция ошибки
    4. Informtica
    5. WANN
    6. DARTS
    7. Symbols
    8. NEAT
  • Basic algorithm: Ближайшая по теме работа, and ее код реализации. Актуальный код от consultantа.
  • Solution: Сейчас уже выполнен ряд экспериментов, где семплирования производится генетическим алгоритмом. Получены приемлемые результаты. Предлагается их проанализировать and улучшить. А именно, выделить два модуля: порождение and отклонение and сравнить несколько видов семплирования. Базовый — Importance sampling, желанный — Metropolis-Hastings (или даже Metropolis-Langevin) sampling. Так как генетический алгоритм рассматривается нами как процесс со скачками, то предлагается учесть это при проектировании процедуры семплирования. Бонус MH в том, что он имеет байесовскую интерпретацию. Первый уровень байесовского вывода применительно к MH описан в работе [Informatica]. Требуется либо переписать его в терминах распределения структурных параметров, либо вообще расписать оба уровня, вынеся структурные параметры во второй уровень (кстати, примерно то же будет в задаче Адуенко).
  • Novelty: Нейронные сети отлично справляются с Taskми компьютерного зрения, обучения с подкреплением and обработки естественного языка. Одна из главных целей нейросетей -хорошо выполнять задачи, которые в настоящее время решаются исключительно человеком, то есть природными нейронными сетями людей. Искусственные нейросети по-прежнему работают совсем не так, как естественные нейронные сети. Одно из основных различий заключается в том, что естественные нейронные сети со временем развиваются, меняя силу связей and свою архитектуру. Искусственные нейронные сети могут регулировать силу соединений с помощью весов, но не могут изменять свою архитектуру. Поэтому Task выбора оптимальных структур нейросетей под конкретные задачи представляется важным шагом в развитии способностей нейросетевых моделей.
  • Authors: consultant Mark Potanin, Expert Strizhov V.V.

Task 82

  • Name: Training with an Expert for a sample with many domains.
  • Task: Рассматривается Task аппроксимации multi-domain выборки единой мультимоделью — смесью Expertов. В качестве данных предполагается использовать выборку, которая содержит в себе несколько доменов. Метка домена для каждого объекта отсутствует. Каждый домен аппроксимируется локальной моделью. В работе рассматривается двухэтапная Task оптимизации на основе ЕМ-алгоритма.
  • Data: В качестве данных используются выборки отзывов сайта Amazon для разных типов товара. В качестве локальной модели предполагается использовать линейную модель, а в качестве признакового описания отзывов использовать tf-idf вектора внутри каждого домена.
  • References:
    1. https://arxiv.org/pdf/1806.00258.pdf
    2. http://www.mysmu.edu/faculty/jingjiang/papers/da_survey.pdf
    3. https://dl.acm.org/doi/pdf/10.1145/3400066
  • Basic algorithm and Solution: Базовое решение представлено тут. В работе используется метод смеси Expertов для задачи Multi-Soruce domain adaptation задачи. Код к статье доступен по ссылке.
  • Novelty: На текущий момент в машинном обучении появляется все больше задач связанных с данными, которые взяты с разных источников. В данном случае появляются выборки, которые состоят из большого количества доменов. На текущий момент не существует полного теоретического обоснования построения смесей локальных моделей для аппроксимации такого рода выборок.
  • Authors: Grabovoi A.V., Strizhov V.V.

Task 17

  • Name: BCI: Выбор согласованных моделей для построения нейроинтерфейса
  • Task: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения интерфейса является такой модели является адекватный выбор модели. Рассматривается широкий набора моделей: линейные, простые нейросети, рекуррентные сети, трансформеры. Особенность задачи в том, что при прогнозе требуется моделировать не только исходный сигнал, снимаемый с коры головного мозга, но and целевой, снимаемый с конечностей. Таким образом, требуется построить две модели. Чтобы они работали вместе, строится пространство согласований. Предлагается исследовать свойства этого пространства and свойства получаемого прогноза (нейроинтерфейса) на различных парах моделей.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
    1. Нужен ECoG (25 набор данных содержит записи ЭЭГ, ЭОГ and движения руки) http://bnci-horizon-2020.eu/database/data-sets
    2. neyrotycho — наши старые данные.
  • References::
    1. Яушев Ф.Ю., Исаченко Р.В., Strizhov V.V. Модели согласования скрытого пространства в задаче прогнозирования // Системы and средства информатики, 2021, 31(1). PDF
    2. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Рукопись, 2021. PDF
    3. Исаченко Р.В. Выбор модели декодирования сигналов в пространствах высокой размерности. Слайды, 2020. [8]
    4. Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
    5. Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
    6. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
    7. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
  • Базовый алгоритм: Описан в первой работе. Код имеется. В той работе данные — две части изображения. В нашей работе сигнал головного мозга and движение рук. СверхTask: довести до ума первую работу. Также код and работы тут.
  • Решение: Рассматривается случай, когда исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной. Предлагается исследовать точность, сложность and устойчивость пар разнообразных моделей. Так как при построении прогноза решается обратная Task, требуется построить обратные преобразования для каждой модели. Для этого можно использовать как базовые приемы (PLS), так and потоки.
  • Новизна: Анализ прогноза and латентного пространства, получаемых парой гетерогенных моделей.
  • Авторы: consultant Roman Isachenko, Expert Strizhov V.V.

Task 69

  • «Название»: Graph Neural Network in Reaction Yield prediction
  • «Task»: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
  • «Данные»: Database of reaction from US patents [9]
  • References::
    • [10] A general overview.
    • [11] Relational Graph Convolution Neural Network
    • [12] Transformer architecture
    • [13] Graph neural network learning for chemical compounds synthesis
  • «Базовый алгоритм»: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
  • «Решение»: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
  • «Новизна» A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
  • «Авторы»: Nikitin Filipp, Isayev Olexandr, Strizhov V.V.

Task 84

  • Name: Регуляризация траектории оптимизации параметров модели глубокого обучения на основе дистилляции знаний
  • Task: Рассматривается Task оптимизации параметров модели глубокого обучения. Рассматривается случай, когда при оптимизации доступны ответы более сложной модели (модели-учителя). Классическим подходом к решению такой задачи является обучение с учетом ответов сложной модели (дистилляция знаний). Назначение гиперпараметров производится эмпирически на основе результатов работы модели на отложенной выборке. В данной работе предлагается рассмотреть модификацию подхода к дистилляции знаний, в котором гиперпараметрами выступает коэффициент значимости дистиллирующего слагаемого, а также его градиенты. Обе эти группы параметров позволяют скорректировать оптимизацию параметров модели. Для оптимизации гиперпараметров предлагается рассматривать задачу оптимизации как двухуровневую задачу оптимизации, где на первом уровне оптимизации решается Task оптимизации параметров модели, а на втором --- приближенно решается Task оптимизации гиперпараметров по значению функции потерь на отложенной выборке.
  • Data: выборка изображений CIFAR-10
  • References:
    1. Дистилляция знаний
    2. Оптимизация гиперпараметров в двухуровенвой задаче: жадный метод
    3. Оптимизация гиперпараметров в двухуровенвой задаче: сравнение подходов
    4. Метаоптимизация: нейросеть вместо оператора оптимизации
  • Basic algorithm: оптимизация модели без дистилляции and со стандартным подходом к дистилляции
  • Solution: Использование двухуровневой задачи для оптимизации модели. Комбинация градиентов для обоих слагаемых обрабатывается отдельной моделью (LSTM)
  • Novelty: Будет предложен новый подход к дистилляции модели, позволяющий значительно улучшить эксплуатационные характеристики моделей, обучающихся в режиме использования привилегированной информации. Также планируется изучить динамику изменения гиперпараметров в процессе оптимизации.
  • Авторы: Oleg Bakhteev, Strizhov V.V.

Task 85

  • Name: Дифференцируемый алгоритм поиска архитектуры модели с контролем её сложности
  • Task: рассматривается Task выбора структуры модели глубокого обучения с заранее заданной сложностью. Требуется предложить метод поиска модели, позволяющий контролировать её сложность с небольшими вычислительными затратами.
  • Data: MNIST, CIFAR
  • References:
    1. Гребенькова О.С., Бахтеев О., Strizhov V.V. Вариационная оптимизация модели глубокого обучения с контролем сложности // Информатика and ее применения, 2021, 15(2). PDF
    2. DARTS
    3. гиперсети
  • Basic algorithm: DARTS
  • Solution: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(DARTS) с контролем сложности параметров при помощи гиперсети.
  • Novelty: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
  • Authors: Oleg Bakhteev, Grebenkova O. S.

Task 86

  • Name: Learning co-evolution information with natural language processing for protein folding problem
  • Task: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
  • Problem description:: request
  • Авторы: Sergei Grudinin, Maria Kadukova.

Task 87

  • Name: Байесовский выбор структур обобщенно-линейных моделей
  • Task: Работа посвящена тестированию методов выбора признаков. Предполагается, что исследуемая выборка содержит значительное число мультиколлинеарных признаков. Мультиколлинеарность — это сильная корреляционная связь между отбираемыми для анализа признаками, совместно воздействующими на целевой вектор, которая затрудняет оценивание регрессионных параметров and выявление зависимости между признаками and целевым вектором. Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо выбрать оптимальный набор признаков для решения задачи прогнозирования.
  • Актуальность: Опубликован один наиболее предпочтительных алгоритмов выбора признаков. Он использует структурные параметры. Но теоретического обоснования не имеет. Предлагается построить теорию, описав and проанализировав различные функции априорного распределения структурных параметров. В работах по поиску структур нейросетей также пока нет внятной теории and списка априорных предположений.
  • Data: Многомерные временные ряды с показаниями различных датчиков из работы 4, для начала все выборки из статьи 1.
  • References: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
    1. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
    2. Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183.  PDF
    3. Strizhov V.V. Функция ошибки в Taskх восстановления регрессии // Заводская лаборатория. Диагностика материалов, 2013, 79(5) : 65-73. PDF
    4. Зайцев А.А., Strizhov V.V., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 : 11-15. PDF
    5. Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
    6. Катруца А.М., Strizhov V.V. Проблема мультиколлинеарности при выборе признаков в регрессионных Taskх // Информационные технологии, 2015, 1 : 8-18.  PDF
    7. Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. PDF
  • Basic algorithm: Описан в работе 1: квадратичное программирование для выбора признаков QPFS. Код у Романа Исаченко.
  • Solution: Предлагается рассмотреть структурные параметры, используемые в QPFS на втором уровне байесовского вывода. Ввести информативные априорные распределения параметров and структурных параметров. Сравнить различные априорные предположения.
  • Novelty: Статистический анализ пространства структурных параметров and визуализация
  • Authors: Александр Адуенко — consultant, Strizhov V.V.

Task 88

  • Name: Поиск границ радужки методом круговых проекций
  • Task: Дано монохромное растровое изображение глаза, см. примеры. Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
  • Data: около 200 тыс. изображений глаз. Для каждого размечено положение истинных окружностей — в целях обучения and проверки создаваемого метода.
  • Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
  • References: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
  • Автор: Матвеев И.А.

Task 53

  • Name: Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
  • Task: Целью задачи является решение задачи оптимизации с функциями потерь классификации and регрессии в применении к биологическим данным.
  • Данные: Около 12,000 комплексов белков с маленькими молекулами. Для классификации для каждого из них есть 1 правильное положение в пространстве and 18 сгенерированных неправильных, для регрессии каждому комплексу соответствует значение константы связывания (пропорциональна энергии). Основными дескрипторами являются гистограммы распределений расстояний между различными атомами.
  • References::
  • Базовой алгоритм: В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в статье https://hal.inria.fr/hal-01591154/. Для MSE в качестве функции потерь регрессии уже есть сформулированная двойственная Task, с реализации которой можно начать.
  • Решение: Первым этапом будет решение задачи с MSE в функции потерь с использованием удобного для вас солвера. Основной трудностью может стать большая размерность данных, но они разрежены. Далее можно будет менять формулировку задачи.
  • Новизна: Многие модели, используемые для предсказания взаимодействий белков с лигандами, "переобучены" под какую-либо задачу. Например, модели, хорошо предсказывающие энергии связывания, могут плохо выбирать связывающуюся с белком молекулу из множества несвязывающихся, а модели, хорошо определяющие правильную геометрию комплекса, могут плохо предсказывать энергии. В данной задаче предлагается рассмотреть новый подход борьбы с таким переобучением, поскольку сочетание функций потерь классификации and регрессии видится нам очень естественной регуляризацией.
  • Авторы: Sergei Grudinin, Maria Kadukova.

Task 75

  • Name: Выравнивание элементов изображений с помощью метрических моделей.
  • Task: Задан набор символов. Каждый символ представлен одним файлом - изображением. Размер изображений в пикселях может отличаться. Известно, что все изображения принадлежат одному классу, например, лица, буквы, цветы или машины. (Более сложный вариант - одному классу, который мы исследуем and шумовым классам.) Известно, что каждое изображение может быть and помощью выравнивающей трансформации совмещено с другим с точностью до шума, либо до некоторого усредненного изображения. (Это изображение может как присутствовать, так and отсутствовать в выборке). Эта выравнивающая трансформация задается в базовом случае нейросетью, а в предлагаемом - параметрическим преобразованием из некоторого заданного класса (первое - частный случай второго). Выравненное изображение сравнивается с исходным с помощью функции расстояния. Если расстояние между двумя изображениями статистически значимо, делается вывод о принадлежности изображений одному классу. Требуется 1) предложить адекватную модель выравнивающей трансформации, которая берет в расчет предположения о характере изображения (например, только вращение and пропорциональное масштабирование), 2) предложить функцию расстояния, 3) преложить способ нахождения усредненного изображения.
  • Data: Синтетические and реальные 1) картинки - лица and символы с трансформацией вращения and растяжения, 2) лица and автомобили с транфсормацией вращения 3D с проекцией в 2D. Синтетические изображения предлагается создавать вручную с помощью 1) фотографий листа бумаги, 2) фотографий поверхности рисунка на воздушном шарике.
  • References:
    1. опорная работы - выравнивание картинок с помощью 2D DTW,
    2. опорная работа - выравнивание картинок с помощью нейросетей,
    3. работы по выравниванию DTW в 2D,
    4. работы по параметрическому выравниванию.
  • Basic algorithm: из работы 1.
  • Solution: В прилагаемом файле pdf.
  • Novelty: Вместо многомерного выравнивания изображений предлагается параметрическое выравнивание.
  • Authors: Алексей Гончаров, Strizhov V.V.

Task 80

  • Name: Обнаружение корреляций между активностью в социальных сетях and капитализацией компаний
  • Task: в настоящее время существенное влияние на биржевые котировки акций, капитализацию компании and успех или неуспех IPO зависит от социальных факторов, таких как общественное мнение, выраженное в социальных сетях. Недавним ярким примером является изменение котировок компании GameStore, вызванное всплеском активности в Reddit. Нашей задачей на первом этапе является выявление котировок между акциями компаний разного сегмента and активностью в социальных сетях. То есть необходимо выявить корреляции между значительными изменениями в капитализации компании and предшествующими всплесками (положительными или отрицательными) ее обсуждения в социальных сетях. То есть необходимо найти минимум лосс функции при восстановлении зависимости в различных классах моделей (параметрика, нейронные сети and тп). Данная Task часть большого проекта по анализу анализу рынков and влияния социальных факторов на риски (в рамках команды из 5-7 профессоров), которая приведет к серии публикаций достаточной для защиты диссертации.
  • Data: Task имеет существенный инженерный контекст, данные – выгрузки из котировок на Московской бирже, а также данные NYT and reddit (кроулинг and парсинг делается стандартными инструментами). У studentа, работающего над этой задачей, должны быть сильные инженерные навыки and желание заниматься как практикой машинного обучения, так and инженерными частями Taskми.
  • References:
    1. Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [14]   
    2. Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
    3. Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [15]
  • Basic algorithm: Базовые алгоритмы это LSTM and Graph neural networks.
  • Solution: Начнем с применения LSTM, далее попробуем несколько его стандартных расширений
  • Novelty: В данной области достаточно много экономических, модельных решений, однако точность этих решений не всегда высока. Применение современных ML/DL моделей, как ожидается, существенно повысит качество решения.
  • Authors: Expert Yuri Maksimov, consultant Yuri Maksimov, student.

Task 88b

  • Name: Поиск зрачка на изображении глаза методом проекций яркости
  • Task: Дано монохромное растровое изображение глаза, см. примеры. Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.
  • Data: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.

Basic algorithm: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов. Её проекция на горизонтальную ось равна. Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.

  • References: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
  • Автор: Матвеев И.А.


Task 88c

  • Name: Поиск века на изображении как параболического контура методом проекций.
  • Task: Дано монохромное растровое изображение глаза, см. примеры. Необходимо найти контур верхнего века как параболу, то есть определить параметры.
  • Data: около 200 тыс. изображений глаз. При некоторых (около 2500) Expertом-человеком размечено положение параболы, приближающей веко.
  • Basic algorithm: Первый шаг — предобработка изображения фильтром вертикального градиента с дальнейшей бинаризацией, ниже — типичный результат. На следующем шаге возможны различные варианты. Например, если известны коодрдинаты зрачка, можно задать область интереса (сверху) and в ней по выделенным точка построить параболу аппроксимацией методом наименьших квадратов. Пример результата дан ниже. Возможны более тонкие методы, например, поиск параболы преобразованием Хафа (см. в Википедии). Ещё один способ — использование проективных методов (преобразование Радона). Основная идея: задавшись коэффициентом , применить к изображению преобразование координат в результате которого все параболы вида formula переходят в прямые вида , далее задавшись коэффициентом , применить преобразование координат где , после чего наклонные прямые вида formula переходят в горизонтальные, которые легко определить, например, горизонтальным проецированием (суммированием значений в строках матрицы полученного изображения. Если коэффициенты угаданы правильно, перабола, представляющая веко, даст чёткий максимум в проекции. Перебирая formula (имеющие физический смысл) можно найти, те, что дают максимальное значение проекции, and считать что таким образом определена искомая парабола — веко.
  • References: Википедия, статьи «Преобразование Хафа», «Преобразование Радона».
  • Автор: Матвеев И.А.

Task 62

  • Name: Построение метода динамического выравнивания многомерных временных рядов, устойчивого к локальным колебаниям сигнала.
  • Task: В процессе работы с многомерными временными рядами распространена ситуация близкого расположения датчиков, соответствующих различным каналам измерений. В результате малые смещения сигнала в пространстве могут приводить к фиксации пика сигнала соседними датчиками, что ведет к значительным различиям измерений в смысле L2 расстояния.
    Таким образом, малые смещения сигнала приводят к появлению значительных флуктуаций показаний датчиков. Рассматривается Task построения функции расстояния между точками временных рядов, устойчивой к шуму, порожденному малыми пространственными смещениями сигнала. Необходимо рассмотреть задачу в приближении наличия карты расположения датчиков.
  • Данные:
    • Измерения активность мозга обезьян
    • Искусственно созданные данные (надо предложить несколько вариантов, например: движение сигнала в пространстве по часовой and против часовой стрелки)
  • References::
  • Basic algorithm: L2 расстояние между парой измерений.
  • Solution: использовать функцию расстояния DTW между двумя многомерными временными рядами. Выравниваются две оси времени, при этом внутри функционала DTW выбирается расстояние между i-м and j-м измерениями такое, что оно устойчиво к локальным “сдвигам” сигнала. Требуется предложить такой функционал. Базовое решение - L2, улучшенное решение - DTW между i-м and j-м измерениями (dtw внутри dtw).
    Можно предложить какую-либо модификацию, например расстояния между скрытыми слоями автоэнкодера для точек i and j.
  • Novelty: Предлагается способ выравнивания многомерных временных рядов, учитывающий малые колебания сигнала в пространстве.
  • Authors: В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.

Task 58

  • «Название»: Преобразование алгоритма Gerchberg-Saxton с помощью байесовских нейросетей. (или Нейросетевой подход в задаче фазового поиска для изображений с европейского синхротрона)
  • «Task»: Цель проекта - повысить качество разрешения изображений наноразмерных объектов, полученных в лабораториях Европейского фонда синхротронного излучения.
  • «Данные»: а данными обращаться к consultantу (3GB).

References::

  • «Базовый алгоритм»: Переход из прямого пространства в обратное пространство происходит с помощью преобразования Фурье. Преобразование Фурье - это линейное преобразование. Поэтому предлагается его аппроксимировать нейросетью. Например автокодировщик для моделирования прямого and обратного Фурье преобразования.
  • «Решение»: Преобразование алгоритма Gerchberg-Saxton c помощью байесовских нейросетей. Использование информации о физических ограничениях and Expertные знания.
  • «Новизна» Использование информации о физических ограничениях and Expertные знания при построении функции ошибки.
  • «Авторы»: Expertы Sergei Grudinin, Юрий Чушкин, В.В. Стрижов. consultant Mark Potanin

Task 63

  • Name: Иерархическое выравнивание временных последовательностей.
  • Task: Рассматривается Task выравнивания последовательностей сложных событий. Примером может служить сложносоставное поведение человека: при рассмотрении данных IMU-датчиков можно выдвинуть гипотезу: есть исходный сигнал, есть агрегаты “элементарных действий” and есть агрегаты “действий” человека. Каждый из указанных уровней абстракции можно выделить and оперировать именно им.
    Для того, чтобы проводить точное распознавание последовательности действий возможно применять метрические методы (например DTW, как способ, устойчивый к временным сдвигам). Для более точного качества выравнивания временной шкалы возможно проводить выравнивание на разных уровнях абстракций.
    Предлагается исследовать такой иерархический подход к выравниванию последовательностей, основанный на возможности применения алгоритмов выравнивания к объектам разной структуры, имея функцию расстояние на них.
  • References:
  • Basic algorithm: классический DTW.
  • Solution: Предлагается выполнять переход от одного уровня абстракции к другому путем применения сверточных and рекуррентных нейронных сетей. Тогда объектом на нижнем уровне абстракции служит исходный сигнал. На втором уровне - сигнал из скрытого слоя модели (построенной на объектах нижнего уровня), размерность которого много меньше, а верхнего слоя - сигнал из скрытого слоя модели (построенной на объектах среднего уровня).
    При этом DTW вычисляется отдельно между нижними, между средними and между верхними уровнями, но формирование объектов для расчета расстояния осуществляется с учетом выравнивающего пути между объектами предыдущего уровня.
    Данный метод рассматривается как способ повышения интерпретируемости процедуры выравнивания and точности классификации действия в связи с переходом к более высокоуровневым паттернам. Кроме того, ожидается существенное увеличение скорости работы.
  • Novelty: Предлагается идея выравнивания временных последовательностей одновременно на нескольких уровнях абстракции. Метод должен существенно улучшить интерпретируемость алгоритмов выравнивания and повысить скорость их работы.
  • Authors: В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.

Task 57

  • «Название»:Аддитивная регуляризация and в Taskх привилегированного обучения при решении задачи прогнозирования состояния океана
  • «Task»: Есть выборка данных с океанских буйков, требуется прогнозировать состояние океана в разные моменты времени.
  • «Данные»: От буйков поступают данные о высоте волн, скорости ветра, направления ветра, периоде волны, давление на уровне моря, температура воздуха and температура поверхности моря с разрешением от 10 минут до 1 часа.
  • References:
  • «Базовый алгоритм»: Использование простой нейросети.
  • «Решение»:Добавление к базовому алгоритму(простая нейросеть) системы дифференциальных уравнений. Исследовать свойства пространства параметров учителя and ученика согласно привилегированному подходу.
  • «Новизна» Исследование пространства параметров учителя and ученика and их изменение. Возможно настроить отдельно модели учителя and ученика and проследить на изменением их параметров в процессе оптимизации - дисперсия, изменение качества ученика при добавлении информации учителя, сложность.
  • «Авторы»: В.В. Стрижов, Mark Potanin


Task 52

  • Name: Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
  • Task: Целью данной работы является создание and исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (Task регрессии на узлах графа).
  • Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
  • References::
    • [21] Подробно о задаче.
    • [22] Relational inductive biases, deep learning, and graph networks.
    • [23] Geometric deep learning: going beyond euclidean data.
  • Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [24].
  • Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать and применять сферические фильтры независимо от топологии графа.
  • Новизна: В общем случае графы являются нерегулярными структурами, а во многих Taskх обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
  • Авторы: Sergei Grudinin, Илья Игашов.

Task 44+

  • Name: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
  • Task: Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
  • Цель: на малой простой iid выборке спрогнозировать ошибку на пополняемой большой. Прогностическая модель гладкая монотонная в двух производных. Выбор модели полный перебор или генетика. Модель зависит от редуцированной (исследовать) матрицы ковариации параметров GLM.
  • Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
  • References::
    1. Обзор методов, мотивания and постановка задачи для оценки объема выборки
    2. http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
    3. Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

  • Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.

  • Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
  • Авторы: Малиновский Г. (consultant), Стрижов В. В. (Expert)


Task 12

  • Name: Обучение машинного перевода без параллельных текстов.
  • Task: Рассматривается Task построения модели перевода текста без использования параллельных текстов, т.е. пар одинаковых предложений на разных языках. Данная Task возникает при построении моделей перевода для низкоресурсных языков (т.е. языков, для которых данных в открытом доступе немного).
  • Данные: Выборка статей из Wikipedia на двух языках.
  • References::
    • [25] Unsupervised Machine Translation Using Monolingual Corpora Only
    • [26] Sequence to sequence.
    • [27] Autoencoding.
    • [28] Training with Monolingual Training Data.
  • Базовый алгоритм: Unsupervised Machine Translation Using Monolingual Corpora Only.
  • Решение: В качестве модели перевода предлагается рассмотреть кобминацию двух автокодировщиков, каждый из которых отвечает за представление предложений на одном из языков. Оптимизация моделей проводится таким образом, чтобы скрытые пространства автокодировщиков для разных языков совпадали. В качестве исходного представления предложений предлагается рассматривать их графовое описание, получаемое с использованием мультиязычных онтологий.
  • Новизна: Предложен способ построения модели перевода с учетом графовых описаний предложений.
  • Авторы: Oleg Bakhteev, В.В. Стрижов,


Task 8

  • Name: Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов).
  • Task: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
  • Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
    • WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
  • References::
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
    • Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.URL
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
    • Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. URL
    • Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
  • Базовый алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
  • Решение: Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные. Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
  • Новизна: Создан стандарт построения локально-аппроксимирующих моделей. Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
  • Авторы: В.В. Стрижов (Expert), Александра Гальцева, Данил Сайранов (consultants)

2020

Author Topic Links Consultant Letters Reviewer
Гребенькова Ольга Вариационная оптимизация моделей глубокого обучения с контролем сложности модели LinkReview

GitHub Paper Slides Video

Oleg Bakhteev AILP+UXBR+HCV+TEDWS Шокоров Вячеслав

Review

Шокоров Вячеслав Распознавание текста на основе скелетного представления толстых линий and сверточных сетей LinkReview

GitHub Paper Slides Video

Денис Ожерелков AIL Гребенькова Ольга

Review

Филатов Андрей Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга LinkReview

GitHub Paper Slides Video

Валерий Маркин AILPHUXBRCVTEDWS Христолюбов Максим

Review

Исламов Рустем Анализ свойств ансамбля локально аппроксимирующих моделей LinkReview

GitHub Paper Slides Video

Андрей Грабовой AILPHUXBRCVTEDWS Гунаев Руслан

Review

Жолобов Владимир Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели. LinkReview

GitHub Paper Slides Video

Григорий Малиновский AILPHUXBRCVTEWSF Вайсер Кирилл

Review

Вайсер Кирилл Аддитивная регуляризация and ее метапараметры при выборе структуры сетей глубокого обучения LinkReview

GitHub Paper Slides Video

Mark Potanin AILP+HUX+BRCV+TEDWS Жолобов Владимир

Review

Бишук Антон Решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. LinkReview

GitHub Paper Slides Video

Maria Kadukova AILPHUXBRCVTEDH Филиппова Анастасия

[Антон, не та ссылка]

Филиппова Анастасия Step detection for IMU navigation via deep learning LinkReview

GitHub Paper Slides EnglishPaper Video

Тамаз Гадаев AIL0PUXBRCVSF Бишук Антон

Review

Савельев Николай Распределенная оптимизация в условиях Поляка-Лоясиевича LinkReview

GitHub Paper Slides Video

А. Н. Безносиков AILPHUXBRCVTEDWS Харь Александра

Review

Харь Александра Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам. LinkReview

GitHub Paper Slides Video

Глеб Моргачев, Алексей Гончаров AILPHUXBRCVTEDCWS Савельев Николай

Review

Христолюбов Максим Порождение признаков с помощью локально-аппроксимирующих моделей (Классификация видов деятельности человека по измерениям фитнес-браслетов) LinkReview

GitHub Paper Slides Video

Александра Гальцева, Данил Сайранов AILPH Филатов Андрей

Review

Мамонов Кирилл Нелинейное ранжирование результатов разведочного информационного поиска. LinkReview

GitHub Paper Slides Video

Максим Еремеев AILPHU+XBRC+V+TEDHWJSF
Павличенко Никита Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах. LinkReview

GitHub Paper Slides Video

Sergei Grudinin, Илья Игашов AILPUXBRHCVTEDH
Содиков Махмуд, Скачков Даниель Agnostic neural networks Code

Paper Slides Video

Радослав Нейчев AILPHUXBRC+VTEDHWJSF Кулагин Петр

Review

Гунаев Руслан Graph Neural Network in Reaction Yield prediction LinkReview

Github Paper Slides Video

Филипп Никитин AILPUXBRHCVTEDHWSF Исламов Рустем

Review

Яушев Фарух Исследование способов согласования моделей с помощью снижения размерности пространства LinkReview

Github Paper Slides Video

Roman Isachenko AILPUXBRHCVTEDHWJS Жолобов Владимир

Review

Task 51

  • Name: Анализ свойств ансамбля локально аппроксимирующих моделей.
  • Task: В данной работе рассматривается Task построения универсального аппроксиматора --- мультимодели, которая состоит из заданого конечного набора локальных моделей. Каждая локальная модель аппроксимирует связную область в пространстве объектов. Предполагается, что совокупность локальных модели покрывают все пространство объектов. В качестве агрегирующий функции рассматривается выпуклая комбинация локальных моделей. В качестве коэффициентов выпуклой комбинации рассматривается функция зависящая от объекта --- шлюзовой функции.
  • Требуется: построить алгоритм оптимизации параметров локальных моделей and параметров шлюзовой функции. Требуется предложить метрику в пространстве объектов, метрику в пространстве моделей.
  • Данные:
    1. Синтетически сгенерированные данные.
    2. Данные прогнозирования потребления энергии. В качестве локальных моделей перелагается использовать модели: рабочий день, выходной день. (EnergyConsumption, Turk Electricity Consumption GermanSpotPrice).
  • References::
    1. Обзор методов для оценки объема выборки
    2. лекции Воронцова по композициям
    3. лекции Воронцова по композициям
    4. Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
    5. Павлов К.В. Выбор многоуровневых моделей в Taskх классификации, 2012
  • Базовый алгоритм: В качестве базового алгоритма предлагается использовать двух уровненную задачу оптимизации, где производится оптимизация локальных моделей на одной итерации and на следующей итерации производится оптимизация параметров шлюзовой функции.
  • Авторы: Грабовой А. В. (consultant), Стрижов В. В. (Expert)

Task 54

  • Name: Поиск зрачка на изображении глаза методом проекций яркости.
  • Task: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/eaou/4JSamfmrh).

Необходимо определить приблизительные координаты центра зрачка. Слово «приблизительные» означает то, что вычисленный центр зрачка должен лежать внутри окружности с центром в истинном центре зрачка and половинного истинного радиуса. Алгоритм должен быть очень быстрым.

  • Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
  • Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи проекций яркости. Яркость изображения — функция двух дискретных аргументов I(x,y). Её проекция на горизонтальную ось равна P(x)=\sum \limits_y I(x,y). Аналогично строятся проекции на оси с наклоном. Построив несколько проекций (две, четыре), исходя из них, можно попытаться определить положение зрачка (компактной тёмной области) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
  • References:: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
  • Авторы: Матвеев И.А.

Task 55

  • Name: Поиск границ радужки методом круговых проекций
  • Task: Дано монохромное растровое изображение глаза, см. примеры (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). Также известно приблизительное положение центра зрачка. Слово «приблизительное» означает то, вычисленный центр зрачка отстоит от истинного не более чем на половину его истинного радиуса. Необходимо определить приблизительные положения окружностей, аппроксимирующих зрачок and радужку. Алгоритм должен быть очень быстрым.
  • Данные: около 200 тыс. изображений глаз. При для каждого размечено положение истинной окружности — в целях обучения and проверки создаваемого метода.
  • Базовой алгоритм: Для ускорения работы с изображением предлагается агрегирование данных при помощи круговых проекций яркости. Круговая проекция — функция, зависящая от радиуса, значение которой P(r) равно интегралу направленного градиента яркости изображения по окружности радиуса r (или по дуге окружности). Пример для одной дуги (правой четверти) and для четырёх дуг. Построив сколько-то круговых проекций, исходя из них, можно попытаться определить положение внутренней and внешней границ радужки (кольца) при помощи эвристик и/или нейросети. Интересно оценить возможности нейросети в данной задаче.
  • References:: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
  • Авторы: Матвеев И.А.

Task 56

  • Name: Построение локальных and универсальных интерпретируемых скоринговых моделей
  • Task: Построить простую and интерпретируемую скоринговую систему как суперпозицию локальных моделей с учетом требованиям к системе сохранять знания об опорных клиентах and признаках (другими словами, учитывать новые экономические явления). Модель должна являться суперпозицией, причем каждый элемент должен управляться своим критерием качества. Ввести расписание оптимизации структуры and параметров модели: система должна работать в единой оптимизационной цепочке. Предложить алгоритм для отбора признаков and объектов.
  • Данные:
  1. Данные от ОТП Банка. Выборка содержит записи о 15 223 клиентов, классифицированных на два класса: 1 — отклик был (1812 клиентов), 0 — отклика не было (13411 клиентов). Признаковые описания клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы. Данные доступны по следующим адресам: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (выборка А), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (выборка Б).
  2. Данные от Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data
  • References::
  1. Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
  2. Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
  3. Токмакова А.А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение and анализ данных. — 2011. — № 2. — С. 140-155
  4. S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
  5. Гончаров А. В. Построение интерпретируемых моделей глубокого обучения в задаче социального ранжирования
  • Базовой алгоритм: Итерационный взвешенный МНК (описан в (2))
  • Решение: Предлагается построить скоринговую систему, содержащий такой блок предобработки, как блок порождения метрических признаков. Предлагается исследовать влияние неравноценности объектов на отбор признаков для модели, исследовать совместный отбор признаков and объектов при построении модели. Требуется реализовать расписание оптимизации структуры модели с использованием алгоритма, основанного на анализе ковариационных матриц гиперпараметров модели. Расписание включает поэтапное пополнение набора признаков and объектов. Объем выборки признаков будет определяться путем контроля дисперсии ошибки. Основной критерий качества системы: ROC AUC (Gini).
  • Новизна:
  1. Расписание оптимизации структуры модели должно удовлетворять требованию перестраивать модель в любое время, не теряя ее характеристик.
  2. Учет неравноценности объектов при отборе признаков
  • Авторы: Пугаева И. В. (consultant), Стрижов В. В. (Expert)

Task 59

  • Name: Распределенная оптимизация в условиях Поляка-Лоясиевича
  • Task: Ставится Task эффективного решения больших систем нелинейных уравнений, используя сеть вычислителей.
  • Solution: Предлагается новый метод децентрализованного распределенного решения систем нелинейных уравнений в условиях Поляка-Лоясиевича. Подход основан на том, что задачу распределенной оптимизации можно представить в виде задачи композитной оптимизации (см. 2 из литературы), которую в свою очередь можно решать аналогами метода подобных треугольников или слайдинга (см. 2 из литературы).
  • Basic algorithm: предложенный метод сравнивается с градиентным спуском and ускоренным градиентным спуском
  • References:
  1. Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
  2. Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
  3. Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
  4. Современные численные методы оптимизации, метод универсального градиентного спуска https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf
  • Novelty: сведение задачи распределенной оптимизации к задаче композитной оптимизации and ее решение в условиях Поляка-Лоясиевича
  • Authors: Expert — А.В. Гасников, consultant — А.Н. Безносиков
  • Комментарий: важно в этой задаче поставить вычислительный эксперимент, иначе Task будет плохо совместима с курсом.

Task 17

  • Name: Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга
  • Task: При построении систем нейрокомпьютерного интерфейса (brain-computer interface) используются простые, устойчивые модели. Важным этапом построения такой модели является построение адекватного признакового пространства. Ранее такая Task решалась с помощью выделения признаков из частотных характеристик сигналов.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
  • References::
    1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
    2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
  • Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
  • Решение: В данном работе предлагается учесть пространственную зависимость между сенсорами, которые считывают данные. Для этого необходимо локально смоделировать пространственный импульс/сигнал and построить прогностическую модель на основе локального описания.
  • Новизна: Предлагается существенно новый способ построения признакового описания в задаче декодирования сигналов. Бонус: анализ изменения структуры модели, адаптация структуры при изменении выборки.
  • Авторы: В.В. Стрижов, Roman Isachenko - Expertы, consultants – Валерий Маркин, Алина Самохина

Task 9

  • Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
  • Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
  • Данные: Шрифты в растровом представлении.
  • References:: Список работ [29], в частности arXiv:1611.03199 and
    • Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
    • Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
    • Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
    • Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
    • Кушнир О.А., Середин О.С., Степанов А.В. Экспериментальное исследование параметров регуляризации and аппроксимации скелетных графов бинарных изображений // Машинное обучение and анализ данных. 2014. Т. 1. № 7. С. 817-827. URL
    • Жукова К.В., Рейер И.А. Связность базового скелета and параметрический дескриптор формы // Машинное обучение and анализ данных. 2014. Т. 1. № 10. С. 1354-1368. URL
    • Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
  • Базовый алгоритм: Сверточная сеть для растрового изображения.
  • Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
  • Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
  • Авторы: Expertы И.А. Рейер, В.В. Стрижов, Mark Potanin, consultant Денис Ожерелков

Task 60

  • Name: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
  • Task: рассматривается Task оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью and небольшими вычислительными затратами.
  • Данные:MNIST, CIFAR
  • References:
  • Basic algorithm: случайный поиск
  • Solution: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
  • Novelty: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию and дообучение.
  • Авторы: Oleg Bakhteev, В.В. Стрижов

Task 61

  • Name: Выбор модели глубокого обучения на основе триплетной связи модели and выборки
  • Task: рассматривается Task one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
  • Данные:MNIST, синтетические данные
  • References:
  • Basic algorithm: случайный поиск
  • Solution: Предлагается рассматривать пространство параметров and моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
  • Novelty: Новый метод one-shot обучения моделей
  • Авторы: Oleg Bakhteev, В.В. Стрижов

Task 64

  • Name: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
  • Task: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, and исследовать использование таких методов к пространственно-временным рядам.
    При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
  • References:
  • Solution: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти and собрать в одном месте доказательства того, что функция является ядром.
    Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
  • Novelty: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) and его модификаций к пространственно-временным рядам.
  • Authors: В.В. Стрижов - Expert, Глеб Моргачев, Алексей Гончаров - consultants.

Task 66

  • Name: Agnostic neural networks
  • Task: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
  • Данные: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
  • References::
  • Базовой алгоритм: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
  • Решение: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) and моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
  • Новизна: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
  • Авторы: Expert В.В. Стрижов, Радослав Нейчев - consultant

Task 13

  • Name: Deep learning for RNA secondary structure prediction
  • Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
  • Данные: RNA sequences in form of strings of characters
  • References:: https://arxiv.org/abs/1609.08144
  • Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
  • Решение: Deep learning recurrent encoder-decoder model with attention
  • Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
  • Авторы: consultant Мария Попова, Александр Исаев (ждем от них отклика, без отклика Task снимается)

Task 65

  • Name: Аппроксимация выборок малой размерности разнородными моделями
  • Task: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
  • Данные: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
  • References::
  • Базовой алгоритм: описан в работе Нейчева
  • Новизна: Исследование различных способов построения выборки
  • Решение: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить and визуализировать функции правдоподобия
  • Авторы: consultants Mark Potanin, (попросить помощи у Андрея Грабового) В.В. Стрижов

Task 67

  • Name: Отбор тем в тематических моделях для разведочного информационного поиска.
  • Task: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность and полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
  • Данные: Текстовые коллекции сайтов habr.com and techcrunch.com. Размеченные выборки: запросы and релевантные им документы.
  • References::
    1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
    2. Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
  • Базовой алгоритм: тематическая модель с регуляризаторами and модальностями, описанная в статье (имеется исходный код).
  • Новизна: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
  • Решение: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности and определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, and их отбрасывание увеличивает точность and полноту поиска на несколько процентов.
  • Авторы: К.В.Воронцов, consultant Анастасия Янина.

Task 68

  • Name: Метаобучение тематических моделей классификации.
  • Task: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
  • Данные: Описание датасетов, Папка с датасетами.
  • References::
    1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
  • Базовой алгоритм: Тематические модели классификации для нескольких датасетов.
  • Новизна: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
  • Решение: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
  • Авторы: К.В.Воронцов, consultant Юлиан Сердюк.

Task 70

  • Name: Исследование структуры целевого пространства при построении предсказательной модели
  • Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
  • Data: Гетерогенные Data: картинка - текст, картинка - речь and тд
  • Basic algorithm: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
  • Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.

Task 71

  • Name: Исследование способов согласования моделей с помощью снижения размерности пространства
  • Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
  • Data: Синтетические данные с известной гипотезой порождения данных
  • Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
  • Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.

Task 72

  • Name: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
  • Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой and целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
  • Data: Гетерогенные Data: картинка - текст, картинка - речь, текст - текст and тд
  • Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
  • Authors: В.В. Стрижов - Expert, consultant: Исаченко Роман.

Task 73

  • Name: Нелинейное ранжирование результатов разведочного информационного поиска.
  • Task: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
  • Данные: Часть Википедии and эталонный граф чтения, получаемый из категорий Википедии.
  • References::
    1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
    2. Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
    3. James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
  • Базовой алгоритм: описан в статье G.Koutrika.
  • Новизна: Task мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
  • Решение: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
  • Авторы: К.В.Воронцов, consultant Максим Еремеев.

2019

Author Topic Links Consultant Reviewer
Северилов Павел Task поиска символов в текстах LinkReview

code paper slides video

Мурат Апишев
Григорьев Алексей Распознавание текста на основе скелетного представления толстых линий and сверточных сетей LinkReview

code, paper, slides video

Илья Жариков рецензия Вареник Наталия
Гришанов Алексей Автоматическая настройка параметров BigARTM под широкий класс задач LinkReview code, paperslides

video

Виктор Булатов рецензия Герасименко Николай
Юсупов Игорь Динамическое выравнивание многомерных временных рядов LinkReview code paper slides video Алексей Гончаров
Вареник Наталия Spherical CNN for QSAR prediction LinkReview, code, paper, slides video Мария Попова рецензия Григорьев Алексей
Безносиков Александр Z-learning of linearly-solvable Markov Decision Processes LinkReview

paper code slides video

Yury Maximov
Панченко Святослав Получение простой выборки на выходе слоя нейронной сети LinkReview,

code, paper, slides

Гадаев Тамаз
Веселова Евгения Deep Learning for reliable detection of tandem repeats in 3D protein structures Code link review paper slides video Guillaume Pages, Sergei Grudinin
Аминов Тимур Предсказание качества для процедуры выбора признаков LinkReview code paper

slides

Roman Isachenko
Маркин Валерий Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга LinkReview

code paper slides video

Roman Isachenko
Абдурахмон Садиев Порождение признаков с помощью локально-аппроксимирующих моделей LinkReview

code, paper, slides video

Анастасия Мотренко
Тагир Саттаров Обучение машинного перевода без параллельных текстов. LinkReview code paper, slides video Oleg Bakhteev
Герасименко Николай Тематический поиск схожих дел в коллекции актов арбитражных судов. LinkReview code paper slides video Екатерина Артёмова рецензияГришанов Алексей

Task 40

  • Name: Предсказание качества для процедуры выбора признаков.
  • Task: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
  • Данные: Синтетические данные + простые выборки
  • References::
    1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
    2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
  • Базовый алгоритм: популярные методы выбора признаков.
  • Решение: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
  • Новизна: Предлагается конструктивно новый подход к решению задачи выбора моделей.
  • Авторы: В.В. Стрижов, Tetiana Aksenova, consultant – Roman Isachenko

Task 42

  • Name: Z-learning of linearly-solvable Markov Decision Processes
  • Task: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
  • Данные: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
  • References::
    1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
    2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
    3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
  • Базовой алгоритм: Principal comparison should be made with Q learning described in [3]
  • Решение: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
  • Новизна: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
  • Авторы: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Task 1

  • Name: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
  • Task: Построить and исследовать модель прогнозирования направления движения цены. Задано множество новостей S and множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, and временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
  • Data:
    1. Финансовые Data: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена and объем.
    2. Текстовые Data: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
  • References:
    1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
    2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
    3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
    4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
  • Basic algorithm: Метод, использованный в статье (4).
  • Solution: Использование тематического моделирования (ARTM) and локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
  • Novelty: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
  • Authors: Иван Запутляев (consultant), В.В. Стрижов, К.В. Воронцов (Expertы)

Task 3

  • Name: Динамическое выравнивание многомерных временных рядов.
  • Task: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
  • Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • References:
    1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
  • Basic algorithm: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
  • Solution: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
  • Novelty: Нет полного обзора and исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
  • Authors: Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert

Task 43

  • Name: Получение простой выборки на выходе слоя нейронной сети
  • Task: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки and её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
  • Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
  • References:: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
  • Базовой алгоритм: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
  • Решение: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков and выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим and реальным данным.
  • Авторы: Гадаев Т. Т. (consultant) Стрижов В. В., Грабовой А. В. (Expertы)

Task 14

  • Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
  • Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
  • Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
  • References:: Our previous 3D CNN: [32] Invariance of CNNs (and references therein): [33], [34]
  • Базовый алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [35]
  • Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [36], [37] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
  • Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
  • Авторы: Expert Sergei Grudinin, consultants Guillaume Pages

Task 46

  • Name: Task поиска символов в текстах
  • Task: В простейшем случае эта Task сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой Expertной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной and качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer and т.п.).
  • Data: Словарь символов
, Размеченные художественные тексты

  • References: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
  • Basic algorithm: HMM, RNN
  • Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
  • Novelty: Предлагаемый подход к анализу текста используется Expertами в ручном режиме and не был автоматизирован
  • Authors: М. Апишев (consultant), Д. Лемтюжникова

Task 47

  • Name: Deep learning for RNA secondary structure prediction
  • Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
  • Данные: RNA sequences in form of strings of characters
  • References:: https://arxiv.org/abs/1609.08144
  • Базовой алгоритм: https://www.ncbi.nlm.nih.gov/pubmed/16873527
  • Решение: Deep learning recurrent encoder-decoder model with attention
  • Новизна: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
  • Авторы: consultant Мария Попова Chapel-Hill

Task 4

  • Name: Автоматическая настройка параметров АРТМ под широкий класс задач.
  • Task: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что Task настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации and автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
  • Data: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
  • References:
    1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
    2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
    3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
  • Basic algorithm: PLSA / LDA / логрегрессия.
  • Solution: bigARTM с фоновыми темами and регуляризаторами сглаживания, разреживания and декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
  • Novelty: Потребность в автоматизированной настройке параметров модели and отсутствие подобных реализаций в научном сообществе.
  • Authors: consultant Виктор Булатов, Expert К.В.Воронцов.

Task 50

  • Name: Тематический поиск схожих дел в коллекции актов арбитражных судов.
  • Task: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
  • Data: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
  • References:
    1. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
    2. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
    3. Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
  • Basic algorithm: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
  • Solution: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем and стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
  • Novelty: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
  • Authors: consultant Екатерина Артёмова, Expert К.В.Воронцов.

Group 2

Author Topic Links Consultant Reviewer
Вишнякова Нина Optimal Approximation of Non-linear Power Flow Problem LinkReview paper code presentation video Yury Maximov рецензент Логинов Роман

review

Кудрявцева Полина Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса. code

LinkReview paper video presentation

Roman Isachenko Нечепуренко Иван

review

Логинов Роман Мультимоделирование как универсальный способ описания выборки общего вида code

LinkReview paper ChatInvite presentation video

Адуенко А. А. Макаров Михаил review
Михаил Макаров Определение местоположения по сигналам акселерометра code

LinkReview paper презентация video

Анастасия Мотренко Черепков Антон: review
Козинов Алексей Task поиска символов в изображениях LinkReview

paper code

М. Апишев,

Д. Лемтюжникова

Грачёва Анастасия (рецензия)
Бучнев Валентин Раннее прогнозирование достаточного объема выборки для обобщенной линейной модели. LinkReview

paper code presentation video

Грабовой А. В. рецензент
Нечепуренко Иван Мультимоделирование, привилегированное обучение code,

paper, LinkReview презентация

Р. Г. Нейчев Кудрявцева Полина
Грачева Анастасия Оценка энергии связывания белка and маленьких молекул code

paper LinkReview presentation video

Sergei Grudinin,

Maria Kadukova

рецензент
Черепков Антон Привилегированное обучение в задаче аппроксимации границ радужки глаза paper, slides, code, LinkReview

video

Р. Г. Нейчев Лепехин Михаил

preliminary review

Лепехин Михаил Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей code

LinkReview paper presentation video

Андрей Кулунчаков Вишнякова Нина, рецензия
Гридасов Илья Автоматическое построение нейросети оптимальной сложности LinkReview

paper Presentation code

О. Ю. Бахтеев, В. В. Стрижов Бучнев Валентин
Теленков Дмитрий Декодирование сигналов мозга and прогнозирование намерений LinkReview

git The paper Presentation code

Андрей Задаянчук рецензент

Task 18

  • Name: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
  • Task: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
  • Данные: Наборы данных сигналов мозга ECoG/EEG.
  • References::
    • Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
  • Базовый алгоритм: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
  • Решение: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности and выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
  • Новизна: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
  • Авторы: В.В. Стрижов, Tetiana Aksenova, consultant – Roman Isachenko

Task 41

  • Name: Optimal Approximation of Non-linear Power Flow Problem
  • Task: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
  • Данные: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
  • References::
    1. Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
    2. The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin  ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
    3. Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
    4. Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
  • Базовой алгоритм: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
  • Решение: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
  • Новизна: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
  • Авторы: Yury Maximov (consultant and expert), Michael Chertkov (expert)
  • Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic

Task 2

  • Name: Исследование опорных объектов в задаче метрической классификации временных рядов.
  • Task: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов and использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом and центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, and влияние таких совпадений на значение расстояния должна быть выше.

Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, and использовать его в модифицированной функции расстояния weighted-DTW.

  • Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
  • References:
    1. DTW: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.215.7850&rep=rep1&type=pdf
    2. DBA: https://hal.sorbonne-universite.fr/hal-01630288/document
    3. weighted DTW: http://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ia&paperid=414&option_lang=rus
  • Basic algorithm: Реализовать базовые методы:
    1. Выбор подмножества объектов обучающей выборки как опорных
    2. Предварительная обработка аномальных объектов
    3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
    4. Использование метода DBA для построения опорных объектов
    5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
  • Solution: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы and комбинация up-to-date методов.

  • Novelty: Не проводилось комплексного исследования различных способов построения центроидов and опорных элементов вместе с выбором их оптимального числа.
  • Authors: Алексей Гончаров - consultant, Expert, В.В. Стрижов - Expert

Task 7

  • Name: Привилегированное обучение в задаче аппроксимации границ радужки глаза
  • Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
  • Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[38], [39].
  • References::
    • Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [40]
    • К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
    • Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
  • Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
  • Решение: См. Iris_circle_problem.pdf
  • Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
  • consultant: Радослав Нейчев (автор Strizhov V.V., Expert Матвеев И.А.)

Task 44

  • Name: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
  • Task: Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
  • Данные: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
  • References::
    1. [Обзор методов для оценки объема выборки]
    2. http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
    3. Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

  • Базовый алгоритм: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.

  • Решение: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
  • Авторы: Грабовой А. В. (consultant), Гадаев Т. Т Стрижов В. В. (Expertы)
  • Примечание: для определения простоты выборки предлагается новое определение сложности (Сергей Иванычев). Это отдельная работа, +1 Task 44a (? Катруца).

Task 15

  • Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [41]
  • Task: С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
  • Данные:
    • Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
    • Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
  • References::
  • Базовый алгоритм: [45] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
  • Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
  • Новизна: В первую очередь, интерес представляет объединение задач классификации and регрессии. Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
  • Авторы Sergei Grudinin, Maria Kadukova

Task 27

  • Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
  • Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
  • Данные:
    • Коллекция текстовых документов TREC (!)
    • Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
  • References::
    1. (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
    2. А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [46]
    3. Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [47]
  • Базовой алгоритм: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код and эксперимент.
  • Решение: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
  • Авторы: consultant Андрей Кулунчаков (Inria Montbonnot), Expert В. В. Стрижов

Task 26

  • Name: Определение местоположения по сигналам акселерометра
  • Task: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (Task SLAM)
  • Данные: из работы [1], данные, собранные самостоятельно.
  • References::
    1. https://arxiv.org/pdf/1712.09004.pdf
    2. https://ieeexplore.ieee.org/document/1528431
  • Базовый алгоритм: из работы [1].
  • Решение: Поиск априорной and дополнительной информации, которая позволяет повысить точность позиционирования.
  • Новизна: Постановка задачи в терминах Projection to Latent Spaces
  • Авторы: consultant Анастасия Мотренко, Expert Илья Гарцеев, В. В. Стрижов

Task 45

  • Name: Task поиска символов в изображениях
  • Task: Данная Task в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении and определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным and т.п.
  • Data: Словарь символов
 Сайты-музеи
 Image-net

  • References:
    1. http://www.machinelearning.ru/wiki/images/e/e2/IDP18.pdf (с. 116)
    2. http://www.image-net.org
  • Basic algorithm: CNN
  • Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска and классификации объектов. Определить применимость методов.
  • Novelty: Предлагаемый подход к анализу изображений используется Expertами в ручном режиме and не был автоматизирован
  • Authors: М. Апишев (consultant), Д. Лемтюжникова

Task 28

  • Name: Мультимоделирование как универсальный способ описания выборки общего вида
  • Task: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка and сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
  • Data: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
  • References:
  1. Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
  2. Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
  3. MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
  4. Адуенко А. А. «Выбор мультимоделей в Taskх классификации» кандидатская диссертация
  5. Motrenko, Anastasiya, Strizhov V.V., and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.
  • Basic algorithm: Алгоритм построения адекватных мультимоделей из #4.
  • Solution: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности and ее связи со статистической значимостью.
  • Novelty: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности and статистической значимости для некоторых классов моделей.
  • Authors: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)

Task 11

Task 48

  • Name: Мультимоделирование, привилегированное обучение
  • Task: Рассматривается Task обучения одной модели с помощью другой
  • Data: Выборки временных рядов
  • References::
    1. https://github.com/neychev/distillation_n_privileged_info_torch
    2. https://github.com/neychev/Multitask_forecast_code
    3. Статья по Mixture Experts
    4. Диплом Нейчева http://www.machinelearning.ru/wiki/images/3/36/NeyhevMS_Thesis.pdf
  • Basic algorithm: Смесь Expertов, привилегоированное обучение, дистилляция
  • Решение Выполнить эксперимент, иллюстрирующий эти подходы
  • Новизна: Предложен метод прогнозирования, использующий апроорную информацию о принадлежности выборки модели (опубликовать полученные результаты).
  • Авторы: Р.Г. Нейчев (consultant), В.В. Стрижов

Task 49

  • Name: Декодирование сигналов мозга and прогнозирование намерений
  • Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
  • Data: neurotycho.org [9] (или пальцы)
  • References:
    • Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
    • Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
  • Basic algorithm: Partial Least Squares[11]
  • Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
  • Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
  • Authors: Андрей Задаянчук, В.В. Стрижов

2018

Autumn 2018

Number Project name materials Team
0 (пример) Метрическая классификация временных рядов code,

LinkReview, Discussion

Алексей Гончаров*, Максим Савинов
1 Прогнозирование направления движения цены биржевых инструментов по новостному потоку0 Code,

LinkReview, Slides, Report

Александр Борисов,

Дробин Максим, Говоров Иван, Мухитдинова София, Валентин Родионов, Валентин Ахияров

2 Построение опорных объектов для множества многомерных временных рядов Code

LinkReview

Исхаков Ришат,

Корепанов Георгий, Степан Солоднев Самирханов Данил

3 Динамическое выравнивание многомерных временных рядов Code

LinkReview Slides Report

Глеб Моргачев,

Владислав Смирнов, Татьяна Липницкая

4 Автоматическая настройка параметров АРТМ под широкий класс задач Code,

LinkReview, Presentation

Голубева Татьяна,

Иванова Екатерина, Матвеева Светлана, Трусов Антон, Царицын Михаил, Черноног Вячеслав

5 Нахождение парафразов Code,

LinkReview

Stas Okrug, Nikita Mokrov

Fedor Kitashov, Polina Proskura, Natalia Basimova, Roman Krasnikov, Akhmedkhan Shabanov

6 On conformational changes of proteins using collective motions in torsion angle space and L1 regularization Code,

LinkReview Presentation

Ryabinina Raisa, Emtsev Daniil
7 Privileged training in the problem of approximating the borders of the iris Code,

LinkReview

Pavel Fedosov, Alexey Gladkov,

Genrikh Kenigsberger, Ivan Korostelev, Nikolay Balakin

8 Порождение признаков с помощью локально-аппроксимирующих моделей Code,

LinkReview

Ибрагим Курашов, Наиль Гильмутдинов,

Альберт Мулюков, Валентин Спивак

9 Распознавание текста на основе скелетного представления толстых линий and сверточных сетей Code, LiteratureReview, Slides, report Kutsevol Polina

Lukoyanov Artem Korobov Nikita Boyko Alexander Litovchenko Leonid Valukov Alexandr Badrutdinov Kamil Yakushevskiy Nikita Valyukov Nikolay Tushin Kirill


10 Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста Code, LinkReview, Discussion, Presentation Гайдученко Николай

Торлак Артём Акимов Кирилл Миронова Лилия Гончар Даниил

11 Автоматическое построение нейросети оптимальной сложности Code, LinkReview, report, slides Николай Горян

Александр Улитин Товкес Артем Таранов Сергей Губанов Сергей Криницкий Константин Забазнов Антон Валерий Маркин

12 Обучение машинного перевода без параллельных текстов. Code,

LinkReview, Отчет, Слайды

Александр Артеменков

Ангелина Ярошенко Андрей Строганов Егор Скиднов Анастасия Борисова Рябов Федор Мазуров Михаил

13 Глубокое обучение для предсказания вторичной структуры РНК Code

Link Review

Дорохин Семён

Пастухов Сергей Пикунов Андрей Нестерова Ирина Курилович Анна chat

14 Deep Learning for reliable detection of tandem repeats in 3D protein structures Code

Link Review

Веселова Евгения
15 Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул Code

Link Review

Меркулова Анастасия

Плумите Эльвира Жибоедова Анастасия chat

16 Оценка оптимального объема выборки для исследований в медицине Code

Link Review

Артемий Харатян,

Михаил Михеев, Евгин Александр, Сеппар Александр, Коноплёв Максим, Мурлатов Станислав, Макаренко Степан

17 Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга Code,

LinkReview, Presentation

Наталия Болоболова,

Алина Самохина, Шиянов Вадим

18 Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса. Code,

LinkReview, Presentation, Article

Иван Наседкин, Галия Латыпова,

Нестор Суходольский, Александр Шеменев Иван Бородулин,

19 Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии. Code,

Report, LinkReview, Presentation

Вячеслав Резяпкин, Алексей Русскин,

Виктория Дочкина, Мирон Кузнецов, Ярмошик Демьян

20 Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста Code

LinkReview Отчет, Presentation

Агафонов Алексей, Рякин Илья,Литвиенко Владимир,

Хохлов Иван, Великовский Никита, Ануфриенко Олег

21 Методы выпуклой оптимизации высокого порядка Code,

LinkReview, Slides

Селиханович Даниил,

Соколов Игорь

23 Фрактальный анализ and синтез оптических изображений морского волнения code,

LinkReview, Presentation report

Каныгин Юрий
24 Максимизация энтропии при различных видах преобразований над изображением code,

LinkReview, report, slides

Никита Воскресенский,

Алиса Шабалина, Ярослав Мурзаев, Алексей Хохлов, Алексей Казаков, Ольга Грибова, Александр Белозерцев

25 Автоматическое детектирование and распознавание объектов на изображениях code,

code_A, Slides_for_demo, Report2018Project25_30 Report2018Project25_31 slides_30 slides_25_31 LinkReview

Юлия Демидова

Иван Разумов Владислав Томинин Ярослав Томинин Никита Дудоров Леонид Ерлыгин Прошутинский Дмитрий Баймаков Владимир Зубков Александр Черненкова Елена

26 Определение местоположения по сигналам акселерометра Code,

LinkReview, Слайды, Текст

Эльвира Зайнулина

Фатеев Дмитрий Виталий Протасов Никита Божедомов

28 Мультимоделирование как универсальный способ описания выборки общего вида Code,

Linkreview, Slides, report

Владимир Качанов

Евгения Стрелкова

29 Cross-Language Document Extractive Summarization with Neural Sequence Model Code,

Linkreview, Отчет, Слайды

Павел Захаров

Павел Кваша Евгений Дьячков Евгений Петров Илья Сельницкий

31 Pairwise energy matrix construction for inverse folding problem Code,

LinkReview Report Slides

Рубинштейн Александр
32 Smooth orientation-dependent scoring function Code

Отчёт

Носкова Елизавета

Качков Сергей Сидоренко Антон

Task 5

  • Name: Нахождение парафразов.
  • Task: Парафразы — разные вариации одного and того же текста, одинаковые по смыслу, но отличающиеся лексически and грамматически, например: "Куда поехала машина" and "В каком направлении поехал автомобиль". Task детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного and того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

  • . Data: Есть открытые датасеты вопросов для тестирования and обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
  • References:
    1. Будет позже
  • Basic algorithm: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
  • Solution: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
  • Novelty: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
  • Authors: Артём Попов.

Task 6

  • Name: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
  • Task: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
  • . Data: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
  • References:
    1. Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
    2. Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
    3. SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
    4. Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
    5. https://en.wikipedia.org/wiki/Lasso_(statistics)
    6. E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
  • Basic algorithm: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
  • Novelty: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
  • Authors: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)

Task 10

  • Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
  • Task: Automatically Detect Text in Natural Images.
  • Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
  • References:: COCO benchmark, One of a state-of-the-art architecture
  • Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
  • Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
  • Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
  • Авторы: И. Н. Жариков.
  • Expert: Л. М. Местецкий (морфологические методы).

Task 16

  • Name: Оценка оптимального объема выборки для исследований в медицине
  • Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
  • Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
  • References::
    • Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[51], [52].
  • Базовый алгоритм: Серия эмпирических алгоритмов оценки объема выборки.
  • Решение: Исследование свойств пространства параметров при пополнении выборки.
  • Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
  • Авторы: А.М. Катруца, В.В. Стрижов, координатор Тамаз Гадаев

Task 19

  • Name: Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.
  • Task: Необходимо исследовать зависимость качества распознавания онтологических объектов на различных уровнях гипонимии понятий. Классическая постановка задачи распознавания именованных сущностей: https://en.wikipedia.org/wiki/Named-entity_recognition
  • Data: Гипонимии из https://wordnet.princeton.edu/ , тексты разных доменов предположительно из WebOfScience.
  • References: Релевантные статьи для классической постановки http://arxiv-sanity.com/search?q=named+entity+recognition
  • Basic algorithm: В качестве алгоритма может использоваться https://arxiv.org/pdf/1709.09686.pdf или упрощенная его версия, исследования производятся с использованием библиотеки DeepPavlov.
  • Solution: Необходимо собрать датасет гипонимии (вложенности понятий) объектов с использованием WordNet, произвести автоматическую разметку онтологических объектов текстов различных доменов для нескольких уровней обобщения понятий, провести ряд экспериментов для определения качества распознавания онтологических объектов для разных уровней вложенности.
  • Novelty: Подобные исследования не производились, готовые датасеты с иерархической разметкой объектов отсутствуют. Распознавание онтологических объектов на различных уровнях гипонимии может быть использовано для производства дополнительных признаков при решении различных NLP (Natural language processing) задач, а также определения являются ли объекты парой гипоним-гипероним.
  • Authors: Бурцев Михаил Сергеевич (Expert), Баймурзина Диляра Римовна (consultant).

Task 20

  • Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
  • Task: Задан фрагмент текста and несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального and конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) and 1 (входит в ответ).
  • Data: Предоставляется размеченный датасет с фрагментами текста and наборами вопросов с ответами в диалоге
  • References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
  • Basic algorithm: Базовый алгоритм описан статьях and реализован (QuAC2018, BiDAF2017).
  • Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) and исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
  • Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только базовый алгоритм. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
  • Authors: Антон Сергеевич Хританков

Task 21

  • Name: Методы выпуклой оптимизации высокого порядка
  • Task: Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго and третьего порядка [1], метод из работы [2] второго and третьего порядка and обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так and по общему времени работы.
  • References:
  1. https://alfresco.uclouvain.be/alfresco/service/guest/streamDownload/workspace/SpacesStore/aabc2323-0bc1-40d4-9653-1c29971e7bd8/coredp2018_05web.pdf?guest=true
  2. https://arxiv.org/pdf/1809.00382.pdf
  3. https://arxiv.org/pdf/1711.00394.pdf
  • Автор: Евгения Алексеевна Воронцова (доцент ДВФУ, Владивосток), Александр Владимирович Гасников

Task 22

  • Name: Cutting plane methods for copositive optimization
  • Task: Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. Подробнее тут
  • Данные: The algorithm will be tested on randomly generated instances
  • References:
    • [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
    • [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
    • [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
  • Basic algorithm: The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
  • Solution: The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
  • Novelty: The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
  • Автор: Roland Hildebrand

Task 23

  • Name: Фрактальный анализ and синтез оптических изображений морского волнения
  • Task: Разнообразные физические процессы and явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах and явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины and занимают промежуточное положение между линиями and двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества and может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Task состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн and фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца and пространственном разрешении изображений.
  • References:
    1. Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
    2. Мурынин А. Б. Восстановление пространственных спектров морской поверхности по оптическим изображениям в нелинейной модели поля яркости // Исследования Земли из космоса, 1990. № 6. С. 60-70.
  • Автор: Иван Алексеевич Матвеев

Task 24

  • Название Максимизация энтропии при различных видах преобразований над изображением
  • Task: Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Task паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения and мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
  • Необходимо провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта and допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
  • References:
    1. Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория and системы управления, 2017, № 6.
  • Автор: Иван Алексеевич Матвеев

Task 25

  • Name: Автоматическое детектирование and распознавание объектов на изображениях
  • Task: Автоматическое детектирование and распознавание объектов на изображениях and видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта and классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.

Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные and интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости and освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта and сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом. Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера and др.), решающие деревья and леса, метрические (ближайшие К-соседей, парзеновские окна и т. д.) and ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, and классу изображений, не содержащих объект (изображениям фона).


Task 29

  • Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
  • Task: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) and исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке and параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском and русском наборах.
  • Data: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
  • References: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
  • Basic algorithm: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
  • Solution: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) and варианты объединения моделей сокращения and перевода. Базовые модели and предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch and Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
  • Novelty: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке and указание условий для этого переноса расширит область применения модели and укажет необходимые новые доработки модели или предобработки данных.
  • Authors: Алексей Романов (consultant), Anton Khritankov (Expert).

Task 30

  • Name: Метод построения HG-LBP дескриптора на основе гистограмм градиентов для детектирования пешеходов.
  • Task: Предлагается разработать новый дескриптор, обобщающий LBP дескриптор на основе гистограмм модулей градиентов, имеющий свойства композиции HOG-LBP для задачи детектирования пешеходов на изображении. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
  • Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
  • References:
    1. 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, July, 2002.
    2. 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot,, «On the Role and the Importance of Features for Background Modeling and Foreground Detection», https://arxiv.org/pdf/1611.09099v1.pdf
    3. 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
    4. 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
    5. 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
    6. 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
    7. 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
    8. 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
    9. 9. http://www.cse.oulu.fi/CMV/Research
  • Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
  • Solution: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG and LBP. Необходимо модифицировать исходный код реализации LBP and вставить подсчет модулей градиента and накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных and модифицированных дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR.
  • Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
  • Authors: Гнеушев Александр Николаевич

Task 31

  • Name: Использование HOG дескриптора для обучения нейронной сети в задаче детектирования пешеходов
  • Task: Предлагается заменить линейный SVM классификатор в классическом алгоритме HOG простой сверточной нейронной сетью небольшой глубины, при этом HOG дескриптор должен представляться трехмерным тензором, сохраняющим пространственную структуру локальных блоков. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
  • Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
  • References:
    1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
    2. 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491—1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
    3. 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp. 743—761
    4. 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
    5. 6. https://en.wikipedia.org/wiki/Pedestrian_detection
    6. 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
    7. 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
    8. 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
    9. 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
  • Basic algorithm:
    1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
    2. 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
  • Solution: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG and классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные and одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA and на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
  • Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре and спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе and представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
  • Authors: Гнеушев Александр Николаевич

YEAR

Author Topic Links Consultant Reviewer Report Letters \Sigma=3+13
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH>
Астахов Антон Восстановление структуры прогностической модели по вероятностному представлению folder

code paper

Александр Катруца Кислинский Вадим BHF A-I-L0S0B0R0C0V0T0 [A-I-L-S-B0R0C0V0T0E0D0W0S] + [AILSBRCBTEDWS] 2+4
Гаврилов Юрий Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга folder

code paper video

А.В. Гончаров Остроухов Петр BF A+IL-S0B-R0 [A+ILSBRC-VT0E0D0W0S] + (W) 2+9+1
Гадаев Тамаз Оценка оптимального объема выборки folder

code paper slides video

Александр Катруца Шульгин Егор BHF A-IL>SB-R-C0V0T0 [AILSBR0CVT0E-D0W0S] 2+9
Гладин Егор Экономия заряда акселерометра на основе прогнозирования временных рядов folder

code paper slides

Мария Владимирова Козлинский Евгений

review

.F AILS [A-I-L-SB0R0C000V0T0E0D0W0S] 1+4
Грабовой Андрей Автоматическое определение релевантности параметров нейросети. folder

code paper slides video

Бахтеев О.Ю. Кульков Александр BHMF A+ILS+BRC+VTE>D> [AILSBRCVTEDWS] [\emptyset] 3+13
Нурланов Жакшылык Deep Learning for reliable detection of tandem repeats in 3D protein structures folder

code paper slides video

С. В. Грудинин, Guillaume Pages Плетнев Никита

Review

BHF AILB [A-I-LS-BRC0V0T-E0D0W0S] 2+7
Рогозина Анна Deep learning for RNA secondary structure prediction folder

code paper slides video

Мария Попова Гадаев Тамаз BHMF AILSBR> [AILSBRC0V0T0E0D0W0S]+CW 3+9
Терехов Олег Порождение признаков с помощью локально-аппроксимирующих моделей folder

code paper slides

С.Д. Иванычев, Р.Г.Нейчев Гладин Егор

review

BHM AILSBRCVTDSW [AIL0SB0R0C0V0TE0D0W0S] 2+12
Шульгин Егор Порождение признаков, инвариантных к изменению частоты временного ряда folder

code paper

Р.Г.Нейчев Терехов Олег BHM AIL [AI-LS-BR0CV0T0E0D0W0S] 2+5
Малиновский Григорий Предсказание графовой структуры нейросетевой модели folder

code paper slides video

Бахтеев О.Ю. Грабовой Андрей

review

BHMF A+I+L+SBR>C>V>T>E>D> [AILSBRC0VTED0WS]+(C) 3+11
Кульков Александр Декодирование сигналов мозга and прогнозирование намерений folder

code paper slides video

Р.В. Исаченко Малиновский Григорий

review

BHMF AILSBR [AILSBRCVTED0W0S] 3+11
Плетнев Никита Аппроксимация границ радужки глаза paper

slides [ video]

Александр Адуенко Нурланов Жакшылык BF AILSB>R> [AILSTWS] 2+7
Остроухов Петр Selection of models superposition for identification of a person on the basis of a ballistocardiogram folder

paper code slides

Александр Прозоров Гаврилов Юрий

review

BhF AIL>S?B?R? [AILSBRCVT-E0D0W0S] 2+10
Кислинский Вадим Предсказание музыкальных плейлистов пользователей в рекомендательной системе. folder

code slides paper video

Евгений Фролов Астахов Антон .F (AIL)------(SB)---(RCVT)-- [AILS-BRCVTED0W0S] 1+11
Козлинский Евгений Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов. folder

code paper slides video

Роза Айсина Рогозина Анна

review

BHMF AILSBR>CV> [AILSBR0C0V0TE0D0WS]+(С) 3+8+1


Task 1

  • Name: Аппроксимация границ радужки глаза
  • Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
  • Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[53], [54].
  • References::
    • Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель В.В. Стрижов). Московский физико-технический институт, 2017. [55]
    • К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
    • Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
  • Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
  • Решение: См. Iris_circle_problem.pdf
  • Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
  • consultant: Александр Адуенко (автор Strizhov V.V., Expert Матвеев И.А.)

Task 2

  • Name: Оценка оптимального объема выборки
  • Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
  • Данные: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
  • References::
    • Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[56], [57].
  • Базовый алгоритм: Алгоритмы оценки объема выборки при .
  • Решение: Исследование свойств пространства параметров при пополнении выборки.
  • Новизна: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
  • Авторы: А.М. Катруца, В.В. Стрижов, Expert А.П. Мотренко

Task 3

  • Name: Восстановление структуры прогностической модели по вероятностному представлению
  • Task: Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
  • Данные: Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
  • References::
    • Работы Tommy Yakkola and других в LinkReview [58].
  • Базовый алгоритм: Метод ветвей and границ, динамическое пограммирование при построении полносвязного графа.
  • Решение: Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
  • Новизна: Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
  • Авторы: А.М. Катруца, В.В. Стрижов

Task 4

  • Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
  • Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
  • Данные: Шрифты в растровом представлении.
  • References:: Список работ [59], в частности arXiv:1611.03199 and
  • Базовый алгоритм: Сверточная сеть для растрового изображения.
  • Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
  • Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
  • Авторы: Л.М. Местецкий, И.А. Рейер, В.В. Стрижов

Task 5

  • Name: Порождение признаков с помощью локально-аппроксимирующих моделей
  • Task: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
  • Данные:
    • WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
    • (Временной ряд (библиотека примеров), раздел Accelerometry).
  • References::
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471-1483.[60]
    • Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.URL
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
    • Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. URL
    • Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
  • Базовый алгоритм: Описан в работе Кузнецова, Ивкина.
  • Решение: Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные.
  • Новизна: Создан стандарт построения локально-аппроксимирующих моделей.
  • Авторы: С.Д. Иванычев, Р.Г. Нейчев, В.В. Стрижов

Task 6

  • Name: Декодирование сигналов мозга and прогнозирование намерений
  • Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
  • Данные: neurotycho.org [61]
  • References::
    • Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [62]
    • MLAlgorithms: Motrenko, Isachenko (submitted)
  • Базовый алгоритм: Partial Least Squares[63]
  • Решение: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
  • Новизна: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной.
  • Авторы: Р.В. Исаченко, В.В. Стрижов

Task 7

  • Name: Автоматическое определение релевантности параметров нейросети.
  • Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров and удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
  • Данные: Выборка рукописных цифр MNIST
  • Базовый алгоритм: Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
  • References::
    • [64] Градиентные методы оптимизации гиперпараметров.
    • [65] Градиентные методы оптимизации гиперпараметров.
    • [66] Optimal Brain Damage.
    • [67] AdaNet
    • [68] Метод Белсли
  • Авторы: Oleg Bakhteev, В.В. Стрижов

Task 8

  • Name: Предсказание графовой структуры нейросетевой модели.
  • Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
  • Данные: Выборки MNIST, CIFAR-10
  • Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
  • References::
    • [69] doubly-recurrent нейросети.
    • [70] Схожий подход с использованием обучения с подкреплением.
  • Авторы: Oleg Bakhteev. В.В. Стрижов

Task 9

  • Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
  • Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
  • Данные: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
  • References:: Our previous 3D CNN: [71] Invariance of CNNs (and references therein): [72], [73]
  • Базовой алгоритм: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [74]
  • Решение: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [75],

[76] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.

  • Новизна: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
  • Авторы: Expert Sergei Grudinin, consultants Guillaume Pages, Strizhov V.V.

Task 10

  • Name: Semi-supervised representation learning with attention
  • Task: обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
  • Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) and PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
  • References::

1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198). 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726). 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).

  • Базовый алгоритм: решение [3] или векторные представления, полученные с использованием seq2seq [].
  • Решение: в задаче предлагается обучить векторные представления для фраз, используя механизм attention and метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований and сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной and feed-forward сети.
  • Новизна: новый метод.
  • Авторы: Рита Кузнецова, consultant

Task 11

  • Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
  • Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
  • Данные: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
  • References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
  • Базовой алгоритм: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
  • Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
  • Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
  • Авторы: А.В. Гончаров, В.В. Стрижов.

Task 12

  • Name: Порождение признаков, инвариантных к изменению частоты временного ряда.
  • Task: Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима and при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) and получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, .., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима and при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.

f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.

  • Данные: Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ and акселерометрам.
  • References:: См выше про Акселерометры
  • Базовой алгоритм: Преобразование Фурье.
  • Решение: Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
  • Новизна: Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как and кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках and во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x and y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации and предсказания временных рядов.
  • Авторы: Р. Г. Нейчев, В.В. Стрижов.

Task 14

to be done

Task 15

to be done

  • Name: Иерархическое тематическое моделирование текстовой коллекции
  • Task: (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
  • Данные:
  • References::
    1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
  • Базовой алгоритм:
  • Решение: построение тематической модели с помощью библиотеки BigARTM.
  • Новизна:
  • Авторы: К.В.Воронцов

Task 16

to be done

  • Name: Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
  • Task:
  • Данные:
  • References::
    1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
  • Базовой алгоритм:
  • Решение: построение тематической модели с помощью библиотеки BigARTM.
  • Новизна:
  • Авторы: К.В.Воронцов, consultants Роза Айсина, Филипп Никитин.

Task 17

to be done

Task 18

  • Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
  • Task: Automatically Detect Text in Natural Images.
  • Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
  • References:: COCO benchmark, One of a state-of-the-art architecture
  • Базовой алгоритм: code + морфологические методы, Avito 2014 winner's solution.
  • Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
  • Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
  • Авторы: И.Н. Жариков.
  • Expert: Л.М. Местецкий (морфологические методы).

YEAR

Group 594

Author Topic Link Consultant Reviewer Report Letters \Sigma=3+13
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH>
Белых Евгений Проскурин Александр Классификация суперпозиций движений физической активности paper

slides code

Мария Владимирова, Александра Малькова Романенко Илья, Поповкин Андрей, review

video

MF AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD 2+9
Зуева Надежда Style Change Detection paper

slides video

Рита Кузнецова Игашов Илья, review BHMF AIL-S-B-R- [AILSBRCV0TE0D0WS] 3+10
Игашов Илья Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. paper

slides video

Sergei Grudinin, Maria Kadukova Манучарян Вардан, review, correction BHMF AILBS+BRHC>V> [AILSBRCVTE0D0WS] 3+11
Калугин Дмитрий Предсказание графовой структуры нейросетевой модели paper

slides

Бахтеев Олег Зуева Надежда review BHM AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS] 2+11
Манучарян Вардан Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей paper,

slides, code video

Sergei Grudinin, Maria Kadukova Фаттахов Артур review BMF AILS>B> [AILSB0R0CV0TE0D0WS] VED 3+7
Муравьев Кирилл Определение параметров нейросети, подлежащих оптимизации. paper,

slides, code video

Бахтеев Олег Калугин Дмитрий review BHMF A+IL-S-B-RCVTED [AILSBRCV0TE0DWS] 3+12
Мурзин Дмитрий Данилов Андрей Распознавание текста на основе скелетного представления толстых линий and свёрточных сетей paper, slides, code

[video]

Л. М. Местецкий, Иван Рейер, Жариков И. Н. Муравьев Кирилл review BHMF A+IL> [AILSB0R0CV0TE0D0WS] 3+8
Поповкин Андрей Романенко Илья Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей paper

slides code video

Кулунчаков Андрей, В. В. Стрижов Проскурин Александр, Белых Евгений, review BHMF AILS0BC>V> [AILSBRC0VTED0WS] 3+11
Фаттахов Артур Style Change Detection paper

slides code video

Рита Кузнецова Данилов Андрей, Мурзин Дмитрий, рецензия BMF AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS] 3+11


Task 1 (1-2)

  • Name: Классификация суперпозиций движений физической активности
  • Task: Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.

Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.)

  • Данные:
  • References::
    • Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
    • Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471—1483. [URL]
    • Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
    • Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [URL]
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
  • Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
  • Решение: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
  • Новизна: Предложен способ классификации and анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
  • Авторы: Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,

Task 2 (1)

  • Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
  • Task: Automatically Detect Text in Natural Images.
  • Данные: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
  • References:: COCO benchmark, One of a state-of-the-art architecture
  • Базовой алгоритм: code + морфологические методы, Avito 2014 winner’s solution.
  • Решение: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
  • Новизна: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
  • Авторы: И. Н. Жариков.
  • Expert: Л. М. Местецкий (морфологические методы).

Task 3 (1-2)

  • Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
  • Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
  • Данные: Шрифты в растровом представлении.
  • References:: Список работ [77], в частности arXiv:1611.03199 и
  • Базовый алгоритм: Сверточная сеть для растрового изображения.
  • Решение: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
  • Новизна: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
  • Авторы: Л. М. Местецкий, И. А. Рейер, В. В. Стрижов

Task 4 (1-2)

  • Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
  • Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
  • Данные:
    • Коллекция текстовых документов TREC (!)
    • Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
  • References::
    • (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
    • А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [78]
    • Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [79]
  • Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
  • Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
  • Авторы: Кулунчаков Андрей, В. В. Стрижов

Task 5 (1)

  • Name: Определение параметров нейросети, подлежащих оптимизации.
  • Task: Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
    • а) Параметры модели, подлежащие оптимизации
    • б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.

Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.

  • Данные: Выборка рукописных цифр MNIST
  • Базовый алгоритм: Случайный выбор параметров.
  • References::
    • [80] SGD как стохастический процесс.
    • [81] Вариационный вывод в нейросетях.
  • Новизна: полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления and удаления слоев.
  • Авторы: Бахтеев Олег, В. В. Стрижов

Task 6 (1)

  • Name: Предсказание графовой структуры нейросетевой модели.
  • Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
  • Данные: Выборки MNIST, CIFAR-10
  • Базовый алгоритм: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
  • References::
    • [82] doubly-recurrent нейросети.
    • [83] Схожий подход с использованием обучения с подкреплением.
  • Авторы: Бахтеев Олег, В. В. Стрижов

Task 7 (1)

PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)

  • References::

1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)

  • Базовый алгоритм: решение, описанное в [3, 4].
  • Решение: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
  • Новизна: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
  • Авторы: Рита Кузнецова (consultant), В. В. Стрижов

Task 8 (1)

  • Name: Получение оценок правдоподобия с использованием автокодировщиков
  • Task: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
  • Данные: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
  • References::
    1. Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
    2. Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
    3. Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)
  • Базовый алгоритм:
  • Решение: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
  • Новизна: получение оценок правдоподобия данных and правдоподобия модели, порождение текстов с помощью полученных оценок.
  • Авторы: Рита Кузнецова (consultant).

Task 9 (1)

  • Name: Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей.
  • Task: Multilabel classification using convolutional neural networks (CNN) on graphs.

Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты and химические элементы атомов, длины связей and величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов and типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, and типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, and было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин and рёбер молекулярных графов :

    • тип атома (тип вершины графа, около 150 классов),
    • гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
    • тип связи (вспомогательный признак, тип ребра, 5 классов).

Тип атома (вершины графа) основан на информации о его гибридизации and свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.

  • Данные: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты and химический элемент. Дополнительно посчитаны длины связей, величины углов and двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл and является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.

Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.

  • References::
  • Базовой алгоритм: Предсказание гибридизаций and порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
  • Решение: Предлагаемое решение задачи and способы проведения исследования.

Способы представления and визуализации данных and проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) and сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.

  • Новизна: Предложенные молекулярные графы обладают 3D структурой and внутренней иерархией, что делает их идеальным объектом применения CNN.
  • Авторы: Sergei Grudinin, Maria Kadukova, В. В. Стрижов.

Task 10 (1)

  • Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [87]
  • Task:

С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)

  • Данные:
    • Данные для бинарной классификации.

Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.

    • Данные для регрессии.

Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.

  • References::
  • Базовой алгоритм: [91]

В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.

  • Решение: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.

Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.

  • Новизна': В первую очередь, интерес представляет объединение задач классификации and регрессии.

Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.

  • Авторы Sergei Grudinin, Maria Kadukova, В. В. Стрижов.

2017

Author Topic Link Consultant Reviewer Report Letters
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH>
Алексеев Василий Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций code

data paper slides video

Виктор Булатов Захаренков Антон BMF AILSB+RC+V+TDHW
Аникеев Дмитрий Локальная аппроксимация временных рядов для построения прогностических метамоделей code

paper slides

В.В. Стрижов Смердов Антон BMF AILS>B0R0C0V0T0D0H0W0
Гасанов Эльнур Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме code paper

slides

Анастасия Мотренко Ковалев Дмитрий BMF AILSBRCVTDH0W0
Захаренков Антон Massively multitask deep learning for drug discovery code

paper slides video

Мария Попова Алексеев Василий BMF AILSBRCVT>D>H0W0
Ковалев Дмитрий Unsupervised representation for molecules code

paper slides

Мария Попова Гасанов Эльнур BMF AILSBRCVT>D>H0W0
Новицкий Василий Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов paper

code slides

Александр Катруца B - F AILS>B0R0C0V0T0D0H0W0
Селезнева Мария Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента paper

code slides video

Ирина Ефимова Шолохов Алексей BMF A+IL+SBRCVTDHW
Смердов Антон Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза paper

code slides video

Oleg Bakhteev Дмитрий Аникеев BMF AIL+SB+RC>V+M-T>D0H0W0
Уваров Никита Оптимальный алгоритм для восстановления динамических моделей paper

slides code video

Yuri Maksimov BMF AILS0B0R0C0V0T0D0H0W0
Усманова Карина Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices) paper

slides code video

Михаил Карасиков Иннокентий Шибаев BMF AILSBRC+VT+EDH>W
Шибаев Иннокентий Convex relaxations for multiple structure alignment (synchronization problem for SO(3)) paper

slides code video

Михаил Карасиков Карина Усманова BMF AILS-BRCVT>D>H>W
Шолохов Алексей Помехоустойчивость методов информационного анализа ЭКГ-сигналов

paper code slides video

Влада Бунакова Селезнева Мария BMF AILSBRCVTDHW


Академ или новые

Author Topic Link Consultant Reviewer Report Letters
Кульков Александр Адаптивные релаксации NP трудных задач через машинное обучение paper Yuri Maksimov академ A>I>L>B0R0C0V0T0D0H0W0
Калошин Павел Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.

paper code data

Anton Khritankov - MF AIL-SBRC-VT+D>H>W0
Малиновский Григорий Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга paper

code

Александр Адуенко академ B - - AILS-B>R>C>V>T0D0H0W0
Плетнев Никита Детектирование внутреннего плагиата paper Рита Кузнецова академ - - - A-I-L-S>B0R0C0V0T0D0H0W0
Гревцев Александр Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN

paper

Каринэ Абгарян
Зайцев Никита Автоматическая классификация научных статей по кристаллографии

paper readme

Евгений Гаврилов
Дилигул Александр Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным and результатам квантово-механических расчетов

paper

Каринэ Абгарян
Дарья Фокина Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов Алексей Романов AILSB0R0C0V0T0D0H0W0

Task 1

  • Name: Классификация видов деятельности человека по измерениям фитнес-браслетов.
  • Task: По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
  • Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
  • References::
    • Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
    • Исаченко Р.В., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
    • Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
    • Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
    • Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
  • Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
  • Решение: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
  • Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
  • Авторы: В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.

Task 2

  • Name: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
  • Task: В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки and является избыточным. Требуется предложить метод снижения размерности признакового пространства.
  • Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
  • References::
    • Макарчук Г.И., Задаянчук А.И. Strizhov V.V. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
    • Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
  • Базовой алгоритм: PLS

Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.

  • Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
  • Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
  • Авторы: В.В. Стрижов, А.П. Мотренко

Task 3

  • Name: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
  • Task: Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
  • Данные: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
  • References:: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.

Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905. Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623

  • Базовой алгоритм: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
  • Решение: Вычисление гессианов (C++ код у Сергея), изучение and запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
  • Новизна: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
  • Авторы: Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.

Task 4

  • Name: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
  • Task: Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
  • Данные: Структуры белков в PDB формате в различных состояниях and системах координат.
  • References::
    • Multiple structural alignment:
      1. Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
      2. Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
      3. Diamond,R. (1992) Protein Sci., 1, 1279-1287.
      4. May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
    • Synchronisation problem:
      1. O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
      2. L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
      3. Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
      4. Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
      5. Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
    • Spectral relaxation for SO(2)
      1. A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
    • Spectral relaxation for SO(3)
      1. M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
      2. A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
  • Базовой алгоритм: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions

Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569

  • Решение: Два варианта постановки оптимизационных задач (через матрицы поворота and через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом and релаксациями (spectral relaxation, SDP).
  • Новизна: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
  • Авторы: Грудинин Сергей, consultant: Карасиков Михаил.

Task 5

  • Name: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
  • Task: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
  • Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями and соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
  • References::
    • Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
  • Базовой алгоритм: [Карасиков 2016]
  • Решение: См. описание задачи.
  • Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
  • Авторы: В.В. Стрижов

Task 6

  • Name: Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
  • Task: Задана выборка пар предложений с метками <<похожие>> and <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
  • Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) and PPDB (набор коротких сегментов, не всегда корректная разметка)
  • References::
    • [1] Пошаговое описание реализации рекуррентной сети LSTM
    • [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
    • [3] Optimal Brain Damage
  • Базовый алгоритм: В качестве базового алгоритма могут выступать:
    1. Решение без прореживания
    2. Решение, описанное в [3]
    3. Otimal Brain Damage
  • Решение: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
  • Новизна: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
  • Авторы: Oleg Bakhteev, consultant

Task 7

  • Name: Детектирование внутреннего плагиата
  • Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
  • Данные: Предлагается рассмотреть корпус PAN-2011, PAN-2016
  • References::
    • [1] Пошаговое описание реализации рекуррентной сети LSTM
    • [2] Алгоритм кластеризации авторов
    • [3] Statistical Language Models Based on Neural Networks
    • [4] Methods for intrinsic plagiarism detection and author diarization
  • Базовый алгоритм: В качестве базового алгоритма может выступать решение, описанное в [4].
  • Решение: Предлагается рассмотреть метод, описанный в [2] and строить стилевую функцию, основываясь на выходах нейронной сети.
  • Новизна: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
  • Авторы: Рита Кузнецова, consultant

Task 8

  • Name: Адаптивные релаксации NP трудных задач через машинное обучение
  • Task: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач and в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. and последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.

Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов and более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве and в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.

  • References:: Методы семплинга/машинного обучения:
    1. Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
    2. Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
    3. Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.

Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.

  • Данные: данные ieee + matpower содержащие описания энергетических сетей and режимов их функционирования.
  • Новизна: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
  • Автор: consultant: Yuri Maksimov, Expert: Михаил Чертков

Task 9

  • Name: Оптимальный алгоритм для восстановления динамических моделей.
  • Task: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы and получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение and являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа and параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения and имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
  • Данные: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
  • References::
    1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
    2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
    3. Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
    4. Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
    5. Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
  • Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
  • Новизна: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
  • Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков

Task 10

  • Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
  • Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
  • Данные: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
  • References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
  • Базовой алгоритм: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
  • Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
  • Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
  • Авторы: А.А. Адуенко, В.В. Стрижов.

Task 11

  • Name: Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
  • Task: Решается Task прогнозирования биомедицинских сигналов and сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так and независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
  • Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
  • References:: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
  • Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
  • Решение: построить матрицу плана с субоптимальным набором объектов and признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
  • Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
  • Авторы: А.М. Катруца, В.В. Стрижов.

Task 12

  • Name: Massively multitask deep learning for drug discovery
  • Task: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
  • Данные: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
  • References:: https://arxiv.org/pdf/1502.02072
  • Базовой алгоритм: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
  • Решение: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу and предсказывает её биологическую активность против всех протеинов в выборке.
  • Новизна: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
  • Авторы: Expert -- Александр Исаев, consultant -- Мария Попова

Task 13

  • Name: Unsupervised representation for molecules
  • Task: Разработать unsupervised метод для репрезентации молекул
  • Данные: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
  • References:: https://www.cs.toronto.edu/~hinton/science.pdf
  • Базовой алгоритм: в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
  • Решение: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
  • Новизна: построение end-to-end модели для получения информативных признаков
  • Авторы: Expert -- Александр Исаев, consultant -- Мария Попова

Task 14

  • Name: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
  • Task: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически and хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана and Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости and когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
  • Данные: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
  • References::
    1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
    2. N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013.
    3. D.Newman et al. Automatic evaluation of topic coherence, 2010
    4. D.Mimno et al. Optimizing semantic coherence in topic models, 2011
    5. http://palmetto.aksw.org/palmetto-webapp/
  • Базовой алгоритм: Стандартные методы оценивания интерпретируемости and когерентности тем в тематических моделях.
  • Решение: Новый метод измерения интерпретируемости and когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости and когерентности, аналогичные [D.Newman, 2010].
  • Новизна: внутритекстовые меры интерпретируемости and когерентности ранее не предлагались.
  • Авторы: К.В.Воронцов. consultants: Виктор Булатов, Анна Потапенко, Артём Попов.

Task 15

  • Name: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
  • Task: Реализовать and сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
  • Данные: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
  • References::
    1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
    2. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение and анализ данных, 2016. T. 2. № 2.
  • Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
  • Решение: Построить тематическую модель с модальностями источников and выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
  • Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
  • Авторы: К.В.Воронцов. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.

Task 16

  • Name: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
  • Task: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность and поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC and MAP ранжирования диагнозов.
  • Данные: Выборка электрокардиограмм с известными диагнозами.
  • References::
    1. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика and информация», 2008. - 116с
    2. Технология информационного анализа электрокардиосигналов.
  • Базовой алгоритм: Методы классификации .
  • Решение: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC and MAP (ранжирования диагнозов).
  • Новизна: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
  • Авторы: К.В.Воронцов. consultants: Влада Целых.

Task Vorontsov +

  • Title: Dynamic hierarchical thematic model of the news flow.
  • Task: Develop an algorithm for classifying topics in news flows into new and ongoing ones. Apply the obtained criteria for creating new topics at all levels of the topic model hierarchy when adding the next piece of data to the text collection (for example, all news for one day).
  • Data: Collection of news in Russian. A subsample of news classified into two classes: new and ongoing topics.
  • Literature:
    1. Vorontsov K.V. Review of probabilistic thematic models, 2017.
    2. Chirkova N. A, Vorontsov K. V. Additive regularization of multimodal hierarchical topic models // Machine Learning and Data Analysis , 2016. T. 2. No. 2.
  • Basic Algorithm: An algorithm for constructing a thematic hierarchy in BigARTM, implemented by Nadezhda Chirkova. Known Topic Detection & Tracking algorithms.
  • Solution: Using BigARTM, selecting regularizers and their parameters, using the topic selection regularizer. Building an algorithm for classifying topics into new and ongoing.
  • Novelty: Additive regularization of topic models has not been applied to this problem before.
  • Authors: KV Vorontsov. Consultants: Alexander Romanenko, Artyom Popov.

Task Antiplagiarism +

  • Name: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
  • Task: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
  • Данные: PAN
  • References::
    1. Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
  • Базовый алгоритм: метод шинглов с построением обратного индекса.
  • Решение: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) and последующий поиск ближайших объектов в многомерном метрическом пространстве.
  • Новизна: новый подход к решению задачи.
  • Авторы: Алексей Романов (consultant)

Additional tasks

Task Vorontsov +

  • Name: Тематическое моделирование отрасли экономики по транзакционным данным банка.
  • Task: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений and найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
  • Данные: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
  • References::
    1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
  • Базовой алгоритм: Стандартные методы неотрицательных матричных разложений.
  • Решение: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
  • Новизна: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
  • Авторы: К.В.Воронцов. consultants: Виктор Сафронов, Роза Айсина.

Task scoring +

  • Name: Порождение and выбор признаков при построении модели кредитного скоринга.
  • Task: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
  • Данные: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
  • References:: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
  • Базовой алгоритм: Алгоритм построения скоринговой модели, рекомендуемый SAS.
  • Решение: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
  • Новизна: Предложена функция ошибки, при использовании который порождение and выбор признаков, а также оптимизация параметров модели выполняются совместно.
  • Авторы: Т.В. Вознесенская, В.В. Стрижов.

Task Popova +

  • Name: Representation of molecules in 3D
  • Task: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной and трансляционной инвариантности.
  • Данные: Миллионы молекул, заданные 3D координатами
  • References:: https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
  • Базовой алгоритм: low rank matrix/tensor factorization
  • Решение: Молекулы имеют различное число атомов, and поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
  • Новизна: существующие алгоритмы зависят от числа атомов в молекуле
  • Авторы: Expert -- Александр Исаев, consultant -- Мария Попова

Task Maksimov +

  • Name: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY and Гейзенберга).
  • Task: Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- and трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
  • Данные: Симулированные конфигурации блочных спиновых моделей.
  • References::
    1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
    2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
    3. Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
  • Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
  • Новизна: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
  • Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков

Task Khritankova (Transfer Learning)

  • Name: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
  • Task:
    1. Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, and который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
    2. Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
  • Данные: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
  • References::Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.

Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).

  • Базовой алгоритм: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
  • Решение: Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда and применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) and предложить доработку для повышения устойчивости (robustness).
  • Новизна: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
  • Авторы: Хританков


Task INRIA-МТФИ +

  • Name: Оценка энергии связывания белка and маленьких молекул.
  • Task: Моделирование связывания белка and маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка and лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, and несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
  • Данные: Около 10000 комплексов: для каждого из них есть 1 нативная поза and 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением and использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
  • References:: PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
  • Базовой алгоритм: Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
  • Решение: Необходимо свести использованную ранее задачу SVM к задаче регрессии and решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так and несколько других тестовых сетов с аналогичными Taskми, но другими данными.
  • Новизна: Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.

Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения and оптимизации интерес представляет объединение задач классификации and регрессии.

  • Добавление Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) and несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но and вычислительная сложность предсказания.
  • Авторы: Sergei Grudinin, Maria Kadukova

Task Strizhov and Kulunchakov +

  • Name: Creation of delay-operators for multiscale forecasting by means of symbolic regression
  • Task: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
  • Данные: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
  • References:: to be handed by V.V.Strijov
  • Базовой алгоритм: to be handed by V.V.Strijov
  • Решение: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
  • Новизна: to be handed by V.V.Strijov
  • Авторы: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov


2016

Author Topic Link Consultant Reviewer Report Letters Grade Magazine
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSWH> 10 ИИП
Баяндина Анастасия Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях paper

slides video

Анна Потапенко Олег Городницкий BF AILSB++RCVTDEWHS 10
Белозерова Анастасия Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов code

paper slides video

Влада Целых Малыгин Виталий BF AILSB+RC+VTD>E0WH>S 10
Владимирова Мария Бэггинг нейронных сетей в задаче предсказания биологической активности клеточных рецепторов code

paper slides vido

Мария Попова Володин Сергей BMF AILSBRCVTD>E>WHS 10
Володин Сергей Вероятностный подход для задачи предсказания биологической активности ядерных рецепторов code paper slides

video, itis

Мария Попова Мария Владимирова BMF AILSBRCVTDEWHS 10
Городницкий Олег Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям code

paper slides, itis

Михаил Трофимов Анастасия Баяндина M A++I++L++S+B+R+C++VTDE+WH 10
Иванычев Сергей Синергия алгоритмов классификации (SVM Multimodelling) code

paper slides

Александр Адуенко BM A+I+L++S+BRCVTDEW+H 10
Ковалева Валерия Регулярная структура редких макромолекулярных кластеров code

paper slides video, itis

Ольга Вальба, Yuri Maksimov Дмитрий Федоряка BM A+IL+SBRCVTD0E0WH 10
Макарчук Глеб Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян code,

paper slides video

Андрей Задаянчук BF AI+L+S+BRС>V>T+D>E0WH>S 10
Малыгин Виталий Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков в задаче медицинской диагностики методом В. М. Успенского code,

paper, slides

Шаура Ишкина Белозёрова Анастасия B AILSBRCVTDEWH 10
Молибог Игорь Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата

paper, doc, slides, itis

Анастасия Мотренко Сафин Камиль BMF AILSBRCVTDEWHS 10
Погодин Роман Определение положения белков по электронной карте code, paper, slides

video, itis

Александр Катруца Андрей Рязанов BMF AILSBRСVTDEWHS 10
Рязанов Андрей Восстановление первичной структуры белка по геометрии его главной цепи folder

paper slides video, itis

Михаил Карасиков Роман Погодин BMF AIL+SBRC++VTD+EWHS 10
Сафин Камиль Определение заимствований в тексте без указания источника code, paper

slides video

Михаил Кузнецов Молибог Игорь BMF AIL+SBRC>V>T>D>E0WHS 10
Федоряка Дмитрий Смеси моделей векторной авторегрессии в задаче прогнозирования временных рядов code,

slides, paper

Радослав Нейчев Ковалева Валерия BM AILSBRCV-T>D0E0WH> 10
Цветкова Ольга Построение скоринговых моделей в системе SAS code,

paper slides

Раиса Джамтырова Чигринский Виктор BF A+I+L+S+B+R+C+V0T0D0E0WH>S 10
Чигринский Виктор Аппроксимация границ радужки глаза code paper

slides video

Юрий Ефимов B AI+L+SBRCV+TDEHFS 10

Task 1

  • Данные: Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
  • References:: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют and boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
  • Базовой алгоритм: Описан в постановке задачи
  • Решение: модификация базового алгоритма, или просто сам базовый алгоритм. Главное - сравнить с другими методами and сделать выводы, в частности о связи наличия улучшения в качестве and разнообразия множеств опорных объектов, построенных разными SVM ами.
  • Новизна: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
  • consultant: Александр Адуенко

Task 2

  • Name: Темпоральная тематическая модель коллекции пресс-релизов.
  • Task: Разработка методов анализа тематической структуры большой текстовой коллекции and её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости and полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности and событийности.
  • Данные: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
  • References::
    1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
  • Базовой алгоритм: Классический LDA Д.Блэя c post-hoc анализом времени.
  • Решение: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости and полноты.
  • Новизна: Критерии устойчивости and полноты тематических моделей являются новыми.
  • consultant: Никита Дойков, автор задачи К.В.Воронцов.

Task 3

  • Name: Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов.
  • Task: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания and построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе and удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически and по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
  • Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
  • References:: выдадим :)
  • Базовой алгоритм: Линейный классификатор.
  • Решение: Методы линейной регрессии, линейной классификации, отбора признаков.
  • Новизна: Task согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
  • consultant: Влада Целых, автор задачи К.В.Воронцов.

Task 4

  • Name: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
  • Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов and определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
  • Данные: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
  • References:: выдадим :)
  • Базовой алгоритм: Модели классификации В.Целых, тематическая модель С.Цыгановой.
  • Решение: Тематическая модель, реализованная с помощью библиотеки BigARTM.
  • Новизна: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
  • consultant: Светлана Цыганова, автор задачи К.В.Воронцов.

Task 5

  • Name: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
  • Task: Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, and т.д.). Тематические модели дают интерпретируемые векторные представления слов and документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства and свободной от недостатков обеих моделей.
  • Данные: Коллекции социальных сетей ЖЖ and ВК.
  • References:: выдадим :)
  • Базовой алгоритм: Тематические модели, ранее построенные на этих данных.
  • Решение: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
  • Новизна: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей and модели word2vec.
  • consultant: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.

Task 7

  • Name: определение положения белков по электронной карте
  • Task: неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы and вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей and вектором.
  • Данные: экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
  • References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
  • Базовой алгоритм: методы квадратичного программирования с различными релаксациями
  • Решение: минимизация суммарной энергии белкового комплекса
  • Новизна: применение методов квадратичного программирования and исследование их точности в Taskх восстановления электронных карт
  • consultant: Александр Катруца, автор задачи: Sergei Grudinin.
  • Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX

Task 8

  • Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
  • Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
  • Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
  • References::
    • Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
    • Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
    • Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
    • LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
    • Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
  • Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
  • Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
  • Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
  • consultant: Oleg Bakhteev

Task 9

  • Name: восстановление первичной структуры белка по геометрии его главной цепи
  • Task: на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
  • Данные: на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
  • References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
  • Базовой алгоритм: методы квадратичного программирования с различными релаксациями
  • Решение: минимизация суммарной энергии белка
  • Новизна: применение методов квадратичного программирования and исследование их точности
  • consultant: Михаил Карасиков, автор задачи: Sergei Grudinin.
  • Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX

Task 10

  • Name: Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
  • Task: В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
  • Данные: описание 8500+ протеинов and метки для 12 рецепторов
  • References:: будет отправлена studentу
  • Базовой алгоритм: multi-task lasso регрессия из библиотеки python scikit-learn
  • Решение: обобщение линейной регрересси на случай multi-task в вероятностной интерпретации
  • Новизна: Multi-task learning подход является новаторским в области drug design
  • consultant: Мария Попова
  • Желательные навыки: понимание and интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python

Task 11

  • Name: Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
  • Task: В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой and предсказывать взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
  • Данные: описание 8500+ протеинов and метки для 12 рецепторов
  • References:: будет отправлена studentу
  • Базовой алгоритм: двухслойная нейронная сеть
  • Решение: Композиция базовых классификаторов бэггинг
  • Новизна: Такой подход является новаторским в области drug design
  • consultant: Мария Попова

Task 12

  • Name: Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
  • Task: Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры and избежать поломки или минимизировать потери.
  • Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
  • References:: Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
    • Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [92]
    • Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[93]
    • Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
  • Базовый алгоритм: Бустинг, алгоритм Adaboost.
  • Решение: Использовать для построения проноза смесь нескольких линейных моделей вместо одной сложной.
  • Новизна: Доработано пространство параметров для смеси моделей в векторной авторегрессии.
  • consultant: Радослав Нейчев

Task 13

  • Name: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
  • Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
  • Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
  • References:: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
    • Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[94]
  • Базовый алгоритм: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
  • Решение: Применить метод Белсли для обнаружения коррелирующих признаков.
  • Новизна: Метод Белсли применяется для векторной авторегрессии.
  • consultant: Радослав Нейчев

Task 14

  • Name: Порождение признаков в задаче прогнозирования.
  • Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
  • Данные: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
  • References:: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
    • М.П. Кузнецов, В.В. Стрижов, М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[95]
  • Базовый алгоритм: Непараметрические порождающие функициии.
  • Решение: Применить к признакам квазилинейные and нелинейные преобразования зависящие от параметра.
  • Новизна: Предложен новый набор признаков для решения авторегрессионных задач.
  • consultant: Roman Isachenko

Task 15

  • Name: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
  • Task: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
  • Данные: Многомерные временные ряды с показаниями ECOG and данные о движении обезьян [96]
  • References:: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
    • Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[97]
  • Базовый алгоритм: Вейвлет-преобразование (англ. Wavelet transform)
  • Решение: Выделение признаков из ECoG различными методами.
  • Новизна: Анализ оптимальности Вейвлет-преобразования в Taskх обработки ECoG сигналов
  • consultant: Задаянчук Андрей

Task 16

  • Name: Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
  • Task: Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию and параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [98]
  • Данные: модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
  • References::
    • "ACCAMS: Additive Co-Clustering to Approximate Matrices Succinctly" (Beutel, Amr Ahmed, Smola)
    • "Non-linear Matrix Factorization with Gaussian Processes" (Neil D. Lawrence)
    • "Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
  • Базовый алгоритм: Низкоранговое приближение
  • Решение: and параметры, and параметризацию искать из данных.
  • Новизна: Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
  • consultant: Михаил Трофимов
  • Желательные навыки: python

Task 17

  • Name: Построение скоринговых моделей в системе SAS (либо MATLAB).
  • Task: Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
  • Данные: Кредитная история/анкеты потенциальных заемщиков [99], [100].
  • References::
  • Базовый алгоритм: Логистическая регрессия
  • Решение: Смесь моделей
  • Новизна: Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так and мультимоделирование.
  • consultant: Раиса Джамтырова
  • Желательные навыки: SAS

Task 18

  • Name: Аппроксимация границ радужки глаза.
  • Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
  • Данные: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)

[101], [102].

  • References::
    • К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
    • Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
  • Базовый алгоритм: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
  • Решение: См. Iris_circle_problem.pdf
  • Новизна: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
  • consultant: Юрий Ефимов (автор Стрижов, Expert Матвеев)

Task 19

  • Name: Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
  • Task: Технология информационного анализа электрокардиосигналов по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие and более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
  • Данные: Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
  • References::
  • Базовой алгоритм: линейный наивный байесовский классификатор с отбором признаков.
  • Решение: Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
  • Новизна: Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков and улучшать качество классификации.
  • consultant: Ишкина Шаура, Кулунчаков Андрей (MVR Composer), автор задачи: К.В.Воронцов

Task 20

  • Name: Модель порождения объектов в задаче прогнозирования временных рядов
  • Task: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
  • Данные: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
  • References::
    • Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
    • Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
    • Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
    • Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [103]
  • Базовой алгоритм: Различные эвристики
  • Постановка задачи: Формулировка and подробное описание задачи приведено по ссылке [104]
  • Новизна: рассмотрение модели порождения данных в подобной задаче
  • consultant: Гончаров Алексей

Task 21

  • Name: Алгоритм прогнозирования структуры локально-оптимальных моделей
  • Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
  • Данные: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
  • References::
    • А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [105]
    • Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [106]
  • Базовой алгоритм: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
  • Решение: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
  • consultant: Кулунчаков Андрей

Task 22

  • Name: Определение заимствований в тексте без указания источника
  • Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
  • Данные: Коллекция конкурса PAN-2011.
  • References::
    1. Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
  • Базовый алгоритм, решение: На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов and символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм and сравнить его с базовым методом.
  • consultant: Михаил Кузнецов

Task 23

  • Name: Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
  • Task: Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных and возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
  • Данные: Коллекция конкурса PAN-2011.
  • References::
    1. Problem_statement_dim_reduce.pdf‎
    2. Laurens van der Maaten. Visualizing Data using t-SNE Journal of Machine Learning Research, 9 (2008) 2579-2605.
    3. Julian Brooke and Graeme Hirst. Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features, 2012.
  • Базовой алгоритм, решение: См. [1]
  • consultant: Мотренко Анастасия

Task 26

  • Name: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
  • Task: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии and регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
  • Данные: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
  • References::
    1. Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
    2. Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
    3. Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
    4. Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
    5. Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
  • Базовой алгоритм: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
  • Решение: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, and поправки к предобусловливателю.
  • Новизна: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения and быстродействие полученного алгоритма.
  • consultant: Владимир Анатольевич Гаранжа (ВЦ РАН).

Task 27

  • Name: Кросс-язычный тематический поиск научных публикаций.
  • Task: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке and выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
  • Данные: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
  • References:: выдадим.
  • Базовой алгоритм: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv and двуязычной англо-русской Википедии.
  • Решение: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
  • Новизна: Такого сервиса в русскоязычном интернете пока нет.
  • consultant: Марина Суворова.

Task 28

  • Name: Поиск резонансных частот в растворах полимеров.
  • Task: Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
  • Данные: Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
  • References:: Nazarov L. I. et al. A statistical model of intra-chromosome contact maps //Soft matter. – 2015. – Т. 11. – №. 5. – С. 1019-1025.
  • Базовой алгоритм: Монте-Карло.
  • Новизна: В настоящее известен алгоритм оценка спектральной плотности линейных цепочек, вопрос с оценкой спектральной плотности ансамблей деревьев открытый.
  • consultant: Ольга Вальба, Yuri Maksimov, Автор задачи: Нечаев Сергей.

YEAR

Author Topic Link Consultant Reviewer Report Letters Grade Magazine
Гончаров Алексей (пример) Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук Андрей BMF AILSBRCVTDSW 10 ИИП
Ахтямов Павел Отбор мультикоррелирующих признаков в задаче векторной авторегрессии code,

paper, slides

Радослав Нейчев Медведева Анна BF AI+LSB++R+CVTDEH 10
Батаев Владислав Тематическая модель классификации для диагностики заболеваний по электрокардиограмме code,

paper

Светлана Цыганова B AIL-S++B>R>C0V0T0D0E0W0H> >26.05 (7)
Иванов Илья Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения code,

paper, slides

Oleg Bakhteev BF A+ILS+B+R++C+VT+DEW0H 10
Медведева Анна Модель порождения объектов в задаче прогнозирования временных рядов code

paper slides

Гончаров Алексей Ахтямов Павел BF AILS-BRCVTD0EWS 10
Персиянов Дмитрий Темпоральная тематическая модель коллекции пресс-релизов code

paper slides

Никита Дойков BF A+I+L+S++B+R+C+V+T0DEW0H 10
Семененко Денис Алгоритм прогнозирования структуры локально-оптимальных моделей code

paper

Кулунчаков Андрей B AI+L+SB0R0C0V0T0D0E0W0H0
Софиенко Александр Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов code,

paper

Влада Целых B A-I-L-S-C0V0T0D0E0W0H> >26.05
Яронская Любовь Sparse Regularized Regression on Protein Complex Data code

paper slides

Александр Катруца A-I-L-SB-R-CVT--D-EW0H> >26.05
Аксенов Сергей Кросс-язычный тематический поиск научных публикаций. code

paper slides

Марина Суворова AILS0B0R0C0V0T0D0E0W0H> >26.05 (7)
Хисматуллин Тимур Анализ and классификация интерфейса комплекса ДНК-белок code

paper slides

Владимир Гаранжа F AILSBRCVT>H> >26.05 (7)

Task 6

  • Name: Sparse Regularized Regression on Protein Complex Data
  • Task: найти лучшую модель регрессии на данных связывания белковых комплексов
  • Данные: признаковое описание белковых комплексов and константы связывания для них
  • References:: статьи по регрессии and сравнению методов на схожих данных
  • Базовой алгоритм: регуляризованная линейная регрессия (Lasso, Ridge, ..), SVR, kernel methods, etc.
  • Решение: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели and оптимизация параметров
  • Новизна: получение лучшей модели регрессии для данных связывания белковых комплексов
  • consultant: Александр Катруца, автор задачи: Sergei Grudinin.
  • Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)

Task 8

  • Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
  • Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
  • Данные: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
  • References::
    • Задаянчук А.И., Попова М.С., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
    • Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
    • Бахтеев О.Ю., Попова М.С., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
    • LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
    • Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
  • Базовой алгоритм: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
  • Решение: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
  • Новизна: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
  • consultant: Oleg Bakhteev

Task 25

  • Name: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
  • Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме and на качество классификации.
  • Данные: электрокардиограммы в формате KDM.
  • References:: выдадим :)
  • Базовой алгоритм: Линейный классификатор.
  • Решение: Прямое and обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
  • Новизна: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
  • consultant: Виктор Сафронов (Научный центр им. В.И.Кулакова)

2015

Author Topic Link Consultant Reviewer DZ-1 DZ-2 (Problem number) Letters Sum Grade
Бернштейн Юлия Методы определения характеристик фибринолиза по последовательности изображений крови in vitro Матвеев И. А. Соломатин 1 3 (8) AILSBRCVTDE 11 10
Бочкарев Артем Структурное обучение при порождении моделей [107] (no code), paper, slides Варфоломеева Анна, Бахтеев Олег Исаченко 2 2 (7) A+I++LS+BRCVT+DS 9.25 10 Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Двинских Дарина Повышение качества прогнозирования с использованием групп товаров code,

paper, slides

Каневский Д. Ю. Смирнов 0.5 3 (7) AILSBRCVTDEHS 14 10
Ефимов Юрий Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов code,

paper, slides

Матвеев И. А. Нейчев AILSBRCVTDEW 12 10
Жариков Илья Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм. code, paper, slides Ишкина Шаура Бочкарев 3.5 3 (5) AIL+SBRCVTDEHSW 14.25 10
Задаянчук Андрей Выбор оптимальной модели классификации физической активности code,

paper, slides

Мария Попова Гончаров 2 0 (17) AI-LSB+RCVTD 10 10
Златов Александр Построение иерархической модели крупной конференции code,

paper, slides

Арсентий Кузьмин Двинских 1.5 3 (14) AI+L+SBRC++V+TDESW 14.25 10
Исаченко Роман Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов code, paper, slides Катруца Александр Жариков 3.5 3 (14) A-I+L+S-BR+CVTDEHSW 14.25 10
Нейчев Радослав Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов code, paper, slides Катруца Александр Ефимов 1 3 (9) AI-L-SBRCVTDEHSW 13.5 10
Подкопаев Александр Прогнозирование четвертичных структур белков code,

paper, slides

Ю. В. Максимов Решетова 3.5 3 (11) AILS+B+RCVTDEHS 13.5 10
Решетова Дарья Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения code,

paper, slides

Максимов Юрий Камзолов 2.5 3 (10) AIL++SB+RCVT++DEHS- 14 10
Смирнов Евгений Тематическая модель интересов постоянных пользователей мобильного приложения code, paper, slides Виктор Сафронов Златов 1 1 (4) AILSBRCVTWDE 11.25 10
Соломатин Иван Определение области затенения радужки классификатором локальных текстурных признаков code, paper, slides Матвеев И. А. Бернштейн 3 (9) AILSBRCVTDE 11 10
Черных Владимир Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности code,

paper, slides

Стенина Мария Шишковец 3.5 3 (4) A+I+LSBRCVT+DE++H++ 13.75 10
Шишковец Светлана Регуляризация линейного наивного байесовского классификатора. code,

paper, slides

Михаил Усков, Константин Воронцов Черных 3.5 2 (9) A+I+L+SBR+CV+TD+E+H+S 15 10
Камзолов Дмитрий Новые алгоритмы для задачи ранжирования веб-страниц Александр Гасников, Yuri Maksimov Подкопаев AILSB+RCVT+DEHS-- 13 8
Сухарева Анжелика Классификация научных текстов по отраслям знаний code,

paper, slides

Сергей Царьков 0.5 AILSBRCVTDEH 9

Task 1

  • Name: Повышение качества прогнозирования спроса с использованием групп товаров
  • Task:

Дано:

    1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
    2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
    3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
    4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

  • Data:
    1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
  • References:
    1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
    2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
    3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
    4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
  • Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
    1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
    2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
    3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
  • Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
  • Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
  • consultant: Каневский Д.Ю.

Task 2

  • Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
  • Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
  • Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
  • References:
  • Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
  • Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • consultant: Oleg Bakhteev.

Task 3

  • Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
  • Данные: Синтетические данные and тесты.
  • References::
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • consultant: Александр Адуенко.

Task 4

  • Name: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
  • Task: постановка задачи из [109] формула (32)
  • Данные: временные ряды с ценами на электроэнергию.
  • References::
    • Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
    • Основные статьи:
    1. [110] - исследование влияния цен в одной стране на цену в другой and как это учесть при прогнозировании.
    2. [111] - обзор терминов and процессов, всплывающих в прогнозировании HPFC + мотивация
    3. [112] - тоже про прогнозирование цен, но тут про спотовые цены
  • Базовой алгоритм:
    1. LAD-Lasso estimation из [113]
    2. Статья Сандуляну про модификацию Add-Del: [114].
  • Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
  • Новизна: сравнение базвого and предложенного методов, анализ свойств предложенного метода.
  • consultant: Александр Катруца.

Task 5

  • Name: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
  • Task: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики and [115]. Требуется разработать алгоритм поиска координат отрезка and угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза and примерах, где данный процесс отсутствует.
  • Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
  • References:
    • Описание прикладной задачи and техническое задание: по запросу.
  • Базовой алгоритм: Преобразование Хафа [116], обсуждается.
  • consultant: И.А. Матвеев

Task 6

  • Name: Прогнозирование четвертичных структур белков: нивелирование
  • Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку and предложить алгоритм решения. Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as 
\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
  • References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Basic algorithm: Хочется попробовать выпуклые релаксации.
  • Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
  • consultant: Ю.В. Максимов

Task 7

  • Name: Метрическое обучение and снижение размерности пространства в Taskх классификации временных рядов
  • Task: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
  • Данные: временные ряды цен на электроэнергию
  • References::
    1. [117] - базовая статья
    2. [118] - отличный обзор методов Metric Learning
    3. [119] - ещё обзор
  • Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
  • Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
  • Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
  • consultant: Александр Катруца

Task 8

  • Name: Структурное обучение при порождении моделей
  • Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [120]
  • References:
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * consultant: Анна Варфоломеева, Oleg Bakhteev

Task 9

  • Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
  • Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • References:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Технология информационного анализа электрокардиосигналов
    3. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
    4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
  • consultant: Ишкина Шаура

Task 10

  • Name: Simplification of the IR models structure
  • Task: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
  • Данные: TREC collections.
  • References:
    • P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
    • Problem statement
  • Базовой алгоритм: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
  • Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
  • Новизна: A new ranking function of simple structure competitive with traditional ones.
  • consultant: Mikhail Kuznetsov.

Task 11

  • Name: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
  • Task: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее and др.
  • Данные: Данные о грузовых железнодорожных перевозках (РЖД)
  • References::
    • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
    • Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
  • Базовой алгоритм: ARMA, Hist.
  • Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд and сезонность.
  • Новизна: Разработан and обоснован метод определения выполнения условия локальной стационарности временного ряда.
  • consultant: Стенина Мария

Task 12

  • Name: Обучение метрик в Taskх полного and частичного обучения
  • Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
  • References: Список литературы and описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
  • consultant: Ю.В. Максимов

Task 13

  • Name: Построение иерархической тематической модели крупной конференции
  • Task: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя Expertные модели конференций прошлых лет. При этом возникают следующие подзадачи:
  1. Классификация тезисов новой конференции.
  2. Прогнозирование изменений структуры конференции.
  • Данные: Тезисы and Expertные модели конференций EURO 2010, 2012, 2013.
  • References:: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
  • Базовой алгоритм:
  • Решение: Для решения подзадач
  1. предлагается объединить Expertные модели конференций прошлых лет в одну, and для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
  2. исследовать изменения в структуре конференций из года в год and определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Expertы создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
  • Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
  • consultant: Арсентий Кузьмин

Task 14

  • Name: Регуляризация линейного наивного байесовского классификатора.
  • Task: Построение линейного классификатора является одной из классических and самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, and сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном and том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
  • Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные and ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных and здоровых.
  • References::
    1. Larsen (2005) Generalized Naive Bayes Classifiers.
    2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
    3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
    4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
    5. + спросить у К.В.Воронцова.
  • Базовой алгоритм: любые готовые реализации LNB and SVM. Плюс наивный отбор признаков для LNB.
  • Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые and зависимости Hold-out AUC от номера итерации.
  • Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
  • consultant: Михаил Усков. Гиперconsultant: К.В.Воронцов.

Task 15

  • Name: Тематическая модель интересов постоянных пользователей мобильного приложения.
  • Task: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
  • Данные: Для каждого пользователя имеются списки добавленных and откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
  • References::
    1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
    2. + попросить у К.В.Воронцова
  • Базовой алгоритм: Алгоритм случайного отбора слов.
  • Решение: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
  • Новизна: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками and дизлайками.
  • consultant: Виктор Сафронов. Гиперconsultant: К.В.Воронцов.

2015

Author Topic Link Consultant Reviewer DZ-1 DZ-2 (Problem number) Letters Sum Grade
Бернштейн Юлия Методы определения характеристик фибринолиза по последовательности изображений крови in vitro Матвеев И. А. Соломатин 1 3 (8) AILSBRCVTDE 11 10
Бочкарев Артем Структурное обучение при порождении моделей [121] (no code), paper, slides Варфоломеева Анна, Бахтеев Олег Исаченко 2 2 (7) A+I++LS+BRCVT+DS 9.25 10
Гончаров Алексей Метрическая классификация временных рядов code,

paper, slides

Мария Попова Задаянчук 1.5 1 (4) AILSBRCVTDSW 12 10
Двинских Дарина Повышение качества прогнозирования с использованием групп товаров code,

paper, slides

Каневский Д. Ю. Смирнов 0.5 3 (7) AILSBRCVTDEHS 14 10
Ефимов Юрий Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов code,

paper, slides

Матвеев И. А. Нейчев AILSBRCVTDEW 12 10
Жариков Илья Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм. code, paper, slides Ишкина Шаура Бочкарев 3.5 3 (5) AIL+SBRCVTDEHSW 14.25 10
Задаянчук Андрей Выбор оптимальной модели классификации физической активности code,

paper, slides

Мария Попова Гончаров 2 0 (17) AI-LSB+RCVTD 10 10
Златов Александр Построение иерархической модели крупной конференции code,

paper, slides

Арсентий Кузьмин Двинских 1.5 3 (14) AI+L+SBRC++V+TDESW 14.25 10
Исаченко Роман Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов code, paper, slides Катруца Александр Жариков 3.5 3 (14) A-I+L+S-BR+CVTDEHSW 14.25 10
Нейчев Радослав Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов code, paper, slides Катруца Александр Ефимов 1 3 (9) AI-L-SBRCVTDEHSW 13.5 10
Подкопаев Александр Прогнозирование четвертичных структур белков code,

paper, slides

Ю. В. Максимов Решетова 3.5 3 (11) AILS+B+RCVTDEHS 13.5 10
Решетова Дарья Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения code,

paper, slides

Максимов Юрий Камзолов 2.5 3 (10) AIL++SB+RCVT++DEHS- 14 10
Смирнов Евгений Тематическая модель интересов постоянных пользователей мобильного приложения code, paper, slides Виктор Сафронов Златов 1 1 (4) AILSBRCVTWDE 11.25 10
Соломатин Иван Определение области затенения радужки классификатором локальных текстурных признаков code, paper, slides Матвеев И. А. Бернштейн 3 (9) AILSBRCVTDE 11 10
Черных Владимир Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности code,

paper, slides

Стенина Мария Шишковец 3.5 3 (4) A+I+LSBRCVT+DE++H++ 13.75 10
Шишковец Светлана Регуляризация линейного наивного байесовского классификатора. code,

paper, slides

Михаил Усков, Константин Воронцов Черных 3.5 2 (9) A+I+L+SBR+CV+TD+E+H+S 15 10
Камзолов Дмитрий Новые алгоритмы для задачи ранжирования веб-страниц Александр Гасников, Yuri Maksimov Подкопаев AILSB+RCVT+DEHS-- 13 8
Сухарева Анжелика Классификация научных текстов по отраслям знаний code,

paper, slides

Сергей Царьков 0.5 AILSBRCVTDEH 9


Task 1

  • Name: Повышение качества прогнозирования спроса с использованием групп товаров
  • Task:

Дано:

    1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
    2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
    3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
    4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

  • Data:
    1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
  • References:
    1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
    2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
    3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
    4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
  • Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
    1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
    2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
    3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
  • Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
  • Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
  • consultant: Каневский Д.Ю.

Task 2

  • Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
  • Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
  • Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
  • References:
  • Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
  • Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
  • Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
  • consultant: Oleg Bakhteev.

Task 3

  • Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
  • Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
  • Данные: Синтетические данные and тесты.
  • References::
  • Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
  • Решение:
  • Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
  • consultant: Александр Адуенко.

Task 6

  • Name: Прогнозирование четвертичных структур белков: нивелирование
  • Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку and предложить алгоритм решения.

Suppose we have N proteins in an assembly, such that each protein i can be located in one of P positions x_{p}^{i}. N is ~ 10, P ~ 100. To each two vectors x_{i}^{p} and x_{j}^{q}, we can assign an energy function q_{0}, which is the overlap integral in the simplest approximation. Each protein position also has an associated score b_{0}. Thus, the optimal packing problem can be formulated as


\begin{align}
x^{T}Q_{0}x+b_{0}^{T}x	&\rightarrow&	\textrm{min}\\
\textrm{w.r.t}.		&&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
	&&	x_{i}^{k}\geq0\;\forall i,k
\end{align}

  • Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
  • References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
  • Замечания по коду: Замечания по программной реализации
  • Basic algorithm: Хочется попробовать выпуклые релаксации.
  • Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
  • consultant: Ю.В. Максимов

Task 8

  • Name: Структурное обучение при порождении моделей
  • Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
  • Данные: Подколлекции TREC.
  • Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [123]
  • References:
    • Jaakkola T. Scaled structured prediction.
    • Tommi Jaakkola “Scaling structured prediction”
    • Найти все работы учеников TJ по данной тематике.
    • Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
  • Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
  • Решение: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
  • Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
  • * consultant: Анна Варфоломеева, Oleg Bakhteev

Task 9

  • Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
  • Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
  • Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
  • References:
    1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
    2. Технология информационного анализа электрокардиосигналов
    3. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
    4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
    5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
    6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
    7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
    8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
    9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
  • Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
  • Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
  • Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
  • consultant: Ишкина Шаура

Task 12

  • Name: Обучение метрик в Taskх полного and частичного обучения
  • Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
  • Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
  • References: Список литературы and описание подробное задачи приведены в файле
  • Замечания к коду: Замечания по программной реализации
  • Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
  • consultant: Ю.В. Максимов

Plans for next year:

  1. Expand the matlab test and give it along with the trial programming as the first task.

2014

Author Topic Link Consultant DZ-1 Letters Sum Grade
Газизуллина Римма Прогнозирование объемов железнодорожных грузоперевозок по парам веток [124], pdf Стенина Мария \frac{15}{15}+\frac{10}{16} [MF]TAI+L+SBR+CV+T>DEH(J) 16 10
Гринчук Алексей Выбор оптимальных структур прогностических моделей методами структурного обучения [125], pdf Варфоломеева Анна \frac{7}{15}+\frac{2}{16} [F]TA+I+LSBR+СV+T+D+E(F) 14,5 9
Гущин Александр Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов [126], pdf Кузнецов Михаил \frac{5}{15}+\frac{2}{16} [F]TAI+L+SBRCVTDEHS(F) 15,5 9
Ефимова Ирина Дифференциальная диагностика заболеваний по электрокардиограмме [127], pdf Целых Влада \frac{15}{15}+\frac{12}{16} [MF]T+A+I+L+SB++R+CV+TDE+H(J ed) 17,25 10
Жуков Андрей Построение рейтингов вузов: панельный анализ and оценка устойчивости [128], pdf Кузнецов Михаил \frac{8}{15}+0 [F]TAIL+SBRCVTDEHS(F) 15,25 9
Игнатов Андрей Обучение многообразий для прогнозирования наборов квазипериодических временных рядов [129], pdf Ивкин Никита 0+\frac{7}{16} [MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed) 18 10
Карасиков Михаил Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач [130], pdf Ю.В. Максимов 0+0 [MF]TAI+L+SBRC+V+TDESH(J) 15 10
Кулунчаков Андрей Обнаружение изоморфных структур существенно нелинейных прогностических моделей [131], pdf Сологуб Роман, Кузнецов Михаил \frac{10}{15}+\frac{14}{16} [F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed) 17 10
Липатова Анна Обнаружение закономерностей в наборе временных рядов методами структурного обучения [132], pdf А. П. Мотренко \frac{8}{15}+\frac{6}{16} [MF]TA+I+LSBR-CVTDE (J when ed) 14,25 10
Макарова Анастасия Использование нелинейного прогнозирования при поиске зависимостей между временными рядами [133], pdf Мотренко Анастасия 0+0 [F]TAI-LSB+R-CVTD>E>(F) 12,75 9
Плавин Александр Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания [134], pdf Потапенко Анна \frac{13}{15}+\frac{14}{16} [F]T+A+I+L+S+BR++CVTD+>>(?) 14 10
Попова Мария Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра [135], pdf Токмакова Александра \frac{11}{15}+\frac{6}{16} [MF]T+AI+L++SB++R+CV+TD+(JV ed) 15,25 10
Швец Михаил Интерпретация мультимоделей при обработке социологических данных [136], pdf Адуенко Александр \frac{11}{15}+\frac{4}{16} [M+F]T+A+I+L+S+B+R+CVTD+E(F) 16,25 9
Шинкевич Михаил Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели [137], pdf Дударенко Марина \frac{15}{15}+\frac{9}{16} [MF]T+AIL+S+BR+CV+T+D+E+H(J ed) 17 10

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

consultant: А.А. Потапенко

Task: Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

  p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Требуется проверить гипотезу, что, накладывая ограничения на матрицу \Theta с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

References:

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

  • Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Basic algorithm: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Novelty: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, and при этом сложна как для понимания, так and для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость and простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

consultant: В.Р. Целых

Task: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого and второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Data: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

References:

  • Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
  • Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
  • Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика and информация», 2008. — 116 с.

Basic algorithm: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Novelty: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации and исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели

consultant: М.A. Дударенко

Task:Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

    p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Представление матрицы \|p(w|d)\|_{W\times D} в виде произведения двух матриц меньшего размера {\Phi=\|\phi_{wt}\|_{W\times T}} and {\Theta=\|\theta_{dt}\|_{T\times D}} не единственно: \Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta' для некоторых невырожденных S. Требуется проверить гипотезу, что, накладывая ограничения на матрицы \Phi, \Theta с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем and наличия фоновых тем.

References:

  • Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Basic algorithm: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Novelty: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости and интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ and оценка устойчивости

consultant: М.П. Кузнецов

Task: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза and целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Data: Данные по ста ведущим мировым университетам за восемь лет.

References:

  • Strizhov V.V. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
  • Strizhov V.V. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
  • Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
  • Черновик статьи POF по запросу.

Basic algorithm: Методика построения рейтинга RUR and один из избыточно устойчивых алгоритмов для ранговых шкал.

Novelty: Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора and оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

consultant: А.П. Мотренко

Task: Для повышения качества прогноза временных рядов хочется использовать Expertные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на Expertные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей and найти структуру, наиболее согласованную с мнением Expertа.

References:

  • R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
  • J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
  • J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.

Basic algorithm: моделирование структурных уравнений, SEM

Novelty: Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры and оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

consultant: А.П. Мотренко

Task: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда and исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных and выявлению связей между ними; описать границы применимости базового алгоритма and предложить новые варианты выявляемых структурных связей. Data: Синтетические данные, исторические биржевые цены на основные инструменты and данные по железнодорожным грузоперевозкам.

References:

  • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
  • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
  • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.

Basic algorithm: convergent cross mapping

Novelty: Предложены различные структуры связей между временными рядами and метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов

consultant: М.П. Кузнецов

Task: Предложить and протестировать на тестовых and реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Data: Синтетические данные, данные по текстовым коллекциям LIG.

References:

  • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
  • Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
  • Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Basic algorithm: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Novelty: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции and понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

consultant: Р.А. Сологуб, М.П. Кузнецов

Task: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма and для алгоритма поэлементного сравнения отображений.

Data: Данные по биржевым опционам: зависимость волатильности опциона от цены and времени его исполнения.

References:

  • Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
  • Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
  • Strizhov V.V., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Basic algorithm: Алгоритм поэлементного сравнения отображений.

Novelty: Предложен быстрый алгоритм упрощения суперпозиций and поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций Expertно-заданных функций

consultant: Н.П. Ивкин

Task: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Data: данные с акселерометра мобильного телефона.

References:

  • Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Basic algorithm: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Novelty: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.

Сравнение структурной and топологической сложности в Taskх классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

consultant: Н.П. Ивкин

Task: Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба and др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Data: данные с акселерометра мобильного телефона.

References:

  • Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Basic algorithm: нейронная сеть

Novelty: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

consultant: А.А. Адуенко

Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей and градиентный бустинг.

Data: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

References:

  • смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
  • бустинг (лекция «Композиционные методы классификации and регрессии» Воронцова)

Basic algorithm: бустинг.

Novelty: Выявление and объяснение сходств and различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

consultant: А.А. Варфоломеева

Task: Предлагается решать задачу прогнозирования в два этапа: сначала по историям построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Data: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

References:

Basic algorithm: алгоритм метапрогнозирования, описанный в дипломной работе.

Novelty: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

consultant: А.А. Кузьмин

Task: Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Data: почасовые данные о ценах and объема потребления электроэнергии (вставить ссылку).

References:

  • Сандуляну Л.Н., Strizhov V.V. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
  • (взять из последней статьи Фадеева)

Basic algorithm: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Novelty: Предложен алгоритм совместной оценки параметров инвариантов and авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

consultant: М.М. Стенина (Медведникова)

Task: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Data: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

References:

  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.

Basic algorithm: гистограммное прогнозирование, описанное в статье.

Novelty: предлагается повысить качество прогноза путем разделения данных на меньшие части and прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

consultant: А.А. Токмакова

Task: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую and точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Data: Набор временных рядов измерений акселерометра.

References:

  • Прореживание нейронных семей на сайте Machinelearning.ru.
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Basic algorithm: Optimal Brain Damage/Optimal Brain Surgery.

Novelty: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

consultant: А.С. Инякин, Н.П. Ивкин

Task: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Data: Библиотека квазипериодических and апериодических временных рядов

References:

  • Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 104-112.
  • Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 92-103.

Basic algorithm: Использовать алгоритм SAS/SPSS.

Novelty: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

consultant: И.А. Матвеев

Task: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания and более того, использование данных с затенённых участков может порождать ложные признаки and снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Data: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны and другие размеры) and координаты центров and радиусы двух окружностей, аппроксимирующих зрачок and радужку.

References:

  • Описание задачи and предлагаемые пути решения
  • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
  • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
  • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
  • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
  • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Basic algorithm: метод, использующий скользящее окно and текстурные признаки [2006: Xu, Zhang, Ma].

Novelty: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

consultant: Ю.В. Максимов

Task: Исследовать различные подходы к решению задач классификации с многими классами and сравнить их эффективность.

Data: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

References:

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Task Кто делает Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) and нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means and EM, and показать сравнение результатов кластеризации на графике. Плавин 1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data. Записать свою фамилию тут. 2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями and нарисовать спрогнозированные and исходный ряды на одном графике. Кулунчаков Андрей. 3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным  \alpha рядов and исходного ряда. Авдюхов 4
Аппроксимация выборки замкнутой кривой [138]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно. Газизуллина Римма 5
Дан временной ряд с пропусками, например [139]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки. Игнатов Андрей 6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков. Попова Мария 7
Для различных видов зависимости  y = f(x) + \epsilon (линейная, квадратичная, логарифмическая) построить линейную регрессию and нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб". Ефимова Ирина 8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки. Шинкевич Михаил 9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки and их выпуклая оболочка – замкнутая ломаная линия. Макарова Анастасия 10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков. Жуков Андрей 11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома. Карасиков Михаил 12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания. Гринчук Алексей 13
Сгенерировать набор точек на плоскости. Выделить and визуализировать главные компоненты. Липатова 14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм. Швец Михаил 15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами. Гущин Александр 16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). 17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга. Костюк 18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? Гиззатуллин Анвар 19
Показать разницу в скорости выполнения матричных операций and операций в цикле. Можно использовать в качестве примера Сингулярное разложение and другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor). 20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).

2013

Моя первая публикация с кросс-рецензированием

Задачи

Task name Author Link MAIPVTDCHSJ
Определение напечатанного изображения Пушняков Алексей [140] MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации Катруца Александр [141] MAIPVTDCHS
Векторная авторегрессия and управление макроэкономическими показателями Кащеева Мария [142] MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов Рыскина Мария [143] MAIPVTDCHS
Определение точной границы зрачка Чинаев Николай [144] MAIPV.DCHS
Векторная авторегрессия and управление макроэкономическими показателями Гринчук Олег [145] MAIPVTD.HS
Порождение нейронных сетей с Expertно-заданными функциями активации Перекрестенко Дмитрий [146] MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей Яшков Даниил [147] MAI.VTD.HS
Инвариантные преобразования в Taskх локального прогнозирования Костин Александр [148] MAI.VT.HS
Алгоритм генетического программирования для решения задачи прогнозирования Воронов Сергей [149] MAIPVTDC.S
Группировка номинальных переменных в Taskх банковского кредитного скоринга Митяшов Андрей [150] MAIPVTDCHS
Моделирование процесса обучения and забывания при оценке качества производства Неклюдов Кирилл [151] MAI..DC.S
Обзор алгоритмов упрощения алгебраических выражений Шубин Андрей [152] MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии Ибраимова Айжан [153] MAIP.TD..
Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов Бырдин Александр [154] MAI.TD.S
Визуализация матрицы парных расстояний в тематическом моделировании Вдовина Евгения [155] MAI.TDC.S
Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов Антипова Наташа [156] MAIP.T..S

Task 2. Surname2013MassProduction (*eng)

  • Название. Порождение and оптимизация логических описаний при построении производственных линий.
  • Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм and протестировать его на синтетических данных.
  • Данные. Требуется создать.
  • References:. Нужен поиск (скорее всего немецких публикаций).
  • Предлагаемый алгоритм. Обсуждается.
  • Базовый алгоритм. Нет.

Task 3. Surname2013LearnForget (eng)

  • Название. Моделирование процесса обучения and забывания при оценке качества производства.
  • Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
  • Данные. Данные по скорости and качеству сборки бумажных самолетиков.
  • References:. Нужно искать.
  • Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
  • Базовый алгоритм. Регрессионная модель в прилагаемой статье.

Task 4. Surname2013GeneticProg

  • Название. Алгоритм генетического программирования для решения задачи прогнозирования.
  • Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП and с нейронными сетями.
  • Данные. Тестовый набор задач, взять на UCI или на Полигоне.
  • References:. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
  • Предлагаемый алгоритм. ГП.
  • Базовый алгоритм. ГП, нейронные сети.

Task 5. Surname2013Simplify

  • Название. Обзор алгоритмов упрощения алгебраических выражений.
  • Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
  • Данные. Собрать тестовую коллекцию выражений.
  • References:. Graph rewriting.
  • Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Task 6. Surname2013RedListExplanation

  • Название. Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
  • Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным and "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
  • Данные. Expertные оценки краснокнижных видов.
  • References:. References: по алгоритмам метрической классификации.
  • Предлагаемый алгоритм. Метод или алгоритм, который сообщает Expertу почему (sic!) объект не попал в предполагаемый Expertом класс.

Task 7. Surname2013RedListClassification

  • Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
  • Проблема. Применить решающее дерево к Expertным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
  • Данные. Expertные оценки краснокнижных видов.
  • References:. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Task 11. Surname2013Invaraint4LocalForecast

  • Название. Инвариантные преобразования в Taskх локального прогнозирования.
  • Проблема. Совместить алгоритмы инвариантного преобразования времени and амплитуды прогнозируемых временных рядов.
  • Данные. Временные ряды измерения пульсовой волны.
  • References:. Найти, избежать тривиальных ссылок.

Task 8. Surname2013PlausibleExpert

  • Название. Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
  • Проблема. Исследование взаимосвязи биржевых цен на основные инструменты and железнодорожных грузоперевозок.
  • Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
  • References:. Публикации по CCM.
  • Предлагаемый алгоритм. Модификации ССМ.

Task 9. Surname2013DeepLearning

  • Название. Порождение нейронных сетей с Expertно-заданными функциями активации.
  • Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления and цен на электроэнергию.
  • Данные. Посуточные данные за три года.
  • References:. Deep Learning.
  • Предлагаемый алгоритм. Построение нейронной сети and оценка ее параметров.

Task 16. Surname2013ScoringSelection

  • Название. Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии.
  • Проблема. С помощью генетического алгоритма найти информативные объекты and признаки.
  • Данные. Данные по потребительским кредитам.
  • References:. -

Task 10. Surname2013ScoringFeatureSelection

  • Название. Группировка номинальных переменных в Taskх банковского кредитного скоринга.
  • Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
  • Данные. Исторические данные по кредитам наличностью.
  • References:. SAS, найти еще.

Task 15. Surname2013InverseVAR

  • Название. Векторная авторегрессия and управление макроэкономическими показателями.
  • Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
  • Данные. Макроэкономические показатели России за последние 16 лет.
  • References:. Работы С.А. Айвазяна.

Task 12. Surname2013DistanceVisualizing

  • Название. Визуализация матрицы парных расстояний в тематическом моделировании.
  • Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
  • Данные. Тезисы конференции EURO.
  • References:. Зиновьев на ML, References: по теме.
  • Предлагаемый алгоритм. PCA.
  • Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.

Task 13. Surname2013RhoNets

  • Название. Сравнение быстрых алгоритмов кластеризации.
  • Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей and быстрый алгоритм $k$-средних.
  • Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
  • References:. $k$-средних, $\varepsilon$-сети.
  • Предлагаемый алгоритм. $\rho$-сети.
  • Базовый алгоритм. $k$-средних.

Task 17. Surname2013FeatureSelection

  • Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
  • Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
  • Данные. Синтетические.
  • References:. Леонтьева/Стрижов, поискать современные обзоры.

Task 1. Surname2013Txt2Bib

  • Название. Разметка библиографических записей с помощью логических алгоритмов.
  • Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений and выбран адекватный алгоритм.
  • Данные. В MLAlgorithms.
  • References:. Работа А. Ивановой and все, что есть по теме за последние два года.
  • Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
  • Базовый алгоритм. Тупиковые покрытия.

Task 14. Surname2013FindTheFormula (Risky)

  • Название. Алгоритм поиска текстовых структур в документе.
  • Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
  • Данные. Синтетические, коллекция MLAlgorithms.
  • References:. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Task 18. Surname2013ScannedImage (Image)

  • Название. Определение типа бланка.
  • Проблема. Определить тип бланка по скану.
  • Данные. Набор изображений в TIF.

Task 19. Surname2013SpectrumImage (Image)

  • Название. Определение напечатанного изображения.
  • Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
  • Данные. Набор изображений в JPG, отнесенных в два класса.


Task Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс and ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Шубин Андрей
Разобраться как работает web-соединение and regexp. Сделать поисковый запрос по теме and сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? Воронов Сергей
Повернуть and увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости and выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить and проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. Бырдин Александр
Показать разницу в скорости выполнения матричных операций and операций в цикле. Показать эффективность параллельных вычислений (parfor and другие). Катруца Александр
Предложить варианты визуализации четырехмерных векторов and пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга. Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. Костин Александр

2012

Тематическое моделирование: публикация в журнале ВАК

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.


Список задач

Task name Author Link to work Comments
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации Медведникова Мария [157] Опубликовано
Иерархическая тематическая кластеризация тезисов and визуализация Кузьмин Арсентий [158] Опубликовано
Совместный выбор объектов and признаков в Taskх многоклассовой классификации. Адуенко Александр [159] Опубликовано
Построение иерархических тематических моделей Цыганова Светлана [160] Опубликовано
Выбор признаков в Taskх структурной регрессии Варфоломеева Анна [161] Принято
Статистические критерии однородности and согласия для сильно разреженных дискретных распределений Целых Влада

[162]

Опубликовано
Построение логических правил при разметке текстов Иванова Алина [163] Принято
Проверка адекватности тематической модели Степан Лобастов [164] Редакция


1. 2012CoRegression

  • Name: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
  • Тизер: Построение интегральной оценки эффективности научной деятельности.
  • Data: Синтетические. ПРНД сотрудников. Таблица авторы-журналы and число статей выбранных авторов в журналах.
  • References: К.В.Воронцов «Коллаборативная фильтрация».
  • Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
  • Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
  • Basic algorithm: Вычисленный IF журналов and h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
  • Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов and журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

  • Name: Согласование ранговых Expertных оценок.
  • Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
  • Data: Интернет-голосование за список книг, голосование без кооптации.
  • References: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
  • Предлагаемый алгоритм: Нахождение пересечения конусов and оценка эффективной размерности пространства или другой алгоритм.
  • Basic algorithm: Медиана Кемени and другие алгоритмы.
  • Проблема: Требуется проиллюстрировать and изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

  • Name: Выбор признаков в Taskх структурной регрессии
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
  • Data: библиографические записи из BibTeX collection on CS.
  • References: работы Jaakkola and его команды, возможно, код.
  • Предлагаемый алгоритм: Структурная регрессия.
  • Basic algorithm: описан Валентином.
  • Требуется: сегментировать входной текст and поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

  • Name: Построение логических правил при разметке текстов
  • Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
  • Data: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
  • References: работы Инякина, Чувилина, Кудинова.
  • Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
  • Basic algorithm: описан Валентином.
  • Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

  • Name: Ранговая кластеризация and алгоритмы динамического выравнивания.
  • Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
  • Data: Испорченные and некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
  • References: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
  • Ключевые слова: DTW — модификации, k-Means.
  • Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
  • Basic algorithm: k-Means and его высокопроизводительные вариации.
  • Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать and учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

  • Name: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • References: по кластеризации, and введению расстояний между текстами как мешками слов.
  • Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
  • Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
  • Basic algorithm: k-Means
  • Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.

7. 2012ThematicHierarchy

  • Name: Построение иерархических тематических моделей.
  • Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
  • Data: Тексты тезисов.
  • References: иерархические модели, topic modelling.
  • Ключевые слова: иерархическое тематическое моделирование.
  • Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
  • Basic algorithm: PLSA--LDA.
  • Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

  • Name: Визуализация иерархических тематических моделей.
  • Тизер: На материалах конференции EURO.
  • Data: Тексты тезисов конференции Евро-2012.
  • References: многомерное шкалирование, кластеризация.
  • Ключевые слова: визуализация графов.
  • Предлагаемый алгоритм:
  • Basic algorithm: --
  • Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
    • корректировки названий тем/подтем конференции,
    • переносе тезиса из одной темы в другую,
    • адекватности соответствия модельной and фактический кластеризации.

9. 2012CovSelection

  • Name: Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
  • Тизер: Ранжирование поисковых выдач Яндекса.
  • Data: Яндекс – математика.
  • References: Бишоп, Стрижов.
  • Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
  • Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
  • Basic algorithm: SVM.
  • Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что and данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

  • Name: Определение соответствия документа тематике на основе выделения ключевых фраз.
  • Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
  • Data: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
  • References: (Статья С. Царькова «Морфологические and статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
  • Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические and статистические признаки.
  • Предлагаемый алгоритм:
  • Basic algorithm: C-Value and TF-IDF.
  • Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
  • Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
    • пополняем паспорт известной специальности новыми ключевыми словами, либо
    • находим ближайший паспорт специальности.
  • Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

  • Name: Последовательное порождение and выбор признаков в задаче многоклассовой классификации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Data: синтетические, интернет-коллекция.
  • References: Стрижов, Рудой.
  • Ключевые слова: порождение признаков, поиск изоморфных моделей.
  • Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
  • Basic algorithm: решающие деревья.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

  • Name: Методы извлечения признаков из текстовой информации
  • Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
  • Data: синтетические, интернет-коллекция.
  • References: Найти.
  • Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
  • Предлагаемый алгоритм.
  • Базовый алгоритм.
  • Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

  • 2012SparceDistribution Статистические критерии однородности and согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

  • Name: Проверка адекватности тематической модели.
  • Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
  • Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
  • References: по латентным моделям.
  • Ключевые слова: мягкая кластеризация, латентные модели.
  • Предлагаемый алгоритм: hHDP.
  • Basic algorithm: HDP.
  • Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

References:

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов and редактора учтены) >> Опубликовано (вышел номер).

Task name Author Link to the journal The original text of the work Date of application State
Выбор признаков and оптимизация метрики при кластеризации коллекции документов Адуенко А.А., Кузьмин А.А., Strizhov V.V. Известия ТулГу [165] 12.10.2012 Опубликовано
Оценивание вероятностей появления строк в коллекции документов Будников Е.А., Strizhov V.V. Информационные технологии [166] 24.09.2012 Опубликовано
Проверка адекватности тематических моделей коллекции документов Кузьмин А.А., Strizhov V.V. Программная инженерия [167] 17.12.2012 Опубликовано
Алгоритм оптимального расположения названий коллекции документов Адуенко А.А., Strizhov V.V. Программная инженерия [168] 13.11.2012 Опубликовано
Визуализация матрицы парных расстояний между документами Адуенко А.А., Strizhov V.V. Научно-технические ведомости С.-Пб.ПГУ [169] 29.10.2012 Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации Медведникова М.М., Strizhov V.V. Известия ТулГу [170] 15.11.2012 Опубликовано
Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов Адуенко А.А., Strizhov V.V. Инфокоммуникационные технологии [171] 18.12.2012 Опубликовано
Алгоритм построения логических правил при разметке текстов Иванова А.В., Адуенко А.А., Strizhov V.V. Программная инженерия [172] 24.01.2013 Принято
Построение иерархических тематических моделей коллекции документов Цыганова С.В., Strizhov V.V. Прикладная информатика [173] 27.01.2013 Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения Варфоломеева А.А., Strizhov V.V. Научно-технические ведомости С.-Пб.ПГУ [174] 27.01.2013 Отрецензировано
Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании Целых В.Р., Воронцов К.В. Машинное обучение and анализ данных [175] 17.12.2012 Опубликовано
Проверка адекватности тематической модели Степан Лобастов [176] Редакция

Список принятых к публикации работ

  • 1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
  • 2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков and оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
  • 3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
  • 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
  • 5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
  • 6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
  • 7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
  • 8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
  • 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
  • 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
  • 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Моя первая публикация с кросс-рецензированием

Список задач

Task name Author Reviewer Link to work Comments
CMARS: аппроксимация сплайнами Влада Целых Татьяна Шпакова Celyh2012CMARS [.]сaipvdstrj(10)
Алгоритмические основы построения банковских скоринговых карт Александр Адуенко Алина Иванова Aduenko2012economics [.]сaipvdstrj(10)
Использование метода главных компонент при построении интегральных индикаторов Мария Медведникова Светлана Цыганова Medvednikova2012PCA [r]сaipvdstrj(10)
Многоуровневая классификация при обнаружении движения цен Арсентий Кузьмин Анна Варфоломеева Kuzmin2012TimeRows [r]сaipvdstjr(10)
Локальные методы прогнозирования с выбором инвариантного преобразования Светлана Цыганова Мария Медведникова Tsyganova2012 LocalForecast [r]сaipvdstjr(10)
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример) Егор Клочков Александр Шульга Klochkov2012Goods4Cast [r]сaipvdstj.(10)
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии (пример) Степан Лобастов Егор Клочков Lobastov2012FOSelection [r]сaipvdstrj(10)
Локальные методы прогнозирования с выбором метрики Анна Варфоломеева Арсентий Кузьмин Varfolomeeva2012 LocForecastMetrics [r]сaipvdstjr(10)
Полиномы Чебышева and прогнозирование временных рядов Валерия Бочкарева Степан Лобастов Bochkareva2012TimeSeriesPrediction [.]сaipvdst-r(9)
Кластеризация and составление словаря аминокислотных последовательностей Татьяна Шпакова Влада Целых Shpakova2012Clustering [.]сaipvdst.(9)
Векторная авторегрессия and управление макроэкономическими показателями Александр Шульга Shulga2012VAR [.]сaipvds..(9)
Аппроксимация эмпирических функций распределения Алина Иванова Александр Адуенко Ivanova2012 ApproximateFunc [r]сaipvd..(9)

Аннотации

Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии

Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [177] and кредитном скроллинге. В реальных условиях число признаков обычно велико, and важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.

Ключевые слова: logit model, feature selection, boosting.

Использование метода главных компонент при построении интегральных индикаторов

В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Ключевые слова: интегральный индикатор, Expertные оценки, веса параметров, метод главных компонент, метод расслоения Парето.

Аппроксимация эмпирических функций распределения

Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических Taskх обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.

Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.

Методы локального прогнозирования с выбором преобразования

Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.

Ключевые слова: локальное прогнозирование, преобразование

Черновой список задач

  1. Кластеризация and составление словаря аминокислотных последовательностей
  2. Oblivious decision trees: алгоритм Яндекс для системы Полигон
  3. Сравнительный анализ регрессионных остатков в SVN-регрессии
  4. Алгоритмы нахождения гауссовских смесей
  5. Прогноз квазипериодических многомерных временных рядов непараметрическими методами
  6. Многоуровневая классификация при обнаружении движения цен
  7. CMARS: аппроксимация сплайнами
  8. Полиномы Чебышева and метод прогонки при прогнозировании временных рядов
  9. Сравнение методов ARMA and FLS при ретроспективном прогнозировании
  10. Локальные методы прогнозирования с выбором метрики
  11. Локальные методы прогнозирования с выбором инвариантного преобразования
  12. Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
  13. Векторная авторегрессия and управление макроэкономическими показателями
  14. Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников

Ещё задачи

  1. Анализ текста методами структурного обучения
  2. Аппроксимация эмпирических функций распределения
  3. Алгоритмические основы построения банковских скоринговых карт
  4. Сингулярное разложение and поисковая машина
  5. Сравнение алгоритмов многокритериальной оптимизации
  6. Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
  7. Уточнение Expertных оценок при анализе работы механизма устойчивого развития энергетики
  8. Визуализация пространства параметров регрессионных моделей
  9. Восстановление регрессии методом главных компонент
  10. Оценка гиперпараметров путем сэмплирования
  11. Прореживание существенно нелинейных моделей с помощью гиперпараметров
  12. Фактор Оккама для параметрических моделей с известной областью определения параметров
  13. Создание алгоритмов последовательной модификации моделей
  14. Порождение and выбор моделей классификации

and еще задачи

  • Функция расстояния между формулами and поиск.
  • Поиск объектов (техническая работа).

+

  • Авторегрессия
  • Векторная авторегрессия
  • Экспоненциальное сглаживание
  • Локальные методы, поиск метрики
  • Локальные методы с инвариантами, метрика фиксирована
  • ARIMA
  • Многомерная гусеница, выбор длины гусеницы
  • Многомерная гусеница, выбор рядов
  • Прогнозирование с использованием DTW
  • Скользящее среднее, выбор ядер
  • Скользящее среднее с забыванием истории
  • Скользящее среднее временных рядов с периодической составляющей
  • Прогнозирование нейронными сетями
  • Анализ качества прогноза
  • Метаописание временных рядов
  • Логическое прогнозирование
  • SVN – регрессия
  • Дискретное прогнозирование, музыка.

Составить

  • Список типичных типографических ошибок
  • Список ошибок BibTeX

2011

Публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи Работу выполняет Рецензент Ссылка на работу Комментарии
Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых and коррелирующих признаков Токмакова Александра Мотренко Анастасия Tokmakova2011HyperPar
Выбор моделей прогнозирования цен на электроэнергию Леонтьева Любовь Гребенников Евгений Leonteva2011ElectricityConsumption
Многоклассовый прогноз вероятности наступления инфаркта and оценка необходимого объема выборки пациентов (пример) Мотренко Анастасия Токмакова Александра Motrenko2011HAPrediction
Алгоритмы порождения существенно-нелинейных моделей Георгий Рудой Николай Балдин Rudoy2012Generation
Событийное моделирование and прогноз финансовых временных рядов Александр Романенко Егор Будников Romanenko2011Event
Обзор некоторых статистических моделей естественного языка Егор Будников Александр Романенко Budnikov2011Statistical

Моя первая публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

См. также

Задачи

Название задачи Работу выполняет Работу рецензирует Ссылка на работу Комментарии
Использование теста Гренджера при прогнозировании временных рядов Анастасия Мотренко Любовь Леонтьева Motrenko2011GrangerForc Опубл. в JMLDA
Выбор функции активации при прогнозировании нейронными сетями Георгий Рудой Николай Балдин Rudoy2011NNForecasting Опубл. в JMLDA
Многомерная гусеница, выбор длины and числа компонент гусеницы (пример) Любовь Леонтьева Михаил Бурмистров Leonteva2011GaterpillarLearning Опубл. в JMLDA
Прогнозирование функциями дискретного аргумента (пример) Егор Будников Александр Романенко Budnikov2011DiscreteForecasting Опубл. в JMLDA
Исследование сходимости при прогнозировании нейронными сетями с обратной связью Николай Балдин Георгий Рудой Baldin2011FNNForecasting Опубл. в JMLDA
Выравнивание временных рядов: прогнозирование с использованием DTW Александр Романенко Егор Будников Romanenko2011DTWForecasting Опубл. в JMLDA
Выделение периодической компоненты временного ряда (пример) Александра Токмакова Егор Будников Tokmakova2011Periodic Опубл. в JMLDA

Краткое описание задач

Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров

В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра and наложенного шума.

Task 2: Экспоненциальное сглаживание and прогноз

В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.

Task 3: Выделение периодической компоненты временного ряда (пример)

В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции and метода наименьших квадратов на зашумлённом модельном синусе and реальном временном ряде электрокардиограммы.

Task 4: Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда) (пример)

В работе описывается метод гусеницы and его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент and последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы and числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.

Task 5: Прогнозирование функциями дискретного аргумента (пример)

В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.

Task 7: Локальные методы прогнозирования,поиск метрики

Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.

Task 8: Локальные методы прогнозирования, поиск инвариантного преобразования

В проекте используются локальные методы прогнозирования временных рядов. В этих методах не находится представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).

Пусть имеется временной ряд, and стоит Task продолжить его. Предполагается, что такое продолжение определяется предысторией, т.е. в ряде нужно найти часть, которая после некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A and есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков временного ряда (подробнее об этом см. здесь). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.

Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)

Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной $\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$. Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей and его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине and других сферах.

Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности and транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".

Task 10: Выбор функции активации при прогнозировании нейронными сетями

Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- and многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.

Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа and параметров функции активации.

Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью

Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего and предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана. Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое and от ширины скользящего окна. Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.

Task 13: Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)

Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки and сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся and периодических до шумовых), и, наконец, восстановление ряда.

Областью применения алгоритма являются задачи как метеорологии and геофизики, так and экономики and медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.

Task 14: Использование теста Гренджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений and явлений природного характера (например, землятрясений).

Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Task 15: Прогнозирование and аппроксимация сплайнами

Описание.

Task 16: ARIMA and GARCH при прогнозировании высоковолатильных рядов

Описание.

Task 17: Прогнозирование and SVN–регрессия

Описание.

Доклады and экзамен (возможны уточнения)

  • Доклад-1 6 апреля
  • Контрольная точка 12 мая
  • Экзамен 19 мая

Список задач, черновик

  1. Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
  2. Прогнозирование and экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
  3. Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
  4. Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда)
  5. Многомерная гусеница, выбор временных рядов при прогнозировании
  6. Многомерная авторегрессия
  7. Локальные методы прогнозирования, поиск метрики
  8. Локальные методы прогнозирования, поиск инвариантного преобразования
  9. Прогнозирование с использованием пути наименьшей стоимости (DTW)
  10. Выбор функции активации при прогнозировании нейронными сетями
  11. Выбор ядра при прогнозировании функциями радиального базиса
  12. Исследование сходимости при прогнозировании нейронными сетями с обратной связью
  13. Прогнозирование функциями дискретного аргумента
  14. Использование теста Гренджера при прогнозировании временных рядов
  15. Прогнозирование and SVN – регрессия
  16. ARIMA and GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
  17. Прогнозирование and аппроксимация сплайнами
  18. Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты
Личные инструменты