Участник:Strijov/Drafts

Материал из MachineLearning.

< Участник:Strijov

Версия от 21:17, 15 февраля 2023; Strijov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Шаблон:Main article

Содержание

1 2021
2 2020
3 2019
4 Group 2
5 2018
- 5.1 Autumn 2018
6 YEAR
7 YEAR
- 7.1 Group 594
8 2017
9 2016
10 YEAR
11 2015
12 2015
13 2014
14 2013
- 14.1 Моя первая публикация с кросс-рецензированием
- 14.2 Задачи
15 2012
16 2011

2021

Story 2020 (774, 794) — 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Author	Topic	Links	Consultant	Letters	Reviewer
Grebenkova Olga (example)	Variational optimization of deep learning models with model complexity control	LinkReview GitHub Paper Slides Video	Oleg Bakhteev	AILP+UXBR+HCV+TEDWSS	Shokorov Vyacheslav Review
Pilkevich Anton	Existence conditions for hidden feedback loops in recommender systems	GitHub LinkReview Paper Slides Video	Khritankov Anton	AILBP-X+R-B-H1CVOT-EM*H1WJSF	Gorpinich Maria Review
Antonina Kurdyukova\|	Determining the phase and disorder of human movement based on the signals of wearable devices	LinkReview GitHub Paper Slides Video	Georgy Kormakov	AILBPXBRH1CVOTEM*WJSF	Pilkevich Anton Review
Yakovlev Konstantin	A differentiable search algorithm for model architecture with control over its complexity	LinkReview GitHub Paper Slides Video	Grebenkova Olga	AILBPXBRH1CVOTEM*WJSF	Pyrau Vitaly Review
Gorpinich Maria	Trajectory Regularization of Deep Learning Model Parameters Optimization Based on Knowledge Distillation	LinkReview GitHub Paper Slides Video	Oleg Bakhteev	AILBP+XBRC+VH1OTEM*WJSF	Kulakov Yaroslav Review
Alexandr Tolmachev	Analysis of the QPFS Feature Selection Method for Generalized Linear Models	LinkReview GitHub Paper Slides Video	Aduenko Alexander	AILBPXB-R-H1CVOTEM*WJSF	Antonina Kurdyukova Review
Kulakov Yaroslav	BCI: Selection of consistent models for building a neural interface	LinkReview GitHub Paper Slides Video	Isachenko Roman	AILBPXBRH1CVOTEM*WJ0SF	Zverev Egor Review
Pyrau Vitaly	Experimental comparison of several problems of operational planning of biochemical production.	LinkReview GitHub Paper Slides Video	Trenin Sergey Alekseevich	AILBPXBRH1CVOTEM*WJSF	Yakovlev Konstantin Review
Bazhenov Andrey	Search for the boundaries of the iris by the method of circular projections	LinkReview GitHub Paper Slides Video	Matveev Ivan Alekseevich	AILBPXB0RH1CVOTEM*WJ0SF
Zverev Egor	Learning co-evolution information with natural language processing for protein folding problem	LinkReview GitHub Paper Slides Video	Sergei Grudinin, Ilya Igashov	AILBPXBRH1CVOTEM*WJSF	Alexandr Tolmachev Review
Gorchakov Vyacheslav	Importance Sampling for Chance Constrained Optimization	LinkReview Github Paper Video	Yuri Maksimov	AILBPX0B0R0H1C0V0O0T0E0M*0W0JS0F	Bazhenov Andrey Review
Lindemann Nikita	Training with an expert for a sample with many domains	LinkReview Github Paper Slides	Andrey Grabovoi	AILPXBRH1C0V0OTE0M0W0J0SF0

Task 74

Name: Existence conditions for hidden feedback loops in recommender systems
Problem description: In recommender systems, the effect of artificially inadvertently limiting the user's choice due to the adaptation of the model to his preferences (echo chamber / filter bubble) is known. The effect is a special case of hidden feedback loops. (see - Analysis H.F.L.). It is expressed in the fact that by recommending the same objects of interest to the user, the algorithm maximizes the quality of its work. The problem is a) lack of variety b) saturation / volatility of the user's interests.
Task: It is clear that the algorithm does not know the interests of the user and the user is not always honest in his choice. Under what conditions, what properties of the learning algorithm and dishonesty (deviation of the user's choice from his interests) will the indicated effect be observed? Clarification. The recommendation algorithm gives the user a_t objects to choose from. The user selects one of them c_t from Bernoulli from the model of interest mu(a_t) . Based on the user's choice, the algorithm changes its internal state w_t and gives the next set of objects to the user. On an infinite horizon, you need to maximize the total reward sum c_t. Find the conditions for the existence of an unlimited growth of user interest in the proposed objects in a recommender system with the Thomson Sampling (TS) MAB algorithm under conditions of noisy user choice c_t. Without noise, it is known that there is always unlimited growth (in the model) [1].
Data: are created as part of the experiment (simulation model) by analogy with the article [1], external data is not required.
References:
1. Jiang, R., Chiappa, S., Lattimore, T., György, A. and Kohli, P., 2019, January. Degenerate feedback loops in recommender systems. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (pp. 383-390).
2. Khritankov, A. (2021). Hidden Feedback Loops in Machine Learning Systems: A Simulation Model and Preliminary Results. In International Conference on Software Quality (pp. 54-65). Springer, Cham.
3. Khritankov A. (2021). Hidden feedback loop experiment demo. https://github.com/prog-autom/hidden-demo
Basic algorithm: The initial mathematical model of the phenomenon under study is described in the article [1]. The method of experimental research is in the article [2]. The base source code is available at [3]
Solution: It is necessary to derive conditions for the existence of positive feedback for the Thomson Sampling Multi-armed Bandit algorithm based on the known theoretical properties of this algorithm. Then check their performance in the simulation model. For verification, a series of experiments is performed with the study of parameter ranges and the estimation of the error (variance) of the simulation. The results are compared with the previously constructed mathematical model of the effect. There is an implementation of the experiment system that can be improved for this task.
Novelty: The studied positive feedback effect is observed in real and model systems and is described in many publications as an undesirable phenomenon. There is his model for the limited case of the absence of noise in the user's actions, which is not implemented in practice. Under the proposed conditions, Task has not previously been posed and not solved for recommender systems. For the regression problem, the solution is known.
Authors: Expert, consultant - Anton Khritankov

Task 77

Name: Determining the phase and disorder of human movement by signals from wearable devices
Task: A wide class of periodic movements of a person or an animal is investigated. It is required to find the beginning and end of the movement. It is required to understand when one type of movement ends and another begins. For this, the Task of segmentation of time series is solved. The phase trajectory of one movement is constructed and its actual dimension is found. The purpose of the work is to describe a method for finding the minimum dimension of the phase space. By repetition of the phase, segment the periodic actions of a person. It is also necessary to propose a method for extracting the zero phase in a given space for a specific action. Bonus: find the discord in the phase trajectory and indicate the change in the type of movement. Bonus 2: do this for different phone positions by proposing invariant transformation models.
Data: The data consists of time series read from a three-axis accelerometer with an explicit periodic class (walking, running, walking up and down stairs, etc.). It is possible to get your own data from a mobile device, or get model data from the dataset UCI HAR
References:
1. A. P. Motrenko, V. V. Strijov. Extracting fundamental periods to segment biomedical signals // Journal of Biomedical and Health Informatics, 2015, 20(6).P. 1466–1476 1.(Сегментация временных рядов с периодическими действиями: решалась Task сегментации с использованием фазового пространства фиксированной размерности.) PDF URL
2. A.D. Ignatov, V. V. Strijov. Human activity recognition using quasi-periodic time series collected from a single triaxial accelerometer. // Multimedia Tools and Applications, 2015, P. 1–14. ( Классификация человеческой активности с помощью сегментации временных рядов : исследовались классификаторы над получаемыми сегментами.) PDF URL
3. Grabovoy, A.V., Strijov, V.V. Quasi-Periodic Time Series Clustering for Human Activity Recognition. Lobachevskii J Math 41, 333–339 (2020). (Сегментация временных рядов на квазипериодические сегменты : исследовались методы сегментации с использованием анализа главных компонент and перехода в фазовое пространство.) Text Slides DOI
Basic algorithm: The basic algorithm is described in 1 and 3 works, code here, work code 3 author.
Solution: It is proposed to consider various dimensionality reduction algorithms and compare different spaces in which the phase trajectory is constructed. Develop an algorithm for finding the minimum dimension of the phase space in which the phase trajectory has no self-intersections up to the standard deviation of the reconstructed trajectory.
Novelty: In Motrenko's article, the space dimension is equal to two. This shortcoming must be corrected. The phase trajectory must not intersect itself. And if we can distinguish one type of movement from another within one period (switched from running to a step and realized this within one and a half steps), it will be great.
Authors:  consultants: Kormakov G.V., Tikhonov D.M., Expert Strizhov V.V.

Task 78

Name: Importance Sampling for Scenario Approximation of Chance Constrained Optimization
Task: Optimization problems with probabilistic constraints are often encountered in engineering practice. For example, the Task of minimizing energy generation in energy networks, with (randomly fluctuating) renewable energy sources. In this case, it is necessary to comply with safety restrictions: voltages at generators and consumers, as well as currents on the lines, must be less than certain thresholds. However, even in the simplest situations, the Task cannot be resolved exactly. The best-known approach is the chance constrained optimization methods, which often give a good approximation. An alternative approach is sampling the network operation modes and solving the problem on the data set of the classification problem: separating bad modes from good ones with a given error of the second kind. At the same time, for a sufficiently accurate solution, a very large amount of data is required, which often makes the problem numerically inefficient. We suggest using “importance sampling” to reduce the number of scenarios. Importance sampling consists of substituting a sample from a nominal solution, which often carries no information since all bad events are very rare, with a synthetic distribution that samples the sample in a neighborhood of bad events.
Problem statement: find the minimum of a convex function (price) under probabilistic constraints (the probability of exceeding a certain threshold for a system of linear/quadratic functions is small) and numerically show the effectiveness of sampling in this problem.
Data: Data is available in the pypower and matpower packages as csv files.
References: The proposed algorithms are based on 3 articles:
1. Owen, Maximov, Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems LINK
2. A. Nemirovski. On safe tractable approximations of chance constraints [1]
3. S. Tong, A. Subramanyam, and Vi. Rao. Optimization under rare chance constraints. LINK
4. In addition, the authors of the problem have a draft of the article, in which you need to add a numerical part.
Basic algorithm: A list of basic algorithms is provided in this lecture LINK
Solution: in numerical experiments, you need to compare the sample size requirements for standard methods (scenario approximation) and using importance sampling to obtain a solution of comparable quality (and inverse Task, having equal sample lengths, compare the quality of the solution)
Novelty: Task has long been known in the community and scenario approximation is one of the main methods. At the same time, importance sampling helps to significantly reduce the number of scenarios. We have recently received a number of interesting results on how to calculate optimal samplers, with their use the complexity of the problem will be significantly reduced
Authors: Expert – Yuri Maksimov, consultant – Yuri Maksimov and Alexander Lukashevich, student.

Task 79

Name: Improving Bayesian Inference in Physics Informed Machine Learning
Task: Machine learning methods are currently widely used in physics, in particular, in solving turbulence problems or analyzing the stability of physical networks. At the same time, the key issue is which modes to choose for training models. A frequent choice is a sequence of points that uniformly covers the admissible set. However, often such sequences are not very informative, especially if analytical methods give a region where the system is guaranteed to be stable. The problem proposes several methods of sampling: allowing to take into account this information. Our goal is to compare them and find the one that requires the smallest sample size (empirical comparison).
Data: The experiment is proposed to be carried out on model and real data. The simulation experiment consists in analyzing the stability of (slightly non-linear) differential equations (synthetic data is self-generated). The second experiment is to analyze the stability of energy systems (data from matpower, pypower, GridDyn).
References:
1. Art Owen. Quasi Monte Carlo Sampling. LINK
2. Jian Cheng & Marek J. Druzdzel. Computational Investigation of Low-Discrepancy Sequences in Simulation Algorithms for Bayesian Networks [2]
3. A. Owen, Y Maximov, M. Chertkov. Importance Sampling for the Union of Rare Events with Applications to Power Systems [3]
4. Polson and Solokov. Deep Learning: A Bayesian Perspective [4]
5. In addition: the authors of the problem have a draft work on this topic
Basic algorithm: The basic algorithm we are improving is Quasi Monte Carlo (QMC, LINK ). Task to construct low discrepancy sequences not covering the polyhedral region and the region given by the intersection of the quadratic constraints. Another algorithm with which we need a comparison:

E. Gryazina, B. Polyak. Random Sampling: a Billiard Walk Algorithm LINK и с алгоритмами типа Hit and Run [5]

Solution: sampling methods by importance, in particular the extension of the approach (Boy, Ryi, 2014) and (Owen, Maximov, Chertkov, 2017) and their applications to ML/DL for physical problems
Novelty: in a significant reduction in sample complexity and the explicit use of existing and analytical results and learning to solve physical problems, before that ML approaches and analytical solutions were mostly parallel courses
Authors: Expert Yuri Maksimov, consultant Yuri Maksimov and Alexander Lukashevich, student.

Task 81

Name: NAS — Generation and selection of neural network architectures
Task: The task of choosing the optimal neural network architecture is set as the Task of sampling the vector of structural parameters. The optimality criterion is defined in terms of the accuracy, complexity and stability of the model. The sampling procedure itself consists of two steps: generating a new structure and rejecting this structure if it does not satisfy the optimality criterion. It is proposed to explore various methods of sampling. The formulation of the problem of choosing the optimal structure is described in Potanin-1
Data: : Two separate sets are offered as data. The first one consists of one element, this is the popular MNIST dataset. Pros - is a strong and generally accepted baseline, was used as a benchmark for the WANN article, quite large (multi-class classification). The second set is a set of datasets for the regression task. Size varies from very small to quite large. Here is a link to the dataset and laptop to download the data data.
References:
1. Potanin - 1
2. Potanin - 2. One more work, the text is given to the interested student, but without publication.
3. Strizhov Factory laboratory Error function
4. Informtica
5. WANN
6. DARTS
7. Symbols
8. NEAT
Basic algorithm: Closest project, and its code. Actual code from consultant.
Solution: A number of experiments have already been performed, where sampling is performed by a genetic algorithm. Acceptable results have been obtained. It is proposed to analyze and improve them. Namely, to distinguish two modules: generation and deviation and compare several types of sampling. Basic - Importance sampling, desirable - Metropolis-Hastings (or even Metropolis-Langevin) sampling. Since the genetic algorithm is considered by us as a process with jumps, it is proposed to take this into account when designing the sampling procedure. The bonus of MH is that it has a Bayesian interpretation. The first level of Bayesian inference as applied to MH is described in [Informatica]. It is required either to rewrite it in terms of the distribution of structural parameters, or to describe both levels in general, moving the structural parameters to the second level (by the way, approximately the same will be in the Aduenko problem).
Novelty: Neural networks excel at the tasks of computer vision, reinforcement learning, and natural language processing. One of the main goals of neural networks is to perform well tasks that are currently solved exclusively by humans, that is, natural human neural networks. Artificial neural networks still work very differently from natural neural networks. One of the main differences is that natural neural networks evolve over time, changing the strength of connections and their architecture. Artificial neural networks can adjust the strength of connections using weights, but cannot change their architecture. Therefore, the task of choosing the optimal structures of neural networks for specific tasks seems to be an important step in the development of the capabilities of neural network models.
Authors: consultant Mark Potanin, Expert Strizhov V.V.

Task 82

Name: Training with an Expert for a sample with many domains.
Task: The Task of approximating a multi-domain sample by a single multi-model - a mixture of Experts is considered. As data, it is supposed to use a sample that contains several domains. There is no domain label for each object. Each domain is approximated by a local model. The paper considers a two-stage Task optimization based on the EM algorithm.
Data: Samples of reviews from the Amazon site for different types of goods are used as data. It is supposed to use a linear model as a local model, and use tf-idf vectors within each domain as an indicative description of reviews.
References:
Basic algorithm and Solution: The basic solution is presented here. The work uses the expert mixture method for the Multi-Soruce domain adaptation problem. The code for the article is available link.
Novelty: At the moment, in machine learning there are more and more tasks related to data that are taken from different sources. In this case, there are samples that consist of a large number of domains. At the moment, there is no complete theoretical justification for constructing mixtures of local models for approximating such types of samples.
Authors: Grabovoi A.V., Strizhov V.V.

Task 17

Name: BCI: Selection of consistent models for building a neural interface
Task: When building brain-computer interface systems, simple, stable models are used. An important step in building an interface is such a model is an adequate choice of model. A wide range of models is considered: linear, simple neural networks, recurrent networks, transformers. The peculiarity of the problem is that when making a prediction, it is required to model not only the initial signal taken from the cerebral cortex, but also the target signal taken from the limbs. Thus, two models are required. In order for them to work together, a space of agreements is being built. It is proposed to explore the properties of this space and the properties of the resulting forecast (neural interface) on various pairs of models.
Data: ECoG/EEG brain signal data sets.
1. Need ECoG (dataset 25 contains EEG, EOG and hand movements) http://bnci-horizon-2020.eu/database/data-sets
2. neyrotycho — our old data.
References::
1. Yaushev F.Yu., Isachenko R.V., Strizhov V.V. Latent space matching models in the forecasting problem // Systems and Means of Informatics, 2021, 31(1). PDF
2. Isachenko R.V. Choice of a signal decoding model in high-dimensional spaces. Manuscript, 2021. PDF
3. Isachenko R.V. Choice of a signal decoding model in high-dimensional spaces. Slides, 2020. [6]
4. Isachenko R.V., Vladimirova M.R., Strijov V.V. Dimensionality reduction for time series decoding and forecasting problems // DEStech Transactions on Computer Science and Engineering, 2018, 27349 : 286-296. PDF
5. Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. PDF
6. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer interface // Expert Systems with Applications, 2018, 114(30) : 402-413. PDF
7. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Basic algorithm: Described in the first work. The code is available. In that work, the data is two parts of an image. In our work, the signal of the brain and the movement of the hands. SuperTask: to finish the first job. Also the code and works here.
Solution: The case is considered when the initial data are heterogeneous: the spaces of the independent and target variables are of different nature. It is required to build a predictive model that would take into account the dependence in the source space of the independent variable, as well as in the space of the target variable. It is proposed to investigate the accuracy, complexity and stability of pairs of various models. Since the inverse Task is solved when building a forecast, it is required to build inverse transformations for each model. To do this, you can use both basic techniques (PLS) and streams.
Novelty: Analysis of the prediction and latent space obtained by a pair of heterogeneous models.
Authors: Consultant Roman Isachenko, Expert Strizhov V.V.

Task 69

Name: Graph Neural Network in Reaction Yield prediction
Task: There are disconnected graphs of source molecules and products in a chemical reaction. The yield of the main product in the reaction is known. It is required to design an algorithm that predicts yield by solving the regression task on given disconnected graphs.
Data: Database of reaction from US patents [7]
References::
- [8] A general overview.
- [9] Relational Graph Convolution Neural Network
- [10] Transformer architecture
- [11] Graph neural network learning for chemical compounds synthesis
Basic algorithm: Transformer model. The input sequence is a SMILES representation of the source and product molecules.
Solution: A pipeline for working with disconnected graphs is proposed. The pipeline includes the construction of extended graph with molecule and reaction representation, Relational Graph Convolution Neural Network, Encoder of Transformer. The method is applied to solve yield predictions.
Novelty: A solution for regression problem on the given disconnected graph is constructed; the approach demonstrates better performance compared with other solutions
Authors:: Nikitin Filipp, Isayev Olexandr, Strizhov V.V.

Task 84

Name: Trajectory Regularization of Deep Learning Model Parameters Optimization Based on Knowledge Distillation
Task: The problem of optimizing the parameters of a deep learning model is considered. The case is considered when the responses of a more complex model (teacher model) are available during optimization. The classical approach to solving such a problem is learning based on the responses of a complex model (knowledge distillation). Assignment of hyperparameters is made empirically based on the results of the model on delayed sampling. In this paper, we propose to consider a modification of the approach to knowledge distillation, in which the coefficient of significance of the distilling term, as well as its gradients, act as hyperparameters. Both of these groups of parameters allow you to adjust the optimization of the model parameters. To optimize hyperparameters, it is proposed to consider the optimization problem as a two-level optimization problem, where at the first level of optimization the Task of optimizing the model parameters is solved, and at the second level the Task of optimizing hyperparameters is approximately solved by the value of the loss function on the delayed sample.
Data: Sampling of CIFAR-10 images
References:
Basic algorithm: Model optimization without distillation and with standard distillation approach
Solution: Using a two-level problem for model optimization. The combination of gradients for both terms is processed by a separate model (LSTM)
Novelty: A new approach to model distillation will be proposed to significantly improve the performance of models trained in privileged information mode. It is also planned to study the dynamics of changes in hyperparameters in the optimization process.
Authors: Oleg Bakhteev, Strizhov V.V.

Task 85

Name: A differentiable search algorithm for model architecture with control over its complexity
Task: The problem of choosing the structure of a deep learning model with a predetermined complexity is considered. It is required to propose a method for searching for a model that allows controlling its complexity with low computational costs.
Data: MNIST, CIFAR
References:
1. Grebenkova O.S., Oleg Bakhteev, Strizhov V.V.Variational optimization of a deep learning model with complexity control // Informatics and its applications, 2021, 15(2). PDF
2. DARTS
3. hypernets
Basic algorithm: DARTS
Solution: The proposed method is to use a differentiable neural network architecture search algorithm (DARTS) with parameter complexity control using a hypernet.
Novelty: The proposed method allows you to control the complexity of the model, in the process of searching for an architecture without additional heuristics.
Authors: Oleg Bakhteev, Grebenkova O. S.

Task 86

Name: Learning co-evolution information with natural language processing for protein folding problem
Task: One of the most essential problems in structural bioinformatics is protein fold recognition since the relationship between the protein amino acid sequence and its tertiary structure is revealed by protein folding. A specific protein fold describes the distinctive arrangement of secondary structure elements in the nearly-infinite conformation space, which denotes the structural characteristics of a protein molecule.
Problem description:: request
Authors: Sergei Grudinin, Maria Kadukova.

Task 87

Name: Bayesian choice of structures of generalized linear models
Task: The work is devoted to testing methods for feature selection. It is assumed that the sample under study contains a significant number of multicollinear features. Multicollinearity is a strong correlation between the features selected for analysis that jointly affect the target vector, which makes it difficult to estimate regression parameters and identify the relationship between features and the target vector. There is a set of time series containing the readings of various sensors that reflect the state of the device. The readings of the sensors correlate with each other. It is necessary to choose the optimal set of features for solving the forecasting problem.
Novelty: One of the most preferred feature selection algorithms has been published. It uses structural parameters. But there is no theoretical justification. It is proposed to build a theory by describing and analyzing various functions of a priori distribution of structural parameters. In works on the search for structures of neural networks, there is also no clear theory and a list of a priori assumptions.
Data: Multivariate time series with readings from various sensors from paper 4, for starters, all samples from paper 1.
References: Keywords: bootstrap aggregation, Belsley method, vector autoregression.
1. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications, 2017, 76 : 1-11. PDF
2. Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183. PDF
3. Strizhov V.V. Error function in regression recovery problems // Factory laboratory. material diagnostics, 2013, 79(5) : 65-73. PDF
4. Зайцев А.А., Strizhov V.V., Tokmakova A.A. Estimation of hyperparameters of regression models by the maximum likelihood method // Information technologies, 2013, 2 : 11-15. PDF
5. Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Informatica, 2016, 27(3) : 607-624. PDF
6. Катруца А.М., Strizhov V.V. The problem of multicollinearity in the selection of features in regression problems // Information technologies, 2015, 1 : 8-18. PDF
7. Нейчев Р.Г., Катруца А.М., Strizhov V.V. Selection of the optimal set of features from a multicorrelated set in the forecasting problem. Zavodskaya Lab. material diagnostics, 2016, 82(3) : 68-74. PDF
Basic algorithm: Described in Reference 1: Quadratic Programming for QPFS Feature Selection. Code from Roman Isachenko.
Solution: It is proposed to consider the structural parameters used in QPFS at the second level of Bayesian inference. Introduce informative a priori distributions of parameters and structural parameters. Compare different a priori assumptions.
Novelty: Statistical Analysis of Structural Parameter Space and Visualization
Authors: Alexander Aduenko — consultant, Strizhov V.V.

Task 88

Name: Search for the boundaries of the iris by the method of circular projections
Task: Given a monochrome bitmap of the eye, см. examples. The approximate position of the center of the pupil is also known. The word "approximate" means that the calculated center of the pupil is no more than half of its true radius from the true one. It is necessary to determine the approximate positions of the circles approximating the pupil and iris. The algorithm must be very fast.
Data: About 200 thousand eye images. For each, the position of the true circles is marked - for the purpose of training and testing the method being created.
Basic algorithm: To speed up work with the image, it is proposed to aggregate data using circular projections of brightness. Circular projection is a function that depends on the radius, the value of which P(r) is equal to the integral of the directed image brightness gradient over a circle of radius r (or along an arc of a circle). Example for one arc (right quadrant) and for four arcs. Having built some circular projections, based on them, you can try to determine the position of the inner and outer borders of the iris (ring) using heuristics and / or a neural network. It is interesting to evaluate the capabilities of the neural network in this task.
References: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257 PDF
Author: Matveev I.A.

Task 53

Name: Solution of an optimization problem combining classification and regression to estimate the binding energy of a protein and small molecules.
Task: The goal of the problem is to solve an optimization problem with classification and regression loss functions applied to biological data.
Data: Approximately 12,000 complexes of proteins with small molecules. For classification, for each of them there is 1 correct position in space and 18 incorrect ones generated, for regression, each complex corresponds to the value of the binding constant (proportional to energy). The main descriptors are histograms of distributions of distances between different atoms.
References::
- https://www.overleaf.com/read/rjdnyyxpdkyj Task details
- http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM
- http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression Ridge Regression
- https://alex.smola.org/papers/2003/SmoSch03b.pdf SVR
Basic algorithm: In the classification task, we used an algorithm similar to linear SVM, whose relationship with the energy estimate, which is outside the scope of the classification task, is described in the article https://hal.inria.fr/hal-01591154/. For MSE, there is already a formulated dual Task as a regression loss function, with the implementation of which we can start.
Solution: The first step is to solve the problem with the MSE in the loss function using a solver that is convenient for you. The main difficulty may be the large dimensionality of the data, but they are sparse. Further it will be possible to change the wording of the problem.
Novelty: Many models used to predict the interactions of proteins with ligands are "retrained" for some task. For example, models that are good at predicting binding energies may be poor at selecting a protein-binding molecule from a variety of non-binding ones, and models that are good at determining the correct geometry of the complex may be poor at predicting energies. In this problem, we propose to consider a new approach to combat such overfitting, since the combination of classification and regression loss functions seems to us to be a very natural regularization.
Authors: Sergei Grudinin, Maria Kadukova.

Task 75

Name: Alignment of image elements using metric models.
Task: Character set specified. Each symbol is represented by one file - an image. Image pixel size may vary. All images are known to belong to the same class, such as faces, letters, flowers, or cars. (A more complicated option is to one class, which we are studying and noise classes.) It is known that each image can be combined with another with the help of an equalizing transformation up to noise, or up to some average image. (This image may or may not be present in the sample). This leveling transformation is specified in the base case by a neural network, and in the proposed case - by a parametric transformation from some given class (the first is a special case of the second). The aligned image is compared with the original one using the distance function. If the distance between two images is statistically significant, it is concluded that the images belong to the same class. It is required to 1) propose an adequate model of the alignment transformation that takes into account the assumptions about the nature of the image (for example, only rotation and proportional scaling), 2) propose a distance function, 3) propose a method for finding the average image.
Data: Synthetic and real 1) pictures - faces and symbols with rotation and stretch transformation, 2) faces and cars with 3D rotation transformation with 2D projection. Synthetic images are proposed to be created manually using 1) photographs of a sheet of paper, 2) photographs of the surface of the drawing on a balloon.
References:
1. support work - alignment of images using 2D DTW,
2. support work - alignment of images using neural networks,
3. DTW alignment work in 2D,
4. parametric alignment work.
Basic algorithm: from work 1.
Solution: In the attached file pdf.
Novelty: Instead of multidimensional image alignment, parametric alignment is proposed.
Authors: Alexey Goncharov, Strizhov V.V.

Task 80

Name: Detection of correlations between activity in social networks and capitalization of companies
Task: At present, the significant impact on stock quotes, company capitalization and the success or failure of an IPO depends on social factors such as public opinion expressed on social media. A recent notable example is the change in GameStore quotes caused by the surge in activity on Reddit. Our task at the first stage is to identify quotes between the shares of companies in different segments and activity in social networks. That is, it is necessary to identify correlations between significant changes in the company's capitalization and previous bursts (positive or negative) of its discussion in social networks. That is, it is necessary to find the minimum of the loss function when restoring the dependence in various classes of models (parametrics, neural networks, etc.). This Task is part of a large project to analyze the analysis of markets and the impact of social factors on risks (within a team of 5-7 professors), which will lead to a series of publications sufficient to defend a dissertation.
Data: Task has a significant engineering context, the data is downloads from quotes on the Moscow Exchange, as well as NYT and reddit data (crawling and parsing is done by standard tools). The student working on this task must have strong engineering skills and a desire to engage in both the practice of machine learning and the engineering parts of the task.
References:
1. Paul S. Adler and Seok-Woo Kwon. Social Capital: Prospects for a new Concept. [12]
2. Kim and Hastak. Social network analysis: Characteristics of online social networks after a disaster LINK
3. Baumgartner, Jason, et al. "The pushshift reddit dataset." Proceedings of the International AAAI Conference on Web and Social Media. Vol. 14. 2020. [13]
Basic algorithm: The basic algorithms are LSTM and Graph neural networks.
Solution: Let's start by using LSTM, then try some of its standard extensions
Novelty: In this area, there are a lot of economic, model solutions, but the accuracy of these solutions is not always high. The use of modern ML/DL models is expected to significantly improve the quality of the solution.
Authors: Expert Yuri Maksimov, consultant Yuri Maksimov, student.

Task 88b

Name: Finding a Pupil in an Eye Image Using the Luminance Projection Method
Task: Given a monochrome bitmap of the eye, examples. It is necessary to determine the approximate coordinates of the center of the pupil. The word "approximate" means that the calculated pupil center must lie inside a circle centered at the pupil's true center and half the true radius. The algorithm must be very fast.
Data: About 200 thousand eye images. For each, the position of the true circle is marked - for the purpose of training and testing the method being created.

Basic algorithm: To speed up work with the image, it is proposed to aggregate data using brightness projections. Image brightness is a function of two discrete arguments. Its projection on the horizontal axis is equal to. Similarly, projections are constructed on axes with an inclination. Having built several projections (two, four), based on them, you can try to determine the position of the pupil (compact dark area) using heuristics and / or a neural network. It is interesting to evaluate the capabilities of the neural network in this task.

References: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. PDF
Author: Matveev I.A.

Task 88c

Name: Searching for a century in an image as a parabolic contour using the projection method.
Task: Given a monochrome bitmap of the eye, examples. It is necessary to find the contour of the upper eyelid as a parabola, that is, to determine the parameters.
Data: About 200 thousand eye images. For some (about 2500), a human expert marked the position of a parabola that approximates the eyelid.
Basic algorithm: The first step is pre-processing the image with a vertical gradient filter with further binarization, below is a typical result. There are various options for the next step. For example, if the coordinates of the pupil are known, you can set the region of interest (from above) and in it, using the selected points, construct a parabola by approximation using the least squares method. An example result is given below. More subtle methods are possible, such as finding a parabola using the Hough transform (see Wikipedia). Another way is to use projective methods (Radon transform). The main idea: after specifying the coefficient , apply a coordinate transformation to the image, as a result of which all parabolas of the form formula turn into lines of the form , then, given the coefficient , apply the coordinate transformation where , after which the oblique lines of the formula form become horizontal, which are easy to determine, for example, by horizontal projection (by summing the values in the rows of the matrix of the resulting image. If the coefficients are guessed correctly, the perabola representing the eyelid will give a clear maximum in the projection. By going through the formula (having a physical meaning), you can find those that give the maximum projection value, and consider that the desired parabola - eyelid.
References: Wikipedia, articles "Hough Transform", "Radon Transform".
Author: Matveev I.A.

Task 62

Name: Construction of a method for dynamic alignment of multidimensional time series, resistant to local signal fluctuations.
Task: In the process of working with multidimensional time series, the situation of close proximity of sensors corresponding to different measurement channels is common. As a result, small signal shifts in space can lead to signal peak fixation by neighboring sensors, which leads to significant differences in measurements in terms of L2 distance.
Thus, small signal shifts lead to significant fluctuations in the readings of the sensors. The Task of constructing a distance function between points of time series that is resistant to noise generated by small spatial signal shifts is considered. It is necessary to consider the problem in the approximation of the presence of a map of the location of the sensors.
Data:
- Monkey brain activity measurements
- Artificially created data (several options must be proposed, for example: signal movement in space clockwise and counterclockwise)
References::
Basic algorithm: L2 distance between a pair of measurements.
Solution: Use the DTW distance function between two multidimensional time series. Two time axes are aligned, while inside the DTW functional, the distance between the i-th and j-th measurements is chosen such that it is resistant to local “shifts” of the signal. It is required to offer such functionality. The basic solution is L2, the improved solution is DTW between the i-th and j-th dimensions (dtw inside dtw).
You can suggest some modification, for example, the distance between the hidden layers of the autoencoder for points i and j.
Novelty: A method for aligning multidimensional time series is proposed that takes into account small signal fluctuations in space.
Authors: Expert - Strizhov V.V., consultants - Gleb Morgachev, Alexey Goncharov.

Task 58

Name: Transformation of the Gerchberg-Saxton algorithm using Bayesian neural networks. (or Neural network approach in the problem of phase search for images from the European synchrotron)
Task: The aim of the project is to improve the quality of resolution of images of nanosized objects obtained in the laboratories of the European Synchrotron Radiation Foundation.
Data: Contact an advisor for data (3GB).

References::

- [14] Iterative phase retrieval in coherent diffractive imaging: practical issues
- [15] X-ray nanotomography of coccolithophores reveals that coccolith mass and segment number correlate with grid size
- [16] Lens-free microscopy for 3D + time acquisitions of 3D cell culture
- [17] DEEP ITERATIVE RECONSTRUCTION FOR PHASE RETRIEVAL
- https://docs.google.com/document/d/1K7bIzU33MSfeUvg3WITRZX0pe3sibbtH62aw42wxsEI/edit?ts=5e42f70e LinkReview
Basic algorithm: The transition from direct space to reciprocal space occurs using the Fourier transform. The Fourier transform is a linear transformation. Therefore, it is proposed to approximate it with a neural network. For example, an autoencoder for modeling forward and inverse Fourier transforms.
Solution: Transformation of the Gerchberg-Saxton algorithm using Bayesian neural networks. Use of information on physical limitations and expertise.
Novelty: Use of information about physical constraints and expert knowledge in the construction of the error function.
Authors:: Experts Sergei Grudinin, Yuri Chushkin, Strizhov V.V., consultant Mark Potanin

Task 63

Name: Hierarchical alignment of time sequences.
Task: Task of alignment of sequences of difficult events is considered. An example is the complex behavior of a person: when considering data from IMU sensors, one can put forward a hypothesis: there is an initial signal, there are aggregates of “elementary actions” and there are aggregates of “actions” of a person. Each of the indicated levels of abstraction can be distinguished and operated on exactly by it.
In order to accurately recognize the sequence of actions, it is possible to use metric methods (for example, DTW, as a method that is resistant to time shifts). For a more accurate quality of timeline alignment, it is possible to carry out alignment at different levels of abstraction.
It is proposed to explore such a hierarchical approach to sequence alignment, based on the possibility of applying alignment algorithms to objects of different structures, having a distance function on them.
References:
Basic algorithm: classic DTW.
Solution: It is proposed to perform the transition from one level of abstraction to another by using convolutional and recurrent neural networks. Then the object at the lower level of abstraction is the original signal. At the second level - a signal from the hidden layer of the model (built on the objects of the lower level), the dimension of which is much less, and the upper layer - a signal from the hidden layer of the model (built on the objects of the middle level).
In this case, DTW is calculated separately between the lower , between the middle and between the upper levels, but the formation of objects for calculating the distance is carried out taking into account the alignment path between the objects of the previous level.
This method is considered as a way to increase the interpretability of the alignment procedure and the accuracy of the action classification in connection with the transition to higher-level patterns. In addition, a significant increase in speed is expected.
Novelty: The idea of aligning time sequences simultaneously at several levels of abstraction is proposed. The method should significantly improve the interpretability of alignment algorithms and increase their speed.
Authors: Strizhov V.V. - Expert, Gleb Morgachev, Alexey Goncharov - consultants.

Task 57

Name:Additive Regularization and in the Tasks of Privileged Learning in Solving the Problem of Predicting the State of the Ocean
Task: There is a sample of data from ocean buoys, it is required to predict the state of the ocean at different points in time.
Data: The buoys provide data on wave height, wind speed, wind direction, wave period, sea level pressure, air temperature and sea surface temperature with a resolution of 10 minutes to 1 hour.
References:
- [18]
Basic algorithm: Using a simple neural network.
Solution:Adding to the basic algorithm (a simple neural network) a system of differential equations. Explore the properties of the parameter space of teacher and student according to the preferred approach.
Novelty: Investigation of the parameter space of the teacher and the student and their change. It is possible to set up separate teacher and student models and track the change in their parameters in the optimization process - variance, change in the quality of the student when adding teacher information, complexity.
Authors:: Strizhov V.V., Mark Potanin

Task 52

Name: Predicting the quality of protein models using spherical convolutions on 3D graphs.
Task: The purpose of this work is to create and study a new convolution operation on three-dimensional graphs in the framework of solving the problem of assessing the quality of three-dimensional protein models (task regression on graph nodes).
Data: Models generated by CASP competitors are used (http://predictioncenter.org).
References::
- [19] More about the task.
- [20] Relational inductive biases, deep learning, and graph networks.
- [21] Geometric deep learning: going beyond euclidean data.
Basic algorithm: As a basic algorithm, we will use a neural network based on the graph convolution method, which is generally described in [22].
Solution: The presence of a peptide chain in proteins makes it possible to uniquely introduce local coordinate systems for all graph nodes, which makes it possible to create and apply spherical filters regardless of the graph topology.
Novelty: In the general case, graphs are irregular structures, and in many graph learning tasks, the sample objects do not have a single topology. Therefore, the existing operations of convolutions on graphs are greatly simplified or do not generalize to different topologies. In this paper, we propose to consider a new method for constructing a convolution operation on three-dimensional graphs, for which it is possible to uniquely choose local coordinate systems associated with each node.
Authors: Sergei Grudinin, Ilya Igashov.

Task 44+

Name: Early prediction of sufficient sample size for a generalized linear model.
Task: The problem of experiment planning is investigated. The Task of estimating a sufficient sample size according to the data is solved. The sample is assumed to be simple. It is described by an adequate model. Otherwise, the sample is generated by a fixed probabilistic model from a known class of models. The sample size is considered sufficient if the model is restored with sufficient confidence. It is required, knowing the model, to estimate a sufficient sample size at the early stages of data collection.
Цель: On a small simple iid sample, predict the error on a replenished large one. The predictive model is smooth monotonic in two derivatives. The choice of model is a complete enumeration or genetics. The model depends on the reduced (explore) covariance matrix of the GLM parameters.
Data: For the computational experiment, it is proposed to use classical samples from the UCI repository. Link to selections https://github.com/ttgadaev/SampleSizeEstimation/tree/master/datasets
References::

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Basic algorithm: We will say that the sample size is sufficient if the log-likelihood has a small variance, on a sample of size m calculated using the bootstrap.

We are trying to approximate the dependence of the average value of log-likelihood and its variance on the sample size.

Solution: The methods described in the review are asymptotic or require a deliberately large sample size. The new method should be to predict volume in the early stages of experiment design, i.e. when data is scarce.
Authors: consultant - Malinovsky G., Strizhov V.V. (Expert)

Task 12

Name: Machine translation training without parallel texts.
Task: The Task of building a text translation model without the use of parallel texts is considered, i.e. pairs of identical sentences in different languages. This Task occurs when building translation models for low-resource languages (that is, languages for which there is not much data in the public domain).
Data: A selection of articles from Wikipedia in two languages.
References::
- [23] Unsupervised Machine Translation Using Monolingual Corpora Only
- [24] Sequence to sequence.
- [25] Autoencoding.
- [26] Training with Monolingual Training Data.
Basic algorithm: Unsupervised Machine Translation Using Monolingual Corpora Only.
Solution: As a translation model, it is proposed to consider a combination of two auto-encoders, each of which is responsible for presenting sentences in one of the languages. The models are optimized in such a way that the latent spaces of autoencoders for different languages match. As an initial representation of sentences, it is proposed to consider their graph description obtained using multilingual ontologies.
Novelty: A method for constructing a translation model is proposed, taking into account graph descriptions of sentences.
Authors: Oleg Bakhteev, Strizhov V.V.,

Task 8

Name: Generation of features using locally approximating models (Classification of human activities according to measurements of fitness bracelets).
Task: It is required to check the feasibility of the hypothesis about the simplicity of sampling for the generated features. Features are the optimal parameters of approximating models. Moreover, the entire sample is not simple and requires a mixture of models to approximate it. Explore the information content of the generated features - the parameters of the approximating models trained on the segments of the original time series. According to the measurements of the accelerometer and gyroscope, it is required to determine the type of activity of the worker. It is assumed that the time series of measurements contain elementary movements that form clusters in the space of time series descriptions. The characteristic duration of the movement is seconds. Time series are labeled with activity type labels: work, leisure. The typical duration of activity is minutes. It is required to restore the type of activity according to the description of the time series and cluster.
Data: WISDM accelerometer time series (Time series (library of examples), section Accelerometry).
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
References::
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Карасиков М.Е., Strizhov V.V. Classification of time series in the space of parameters of generating models // Informatics and its applications, 2016.URL
- Kuznetsov M.P., Ivkin N.P. Algorithm for Classifying Accelerometer Time Series by Combined Feature Description // Machine Learning and Data Analysis. 2015. T. 1, No. 11. C. 1471 - 1483. URL
- Isachenko R.V., Strizhov V.V. Metric learning in Taskx multiclass classification of time series // Informatics and its applications, 2016, 10(2) : 48-57. URL
- Zadayanchuk A.I., Popova M.S., Strizhov V.V. Choosing the optimal model for classifying physical activity based on accelerometer measurements // Information technologies, 2016. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Basic algorithm: Basic algorithm described in [Karasikov, Strizhov: 2016] and [Kuznetsov, Ivkin: 2014].
Solution: It is required to build a set of locally approximating models and choose the most adequate ones. Find the optimal segmentation method and the optimal description of the time series. Construct a metric space of descriptions of elementary motions.
Novelty: A standard for building locally approximating models has been created. The connection of two characteristic times of the description of human life, the combined statement of the problem.
Authors: Expert - Strizhov V.V., consultants - Alexandra Galtseva, Danil Sayranov.

2020

Story 2019 (674) — 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Author	Topic	Links	Consultant	Letters	Reviewer
Grebenkova Olga	Variational optimization of deep learning models with model complexity control	LinkReview GitHub Paper Slides Video	Oleg Bakhteev	AILP+UXBR+HCV+TEDWS	Shokorov Vyacheslav Review
Shokorov Vyacheslav	Text recognition based on skeletal representation of thick lines and convolutional networks	LinkReview GitHub Paper Slides Video	Denis Ozherelkov	AIL	Grebenkova Olga Review
Filatov Andrey	Intention forecasting. Investigation of the properties of local models in the spatial decoding of brain signals	LinkReview GitHub Paper Slides Video	Valery Markin	AILPHUXBRCVTEDWS	Hristolubov Maxim Review
Islamov Rustem	Analysis of the properties of an ensemble of locally approximating models	LinkReview GitHub Paper Slides Video	Andrey Grabovoi	AILPHUXBRCVTEDWS	Gunaev Ruslan Review
Zholobov Vladimir	Early prediction of sufficient sample size for a generalized linear model.	LinkReview GitHub Paper Slides Video	Grigory Malinovsky	AILPHUXBRCVTEWSF	Vayser Kirill Review
Vayser Kirill	Additive regularization and its meta parameters when choosing the structure of deep learning networks	LinkReview GitHub Paper Slides Video	Mark Potanin	AILP+HUX+BRCV+TEDWS	Zholobov Vladimir Review
Bishuk Anton	Solution of an optimization problem combining classification and regression to estimate the binding energy of a protein and small molecules.	LinkReview GitHub Paper Slides Video	Maria Kadukova	AILPHUXBRCVTEDH	Filippova Anastasia
Filippova Anastasia	Step detection for IMU navigation via deep learning	LinkReview GitHub Paper Slides EnglishPaper Video	Tamaz Gadaev	AIL0PUXBRCVSF	Bishuk Anton Review
Savelev Nickolay	Distributed optimization under Polyak-Loyasievich conditions	LinkReview GitHub Paper Slides Video	A. N. Beznosikov	AILPHUXBRCVTEDWS	Khary Alexandra Review
Khary Alexandra	Theoretical validity of the application of metric classification methods using dynamic alignment (DTW) to spatiotemporal objects.	LinkReview GitHub Paper Slides Video	Gleb Morgachev, Alexey Goncharov	AILPHUXBRCVTEDCWS	Savelev Nickolay Review
Hristolubov Maxim	Generating features using locally approximating models (Classification of human activities by measurements of fitness bracelets)	LinkReview GitHub Paper Slides Video	Alexandra Galtseva, Danil Sayranov	AILPH	Filatov Andrey Review
Mamonov Kirill	Nonlinear ranking of exploratory information search results.	LinkReview GitHub Paper Slides Video	Maxim Eremeev	AILPHU+XBRC+V+TEDHWJSF
Pavlichenko Nikita	Predicting the quality of protein models using spherical convolutions on 3D graphs.	LinkReview GitHub Paper Slides Video	Sergei Grudinin, Ilya Igashov	AILPUXBRHCVTEDH
Sodikov Mahmud, Skachkov Daniel	Agnostic neural networks	Code Paper Slides Video	Radoslav Neichev	AILPHUXBRC+VTEDHWJSF	Kulagin Petr Review
Gunaev Ruslan	Graph Neural Network in Reaction Yield prediction	LinkReview Github Paper Slides Video	Philip Nikitin	AILPUXBRHCVTEDHWSF	Islamov Rustem Review
Yaushev Farukh	Investigation of ways to match models by reducing the dimension of space	LinkReview Github Paper Slides Video	Roman Isachenko	AILPUXBRHCVTEDHWJS	Zholobov Vladimir Review

Task 51

Name: Analysis of the properties of an ensemble of locally approximating models.
Task: In this paper, we consider the task of constructing a universal approximator --- a multimodel, which consists of a given finite set of local models. Each local model approximates a connected region in feature space. It is assumed that the set of local models cover the entire space of objects. A convex combination of local models is considered as an aggregating function. As the coefficients of the convex combination, we consider a function depending on the object --- the gate function.
Required: To construct an algorithm for optimizing the parameters of local models and parameters of the gate function. It is required to propose a metric in the space of objects, a metric in the space of models.
Data:
1. Synthetically generated data.
2. Energy consumption forecasting data. It is proposed to use the following models as local models: working day, day off. (Energy Consumption, Turk Electricity Consumption German Spot Price).
References::
1. Overview of methods for estimating sample size
2. Vorontsov's lectures on compositions
3. Vorontsov's lectures on compositions
4. Esen Y.S., Wilson J., Gader P.D. Twenty Years of Mixture of Experts. IEEE Transactions on Neural Networks and Learning Systems. 2012. Issues. 23. No 8. P. 1177-1193.
5. Pavlov K.V. Selection of multilevel models in Tasks classification, 2012
Basic algorithm: As a basic algorithm, it is proposed to use a two-level optimization problem, where local models are optimized at one iteration and at the next iteration, the parameters of the gate function are optimized.
Authors: Grabovoi A.V. (consultant), Strizhov V.V. (Expert)

Task 54

Name: Finding the pupil in the eye image using the brightness projection method.
Task: Given a monochrome bitmap of the eye, see examples (https://cloud.mail.ru/public/eaou/4JSamfmrh).

It is necessary to determine the approximate coordinates of the center of the pupil. The word "approximate" means that the calculated pupil center must lie inside a circle centered at the pupil's true center and half the true radius. The algorithm must be very fast.

Data: About 200 thousand eye images. For each, the position of the true circle is marked - for the purpose of training and testing the method being created.
Basic algorithm: To speed up work with the image, it is proposed to aggregate data using brightness projections. Image brightness is a function of two discrete arguments I(x, y). Its projection onto the horizontal axis is P(x)=\sum \limits_y I(x,y). Similarly, projections are constructed on axes with an inclination. Having built several projections (two, four), based on them, you can try to determine the position of the pupil (compact dark area) using heuristics and / or a neural network. It is interesting to evaluate the capabilities of the neural network in this task.
References:: Zhi-Hua Zhou, Xin Geng Projection functions for eye detection // Pattern Recognition. 2004. V.37ю N.5. P.1049-1056. https://doi.org/10.1016/j.patcog.2003.09.006
Authors: Matveev I.A.

Task 55

Name: Search for the boundaries of the iris by the method of circular projections
Task: Given a monochrome bitmap of the eye, see examples (https://cloud.mail.ru/public/2DBu/5c6F6e3LC). The approximate position of the center of the pupil is also known. The word "approximate" means that the calculated center of the pupil is no more than half of its true radius from the true one. It is necessary to determine the approximate positions of the circles approximating the pupil and iris. The algorithm must be very fast.
Data: About 200 thousand eye images. For each, the position of the true circle is marked - for the purpose of training and testing the method being created.
Basic algorithm: To speed up work with the image, it is proposed to aggregate data using circular projections of brightness. Circular projection is a function that depends on the radius, the value of which P(r) is equal to the integral of the directed image brightness gradient over a circle of radius r (or along an arc of a circle). Example for one arc (right quadrant) and for four arcs. Having built some circular projections, based on them, you can try to determine the position of the inner and outer borders of the iris (ring) using heuristics and / or a neural network. It is interesting to evaluate the capabilities of the neural network in this task.
References:: Matveev I.A. Detection of Iris in Image By Interrelated Maxima of Brightness Gradient Projections // Applied and Computational Mathematics. 2010. V.9. N.2. P.252-257. https://www.researchgate.net/publication/228396639_Detection_of_iris_in_image_by_interrelated_maxima_of_brightness_gradient_projections
Authors: Matveev I.A.

Task 56

Name: Construction of local and universal interpretable scoring models
Task: Build a simple and interpretable scoring system as a superposition of local models, taking into account the requirements for the system to retain knowledge about key customers and features (in other words, take into account new economic phenomena). The model must be a superposition, and each element must be controlled by its own quality criterion. Introduce a schedule for optimizing the structure and parameters of the model: the system must work in a single optimization chain. Propose an algorithm for selecting features and objects.
Data:

Data from OTP Bank. The sample contains records of 15,223 clients classified into two classes: 1 - there was a response (1812 clients), 0 - there was no response (13411 clients). Feature descriptions of clients consist of 50 features, which include, in particular, age, gender, social status in relation to work, social status in relation to pension, number of children, number of dependents, education, marital status, branch of work. The data are available at the following addresses: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar (sample A), www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar (sample B).
Data from Home Credit: https://www.kaggle.com/c/home-credit-default-risk/data

References::

Strijov V.V. Error function in regression analysis // Factory Laboratory, 2013, 79(5) : 65-73
Bishop C. M. Linear models for classification / В кн.: Pattern Recognition and Machine Learning. Под ред.: M. Jordan, J. Kleinberg, B. Scholkopf. – New York: Springer Science+Business Media, 2006, pp--203 – 208
Tokmakova A.A. Obtaining Stable Hyperparameter Estimates for Linear Regression Models // Machine Learning and Data Analysis. — 2011. — № 2. — С. 140-155
S. Scitovski and N. Sarlija. Cluster analysis in retail segmentation for credit scoring // CRORR 5. 2014. 235–245
Goncharov A.V. Building Interpretable Deep Learning Models in the Social Ranking Problem

Basic algorithm: Iterative weighted least squares (described in (2))
Solution: It is proposed to build a scoring system containing such a preprocessing block as a block for generating metric features. It is proposed to investigate the influence of the non-equivalence of objects on the selection of features for the model, to investigate the joint selection of features and objects when building a model. It is required to implement a schedule for optimizing the model structure using an algorithm based on the analysis of covariance matrices of model hyperparameters. The schedule includes a phased replenishment of the set of features and objects. The feature sample size will be determined by controlling the error variance. The main criterion for the quality of the system: ROC AUC (Gini).
Novelty:

The model structure optimization schedule must satisfy the requirement to rebuild the model at any time without losing its characteristics.
Accounting for the unequal value of objects in the selection of features

Authors: Pugaeva I.V. (consultant), Strizhov V.V. (Expert)

Task 59

Name: Distributed optimization under Polyak-Loyasievich conditions
Task: The task is to efficiently solve large systems of nonlinear equations using a network of calculators.
Solution: A new method for decentralized distributed solution of systems of nonlinear equations under Polyak-Loyasievich's conditions is proposed. The approach is based on the fact that the distributed optimization problem can be represented as a composite optimization problem (see 2 from the literature), which in turn can be solved by analogs of the similar triangles or sliding method (see 2 from the literature).
Basic algorithm: The proposed method is compared with gradient descent and accelerated gradient descent
References:

Linear Convergence of Gradient and Proximal-GradientMethods Under the Polyak- Lojasiewicz Condition https://arxiv.org/pdf/1608.04636.pdf
Linear Convergence for Distributed Optimization Under the Polyak-Łojasiewicz Condition https://arxiv.org/pdf/1912.12110.pdf
Optimal Decentralized Distributed Algorithms for Stochastic ConvexOptimization https://arxiv.org/pdf/1911.07363.pdf
Modern numerical optimization methods, universal gradient descent method https://arxiv.org/ftp/arxiv/papers/1711/1711.00394.pdf

Novelty: Reduction of a distributed optimization problem to a composite optimization problem and its solution under Polyak-Loyasievich conditions
Authors: Expert — А.В. Гасников, consultant — А.Н. Безносиков
Comment: it is important to set up a computational experiment in this task, otherwise the task will be poorly compatible with the course.

Task 17

Name: Intention forecasting. Investigation of the properties of local models in the spatial decoding of brain signals
Task: When building brain-computer interface systems, simple, stable models are used. An important stage in the construction of such a model is the construction of an adequate feature space. Previously, such a Task was solved by extracting features from the frequency characteristics of signals.
Data: ECoG/EEG brain signal data sets.
References::
1. Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.
2. Eliseyev A., Aksenova T. Stable and artifact-resistant decoding of 3D hand trajectories from ECoG signals using the generalized additive model //Journal of neural engineering. – 2014.
Basic algorithm: The comparison is proposed to be made with the partial least squares algorithm.
Solution: In this paper, it is proposed to take into account the spatial dependence between sensors that read data. To do this, it is necessary to locally model the spatial impulse/signal and build a predictive model based on the local description.
Novelty: An essentially new way of constructing a feature description in the problem of signal decoding is proposed. Bonus: analysis of changes in the structure of the model, adaptation of the structure when the sample changes.
Authors: Strizhov V.V., Roman Isachenko - Experts, consultants – Valery Markin, Alina Samokhina

Task 9

Name: Text recognition based on skeletal representation of thick lines and convolutional networks
Task: It is required to build two CNNs, one recognizes a raster representation of an image, the other a vector one.
Data: Fonts in raster representation.
References::List of works [27], in particular arXiv:1611.03199 and
- Goyal P., Ferrara E. Graph embedding techniques, applications, and performance: A survey. arXiv:1705.02801, 2017.
- Cai H., Zheng V.W., Chang K.C.-C. A comprehensive survey of graph embedding: Problems, techniques and applications. arXiv:1709.07604, 2017.
- Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks. arXiv:1607.00653, 2016.
- Mestetskiy L., Semenov A. Binary Image Skeleton - Continuous Approach // Proceedings 3rd International Conference on Computer Vision Theory and Applications, VISAPP 2008. P. 251-258. URL
- Kushnir O.A., Seredin O.S., Stepanov A.V. Experimental study of regularization parameters and approximation of skeletal graphs of binary images // Machine Learning and Data Analysis. 2014. Т. 1. № 7. С. 817-827. URL
- Zhukova K.V., Reyer I.A. Basic Skeleton Connectivity and Parametric Shape Descriptor // Machine Learning and Data Analysis.2014. Т. 1. № 10. С. 1354-1368. URL
- Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains // Communications in Computer and Information Science. 2015. V. 542. P. 123-136. URL
Basic algorithm: Convolution network for bitmap.
Solution: It is required to propose a method for collapsing graph structures, which allows generating an informative description of the thick line skeleton.
Novelty: A method is proposed for improving the quality of recognition of thick lines due to a new method for generating their descriptions.
Authors: Experts Reyer I.A., Strizhov V.V., Mark Potanin, consultant Denis Ozherelkov

Task 60

Name: Вариационная оптимизация моделей глубокого обучения с контролем сложности модели
Task: рассматривается Task оптимизации модели глубокого обучения с заранее заданной сложностью модели. Требуется предложить метод оптимизации модели, позволяющий производить порождение новых моделей с заданной сложностью and небольшими вычислительными затратами.
Data:MNIST, CIFAR
References:
- [1] вариационный вывод для нейронных сетей https://papers.nips.cc/paper/4329-practical-variational-inference-for-neural-networks.pdf
- [2] гиперсети https://arxiv.org/abs/1609.09106
- [3] фабрики сетей https://papers.nips.cc/paper/6304-convolutional-neural-fabrics.pdf
Basic algorithm: случайный поиск
Solution: Предлагаемый метод заключается в представлении модели глубокого обучения в виде гиперсети (сети, которая генерирует параметры другой сети) с использованием байесовского подхода. Вводятся вероятностные предположения о параметрах моделей глубокого обучения, максимизируется вариационная нижняя оценка байесовской обоснованности модели. Вариационная оценка рассматривается как условная величина, зависящая от внешнего параметра сложности.
Novelty: предложенный метод позволяет порождать модели в режиме one-shot (практически без переподготовки) с требуемой сложностью модели, что значительно снижает затраты на оптимизацию and дообучение.
Authors: Oleg Bakhteev, Strizhov V.V.

Task 61

Name: Выбор модели глубокого обучения на основе триплетной связи модели and выборки
Task: рассматривается Task one-shot выбора модели глубокого обучения: выбор модели под конкретную выборку, выданную из некоторой генеральной совокупнсоти, не должен быть вычислительно затратным.
Data:MNIST, синтетические данные
References:
- [1] обучение предсказаний модели на парах <выборка, модель> https://www.ri.cmu.edu/pub_files/2016/10/yuxiongw_eccv16_learntolearn.pdf
- [2] байесовский выбор для двух доменов https://arxiv.org/abs/1806.08672
Basic algorithm: случайный поиск
Solution: Предлагается рассматривать пространство параметров and моделей как два домена со своими генеративными моделями. Для получения связзи между доменами используется обобщение вариационного вывода на случай триплетных ограничений.
Novelty: Новый метод one-shot обучения моделей
Authors: Oleg Bakhteev, Strizhov V.V.

Task 64

Name: Теоретическая обоснованность применения метрических методов классификации с использованием динамического выравнивания (DTW) к пространственно-временным объектам.
Task: Необходимо изучить существующие теоретические обоснования применения методов динамического выравнивания для различных объектов, and исследовать использование таких методов к пространственно-временным рядам.
При доказательстве применимости методов выравнивания доказывают, что функция, порождаемая алгоритмом динамического выравнивания является ядром. Что, в свою очередь, обосновывает применение метрических методов классификации.
References:
Solution: Для различных формулировок метода DTW (когда внутренняя функция расстояния между отсчетами временных рядов - различна) - найти and собрать в одном месте доказательства того, что функция является ядром.
Для базового набора датасетов со временными рядами (на которых проверяется точность функций расстояния) проверить выполнение условий из теоремы Мерсера (положительная определенность матрицы). Проделать это для различных модификаций функции расстояния DTW. (Sakoe-Chiba band, Itakura band, weighted DTW.)
Novelty: Исследование теоретических обоснований применения алгоритма динамического выравнивания (DTW) and его модификаций к пространственно-временным рядам.
Authors: Strizhov V.V. - Expert, Gleb Morgachev, Alexey Goncharov - consultants.

Task 66

Name: Agnostic neural networks
Task: Ввести метрическое пространство в задачу автоматического построения (выбора) агностических сетей.
Data: Данные из области Reinforcement learning. Желательно типа машинок на трассе.
References::
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [28]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [29]
- https://habr.com/ru/post/465369/
- https://weightagnostic.github.io/
Basic algorithm: Сети из статьи в архиве. Символьная регрессия из статьи в ESwA (надо восстановить код).
Solution: Создаем генератор моделей в рамках символьной регрессии. Создаем генератор моделей как вариационный автоэнкодер (не успеем в течение курса). Изучаем метрические свойства пространств выборки (евклидово) and моделей (банахово). Создаем пару GAN - генератор-дискриминатор для прогнозирования структур прогностических моделей.
Novelty: Пока ни у кого не получалось. Тут обсуждали Томми Яакколу, как он к нам в Яндекc приезжал. У него тоже пока не получилось.
Authors: Expert Strizhov V.V., Radoslav Neichev - consultant

Task 13

Name: Deep learning for RNA secondary structure prediction
Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Data: RNA sequences in form of strings of characters
References:: https://arxiv.org/abs/1609.08144
Basic algorithm: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Solution: Deep learning recurrent encoder-decoder model with attention
Novelty: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Authors: consultant Мария Попова, Александр Исаев (ждем от них отклика, без отклика Task снимается)

Task 65

Name: Аппроксимация выборок малой размерности разнородными моделями
Task: Исследуется проблема передачи знаний (дистилляция Хинтона, привилегированное обучение Вапника) от одной сети другой.
Data: Выбоки UCI, посмотреть, какие выборки используются в работах по этой теме
References::
- Дипом Нейчева Информативные априорные предположения в задаче привилегированного обучения, презентация
- Работы Hinton Knowledge distilling, обращать внимание на функции ошибки
Basic algorithm: описан в работе Нейчева
Novelty: Исследование различных способов построения выборки
Solution: попробовать различные модели, которые есть в лекциях, от непараметрических, до глубоких, сравнить and визуализировать функции правдоподобия
Authors: consultants Mark Potanin, (попросить помощи у Андрея Грабового) Strizhov V.V.

Task 67

Name: Отбор тем в тематических моделях для разведочного информационного поиска.
Task: Проверить гипотезу, что при поиске схожих документов по их тематическим векторам не все темы информативны, поэтому отбрасывание некоторых тем может повышать точность and полноту поиска. Рассмотреть альтернативную гипотезу, что вместо отбрасывания тем можно сравнивать векторы по взвешенной косинусной мере близости с настраиваемыми весами.
Data: Текстовые коллекции сайтов habr.com and techcrunch.com. Размеченные выборки: запросы and релевантные им документы.
References::
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
2. Ianina A., Vorontsov K. Regularized Multimodal Hierarchical Topic Model for Document-by-Document Exploratory Search // FRUCT ISMW, 2019.
Basic algorithm: тематическая модель с регуляризаторами and модальностями, описанная в статье (имеется исходный код).
Novelty: Вопрос об информативности тем для векторного поиска тематически близких документов ранее не исследовался.
Solution: Оценить индивидуальную информативность тем, выкидывая их по одной; затем отсортировать темы по индивидуальной информативности and определить порог отсечения неинформативных тем. Наводящее соображение, почему это должно работать: фоновые темы не являются информативными, and их отбрасывание увеличивает точность and полноту поиска на несколько процентов.
Authors: К.В.Воронцов, consultant Анастасия Янина.

Task 68

Name: Метаобучение тематических моделей классификации.
Task: Выработать универсальные эвристики для априорного задания весов модальностей в тематических моделях классификации текстов.
Data: Описание датасетов, Папка с датасетами.
References::
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
Basic algorithm: Тематические модели классификации для нескольких датасетов.
Novelty: В тематическом моделировании до сих пор не решена проблема автоматического подбора весов модальностей.
Solution: Оптимизировать веса модальностей по критерию качества классификации текстов. Исследовать зависимость оптимальных относительных весов модальностей от размерных характеристик задачи. Найти формулы для оценивания начальных значений весов модальностей без явного решения задачи. Для размножения датасетов применить семплирование фрагментов исходных документов.
Authors: К.В.Воронцов, consultant Юлиан Сердюк.

Task 70

Name: Исследование структуры целевого пространства при построении предсказательной модели
Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). При этом предполагается, что исходные данные гетерогенны: пространства независимой and целевой переменных имеют разную природу. Требуется построить предсказательную модель, которая бы учитывала зависимость в исходном пространстве независимой переменной, а также в пространстве целевой переменной.
Data: Гетерогенные Data: картинка - текст, картинка - речь and тд
Basic algorithm: В качестве базовых алгоритмов предлагается использовать линейную модель, а также нелинейную нейросетевую модель.
Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.

Task 71

Name: Исследование способов согласования моделей с помощью снижения размерности пространства
Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается изучить способы учета зависимостей в пространстве целевой переменной, а также условия, при которых данные зависимости влияют на качестве финальной предсказательной модели
Data: Синтетические данные с известной гипотезой порождения данных
Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.

Task 72

Name: Построение единого скрытого пространства в задаче моделирования гетерогенных данных
Task: Исследуется Task прогнозирования сложной целевой переменной. Под сложностью подразумевается наличие зависимостей (линейных или нелинейных). Предлагается построить единое скрытое пространство для независимой and целевой переменных. Согласование моделей предлагается производить в полученном низкоразмерном пространстве.
Data: Гетерогенные Data: картинка - текст, картинка - речь, текст - текст and тд
Basic algorithm: В качестве базовых алгоритмов предлагается использовать методы снижения размерности пространства (PCA, PLS, автоэнкодер) and линейные модели согласования.
Authors: Strizhov V.V. - Expert, consultant: Исаченко Роман.

Task 73

Name: Нелинейное ранжирование результатов разведочного информационного поиска.
Task: Разработать алгоритм для рекомендации порядка чтения документов (reading order, reading list), найденных с помощью разведочного информационного поиска. Документы должны ранжироваться от простого к сложному, от общего к частному, то есть в том порядке, в котором пользователю будет легче разбираться в новой для него тематической области. Алгоритм должен строить граф чтения — отношение частичного порядка на множестве найденных документов; в частности, это может быть совокупность деревьев (лес документов).
Data: Часть Википедии and эталонный граф чтения, получаемый из категорий Википедии.
References::
1. Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей and аддитивная регуляризация.
2. Georgia Koutrika, Lei Liu, and Steven Simske. Generating reading orders over document collections. HP Laboratories, 2014.
3. James G. Jardine. Automatically generating reading lists. Cambridge, 2014.
Basic algorithm: описан в статье G.Koutrika.
Novelty: Task мало исследовалась в литературе. Регуляризованные мультимодальные тематические модели (ARTM, BigARTM) никогда не применялись к данной задаче.
Solution: Использование тематических моделей ARTM совместно с оценками когнитивной сложности текста.
Authors: К.В.Воронцов, consultant Maxim Eremeev.

2019

Story 2019 (694) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Author	Topic	Links	Consultant	Reviewer
Северилов Павел	Task поиска символов в текстах	LinkReview code paper slides video	Мурат Апишев
Григорьев Алексей	Распознавание текста на основе скелетного представления толстых линий and сверточных сетей	LinkReview code, paper, slides video	Илья Жариков	рецензия Вареник Наталия
Гришанов Алексей	Автоматическая настройка параметров BigARTM под широкий класс задач	LinkReview code, paper slides video	Виктор Булатов	рецензия Герасименко Николай
Юсупов Игорь	Динамическое выравнивание многомерных временных рядов	LinkReview code paper slides video	Alexey Goncharov
Вареник Наталия	Spherical CNN for QSAR prediction	LinkReview, code, paper, slides video	Мария Попова	рецензия Григорьев Алексей
Безносиков Александр	Z-learning of linearly-solvable Markov Decision Processes	LinkReview paper code slides video	Yury Maximov
Панченко Святослав	Получение простой выборки на выходе слоя нейронной сети	LinkReview, code, paper, slides	Гадаев Тамаз
Веселова Евгения	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code link review paper slides video	Guillaume Pages, Sergei Grudinin
Аминов Тимур	Предсказание качества для процедуры выбора признаков	LinkReview code paper slides	Roman Isachenko
Маркин Валерий	Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	LinkReview code paper slides video	Roman Isachenko
Абдурахмон Садиев	Порождение признаков с помощью локально-аппроксимирующих моделей	LinkReview code, paper, slides video	Анастасия Мотренко
Тагир Саттаров	Обучение машинного перевода без параллельных текстов.	LinkReview code paper, slides video	Oleg Bakhteev
Герасименко Николай	Тематический поиск схожих дел в коллекции актов арбитражных судов.	LinkReview code paper slides video	Екатерина Артёмова	рецензия Гришанов Алексей

Task 40

Name: Предсказание качества для процедуры выбора признаков.
Task: Решение задачи выбора признаков сводится к перебору вершин бинарного куба. Данную процедуру невозможно произвести для выборки с большим числом признаком. Предлагается свести данную задачу к оптимизации в линейном пространстве.
Data: Синтетические данные + простые выборки
References::
1. Bertsimas D. et al. Best subset selection via a modern optimization lens //The annals of statistics. – 2016. – Т. 44. – №. 2. – С. 813-852.
2. Luo R. et al. Neural architecture optimization //Advances in Neural Information Processing Systems. – 2018. – С. 7827-7838.
Basic algorithm: популярные методы выбора признаков.
Solution: В данном работе предлагается построить модель, которая по набору признаков прогнозирует качество на тестовой выборке. Для этого строится отображение бинарного куба в линейное пространство. После этого максимизируется качество модели в линейном пространстве. Для реконструкции решения задачи используется модель обратного отображенияв бинарный куб.
Novelty: Предлагается конструктивно новый подход к решению задачи выбора моделей.
Authors: Strizhov V.V., Tetiana Aksenova, consultant – Roman Isachenko

Task 42

Name: Z-learning of linearly-solvable Markov Decision Processes
Task: Adapt Z-learning from [1] to the case of Markov Decision Process discussed in [2] in the context of energy systems. Compare it with standard (in reinforcement learning) Q-learning.
Data: We consider a Markov Process described via transition probability matrix. Given initial state vector (probability of being in a state at time zero), we generate data for the time evolution of the state vector. See [2] for an exemplary process describing evolution of an ensemble of energy consumers.
References::
1. E. Todorov. Linearly-solvable Markov decision problems https://homes.cs.washington.edu/~todorov/papers/TodorovNIPS06.pdf
2. Ensemble Control of Cycling Energy Loads: Markov Decision Approach. Michael Chertkov, Vladimir Y. Chernyak, Deepjyoti Deka. https://arxiv.org/abs/1701.04941
3. Csaba Szepesvári. Algorithms for Reinforcement Learning. https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
Basic algorithm: Principal comparison should be made with Q learning described in [3]
Solution: We suppose that plugging in algorithm from [1] directly into [2] gives faster and more reliable solution.
Novelty: In the area of power systems there is a huge demand on fast reinforcement learning algorithms, but there is still a lack of that (in particular the ones respect the physics/underlying graph)
Authors: Yury Maximov (consultant, expert), Michael Chertkov (expert)

Task 1

Name: Прогнозирование направления движения цены биржевых инструментов по новостному потоку.
Task: Построить and исследовать модель прогнозирования направления движения цены. Задано множество новостей S and множество временных меток T, соответствующих времени публикации новостей из S. 2. Временной ряд P, соответствующий значению цены биржевого инструмента, and временной ряд V, соответствующий объему продаж по данному инструменту, за период времени T'. 3. Множество T является подмножеством периода времени T'. 4. Временные отрезки w=[w0, w1], l=[l0, l1], d=[d0, d1], где w0 < w1=l0 < l1=d0 < d1. Требуется спрогнозировать направление движения цены биржевого инструмента в момент времени t=d0 по новостям, вышедшим в период w.
Data:
1. Финансовые Data: данные о котировках (с интервалом в один тик) нескольких финансовых инструментов (GAZP, SBER, VTBR, LKOH) за 2 квартал 2017 года с сайта Finam.ru; для каждой точки ряда известны дата, время, цена and объем.
2. Текстовые Data: экономические новости за 2 квартал 2017 года от компании Форексис; каждая новость является отдельным html файлом.
References:
1. Usmanova K.R., Kudiyarov S.P., Martyshkin R.V., Zamkovoy A.A., Strijov V.V. Analysis of relationships between indicators in forecasting cargo transportation // Systems and Means of Informatics, 2018, 28(3).
2. Kuznetsov M.P., Motrenko A.P., Kuznetsova M.V., Strijov V.V. Methods for intrinsic plagiarism detection and author diarization // Working Notes of CLEF, 2016, 1609 : 912-919.
3. Айсина Роза Мунеровна, Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным, выпускная квалификационная работа.
4. Lee, Heeyoung, et al. "On the Importance of Text Analysis for Stock Price Prediction." LREC. 2014.
Basic algorithm: Метод, использованный в статье (4).
Solution: Использование тематического моделирования (ARTM) and локальных аппроксимирующих моделей для перевода последовательности текстов, соответствующих различным временным меткам, в единое признаковое описание. Критерий качества: F1-score, ROC AUC, прибыльность используемой стратегии.
Novelty: Для обоснования связи временных рядов предлагается метод Сходящегося перекрестного отображения.
Authors: Иван Запутляев (consultant), Strizhov V.V., К.В. Воронцов (Experts)

Task 3

Name: Динамическое выравнивание многомерных временных рядов.
Task: Характерным многомерным временным рядом является траектория точки в 3х-мерном пространстве. Две траектории необходимо выравнивать оптимальным образом друг относительно друга. Для этого используется расстояние DTW между двумя временными рядами. В классическом представлении DTW строится между одномерными временными рядами. Необходимо ввести различные модификации алгоритма для работы со временными рядами высокой размерности: траекториями, кортикограммами.
Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
References:
1. Multidimensional DTW: https://pdfs.semanticscholar.org/76d3/5bd5a52453ebde80faaa1467d7effd74426f.pdf
Basic algorithm: Использование L_p расстояний между двумя измерениями временного ряда, их модификаций.
Solution: Исследование расстояний, устойчивых к изменению порядка координат, исследований расстояний неустойчивых к изменению порядка координат. Эксперименты с другими видами расстояний (косинусное, RBF, прочие).
Novelty: Нет полного обзора and исследования методов работы с многомерными временными рядами. Не исследована зависимость качества решения от подобранных расстояний между измерениями.
Authors: Alexey Goncharov - consultant, Expert, Strizhov V.V. - Expert

Task 43

Name: Получение простой выборки на выходе слоя нейронной сети
Task: Выход нейронной сети это, как правило, обобщённо линейная модель над выходами предпоследнего слоя. Нужно предложить способ тестирования простоты выборки and её соответствия обобщённо-линейной модели (линейная регрессия, логистическая регрессия) при помощи системы статистических критериев.
Data: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
References:: http://www.ccas.ru/avtorefe/0016d.pdf c 49-63 Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
Basic algorithm: Тест Уайта, Критерий Вальда, Тест Голдфелда-Кванта, Дарбина-Ватсона, Хи-квадрат, Жарка-Бера, Шапиро-Уилка
Solution: Система тестов проверки простоты выборки (и адекватности модели), независимые переменные неслучайны, зависимые переменные распределены нормально или биномиально, нет пропусков and выбросов, классы сбалансированы, выборка аппроксимируется единой моделью. Дисперсия функции ошибки не зависит от независимой переменной. Исследование проводится по синтетическим and реальным данным.
Authors: Гадаев Т. Т. (consultant) Strizhov V.V., Grabovoi A.V. (Experts)

Task 14

Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Data: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
References:: Our previous 3D CNN: [30] Invariance of CNNs (and references therein): [31], [32]
Basic algorithm: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [33]
Solution: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [34], [35] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
Novelty: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Authors: Expert Sergei Grudinin, consultants Guillaume Pages

Task 46

Name: Task поиска символов в текстах
Task: В простейшем случае эта Task сводится к задаче Sequence Labeling на размеченной выборке. Сложность заключается в получении достаточного объёма обучающих данных, то есть требуется по имеющейся небольшой Expertной разметке получить выборку большего размера (автоматически путём поиска закономерностей или же путём составления несложной and качественной инструкции для разметки, например, в Толоке). Наличие разметки позволяет начать эксперименты с подбором оптимальной модели, здесь могут быть интересны разнообразные нейросетевые архитектуры (BiLSTM, Transformer and т.п.).
Data: Словарь символов , Размеченные художественные тексты 
References: http://www.machinelearning.ru/wiki/images/0/05/Mmta18-rnn.pdf
Basic algorithm: HMM, RNN
Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества классификатора для символов (символ/не символ). Определить применимость методов.
Novelty: Предлагаемый подход к анализу текста используется Expertами в ручном режиме and не был автоматизирован
Authors: М. Апишев (consultant), Д. Лемтюжникова

Task 47

Name: Deep learning for RNA secondary structure prediction
Task: RNA secondary structure is an important feature which defines RNA functional properties. Its importance can be illustrated by the fact, that it is evolutionary preserved and some types of functional RNAs always * have the same secondary structure, for example all tRNAs fold into cloverleaf. As secondary structure often defines functions, knowing RNAs secondary structure may help investigate functions of novel RNA molecules. RNA folding is not as easy as DNA folding, because RNA is single stranded molecule which forms complicated base-pairing interactions, while DNA mostly exists as fully base paired double helices. Current methods of RNA structure prediction rely on experimentally evaluated thermodynamic rules, but with thermodynamics alone only 80% of structures can be accurately predicted. We propose an AI-driven method for predicting RNA secondary structure inspired by neural machine translation model.
Data: RNA sequences in form of strings of characters
References:: https://arxiv.org/abs/1609.08144
Basic algorithm: https://www.ncbi.nlm.nih.gov/pubmed/16873527
Solution: Deep learning recurrent encoder-decoder model with attention
Novelty: Currently RNA secondary structure prediction still remains unsolved problem and to the best of our knowledge DL approach has never been introduced in the literature before
Authors: consultant Мария Попова Chapel-Hill

Task 4

Name: Автоматическая настройка параметров АРТМ под широкий класс задач.
Task: Открытая библиотека bigARTM позволяет строить тематические модели, используя широкий класс возможных регуляризаторов. Однако такая гибкость приводит к тому, что Task настройки коэффициентов оказывается очень сложной. Эту настройку можно значительно упростить, используя механизм относительных коэффициентов регуляризации and автоматический выбор N-грамм. Нужно проверить гипотезу о том, что существует универсальный набор относительных коэффициентов регуляризации, дающий "достаточно хорошие" результаты на широком классе задач. Дано несколько датасетов с каким-то внешним критерием качества (например, классификация документов по категориям или ранжирование). Находим лучшие параметры для конкретного датасета, дающие "локально лучшую модель". Находим алгоритм инициализации bigARTM, производящий тематические модели с качеством, сравнимым с "локально лучшей моделью" на её датасете. Критерий сравнимости по качеству: на данном датасете качество "универсальной модели" не более чем на 5% хуже, чем у "локально лучшей модели".
Data: Victorian Era Authorship Attribution Data Set, 20 Newsgroups, МКБ-10, триплеты для поиска/ранжирования.
References:
1. ВКР Никиты Дойкова: http://www.machinelearning.ru/wiki/images/9/9f/2015_417_DoykovNV.pdf
2. Презентация Виктора Булатова на научном семинаре: https://drive.google.com/file/d/19pJ21LRPeeOxY4mkcSnQCRm93zOO4J5b/view
3. Черновик с формулами: https://drive.google.com/open?id=1AqS7snUsSJ18ZYBtC-6uP_2dMTDJSGeD
Basic algorithm: PLSA / LDA / логрегрессия.
Solution: bigARTM с фоновыми темами and регуляризаторами сглаживания, разреживания and декорреляции (коэффициенты подобраны автоматически), а также с автоматически выделенными N-граммами.
Novelty: Потребность в автоматизированной настройке параметров модели and отсутствие подобных реализаций в научном сообществе.
Authors: consultant Виктор Булатов, Expert К.В.Воронцов.

Task 50

Name: Тематический поиск схожих дел в коллекции актов арбитражных судов.
Task: Построить алгоритм информационного поиска по коллекции актов арбитражных судов. Запросом может быть произвольный документ коллекции (текст акта). Результатом поиска должен быть список документов коллекции, ранжированный по убыванию релевантности.
Data: коллекция текстовых документов — актов арбитражных судов http://kad.arbitr.ru.
References:
1. Анастасия Янина. Тематический разведочный информационный поиск. 2018. ФИВТ МФТИ.
2. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news. AINL-2017. CCIS, Springer, 2018.
3. Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare Voss, Jiawei Han. Scalable Topical Phrase Mining from Text Corpora. 2015.
Basic algorithm: BigARTM с регуляризаторами декоррелирования, сглаживания, разреживания. Поиск по TF-IDF слов, по TF-IDF ссылок НПА, по тематическим векторным представлениям документов, с использованием косинусной меры близости. Алгоритм TopMine для выделения коллокаций.
Solution: Добавить модальность ссылок на нормативно-правовые акты. Добавить модальность юридических терминов. Подобрать оптимальное число тем and стратегию регуляризации. Организовать процесс разметки пар документов. Реализовать оценивание качества поиска по размеченной выборке пар документов.
Novelty: Первая попытка применения АРТМ для тематического поиска по юридическим текстам.
Authors: consultant Екатерина Артёмова, Expert К.В.Воронцов.

Group 2

Story 2019 (674) — 2018 — 2017 — 2016 — 2015 — 2014 — 2013

Author	Topic	Links	Consultant	Reviewer
Вишнякова Нина	Optimal Approximation of Non-linear Power Flow Problem	LinkReview paper code presentation video	Yury Maximov	рецензент Логинов Роман review
Кудрявцева Полина	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	code LinkReview paper video presentation	Roman Isachenko	Нечепуренко Иван review
Логинов Роман	Мультимоделирование как универсальный способ описания выборки общего вида	code LinkReview paper ChatInvite presentation video	Адуенко А. А.	Макаров Михаил review
Михаил Макаров	Определение местоположения по сигналам акселерометра	code LinkReview paper презентация video	Анастасия Мотренко	Черепков Антон: review
Козинов Алексей	Task поиска символов в изображениях	LinkReview paper code	М. Апишев, Д. Лемтюжникова	Грачёва Анастасия (рецензия)
Бучнев Валентин	Раннее прогнозирование достаточного объема выборки для обобщенной линейной модели.	LinkReview paper code presentation video	Grabovoi A.V.	рецензент
Нечепуренко Иван	Мультимоделирование, привилегированное обучение	code, paper, LinkReview презентация	Р. Г. Нейчев	Кудрявцева Полина
Грачева Анастасия	Оценка энергии связывания белка and маленьких молекул	code paper LinkReview presentation video	Sergei Grudinin, Maria Kadukova	рецензент
Черепков Антон	Привилегированное обучение в задаче аппроксимации границ радужки глаза	paper, slides, code, LinkReview video	Р. Г. Нейчев	Лепехин Михаил preliminary review
Лепехин Михаил	Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей	code LinkReview paper presentation video	Андрей Кулунчаков	Вишнякова Нина, рецензия
Гридасов Илья	Автоматическое построение нейросети оптимальной сложности	LinkReview paper Presentation code	О. Ю. Бахтеев, В. В. Стрижов	Бучнев Валентин
Теленков Дмитрий	Декодирование сигналов мозга and прогнозирование намерений	LinkReview git The paper Presentation code	Андрей Задаянчук	рецензент

Task 18

Name: Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.
Task: Нейрокомпьютерный интерфейс (BCI) позволяет помочь людям с ограниченными возможностями вернуть их мобильность. По имеющемуся описанию сигнала прибора необходимо смоделировать поведение субъекта.
Data: Наборы данных сигналов мозга ECoG/EEG.
References::

- Motrenko A.P., Strijov V.V. Multi-way feature selection for ECoG-based brain-computer Interface // Expert systems with applications. - 2018.

Basic algorithm: Сравнение предлагается производить с алгоритмом частных наименьших квадратов (partial least squares).
Solution: В данной работе предлагается построить единую систему, решающую задачу декодирования сигналов. В качестве этапов построения такой системы предлагается решить задачи предобработки данных, выделения признакового пространства, снижения размерности and выбора модели оптимальной сложности. Предлагается использовать тензорный вариант PLS с отбором признаков.
Novelty: В постановке задачи учитывается комплексная природа сигнала: непрерывная траектория движения, наличие дискретных структурных переменных (пальцы или движение суставов), наличие непрерывных переменных (позиция пальца или конечности).
Authors: Strizhov V.V., Tetiana Aksenova, consultant – Roman Isachenko

Task 41

Name: Optimal Approximation of Non-linear Power Flow Problem
Task: Our goal is to approximate the solution of non-linear non-convex optimal power flow problem by solving a sequence of convex optimization problems (aka trust region approach). On this way we propose to compare various approaches for approximate solution of this problem with adaptive approximation of the power flow non-linearities with a sequence of quadratic and/or piece-wise linear functions
Data: Matpower module from MATLAB contains all necessary test cases. Start considering with IEEE 57 bus case.
References::
1. Molzahn, D. K., & Hiskens, I. A. (2019). A survey of relaxations and approximations of the power flow equations. Foundations and Trends in Electric Energy Systems, 4(1-2), 1-221. https://www.nowpublishers.com/article/DownloadSummary/EES-012
2. The QC Relaxation: A Theoretical and Computational Study on Optimal Power Flow. Carleton Coffrin ; Hassan L. Hijazi ; Pascal Van Hentenryck https://ieeexplore.ieee.org/abstract/document/7271127/
3. Convex Relaxations in Power System Optimization: A Brief Introduction. Carleton Coffrin and Line Roald. https://arxiv.org/pdf/1807.07227.pdf
4. Optimal Adaptive Linearizations of the AC Power Flow Equations. Sidhant Misra, Daniel K. Molzahn, and Krishnamurthy Dvijotham https://molzahn.github.io/pubs/misra_molzahn_dvijotham-adaptive_linearizations2018.pdf
Basic algorithm: A set of algorithms described in [1] should be considered to compare with, details behind the proposed method would be shared by the consultant (a draft of the paper)
Solution: to figure out the quality of the solution we propose to compare it with the ones given by IPOPT and numerous relaxations, and do some reverse engineering regarding to our method
Novelty: The OPF is a truly hot topic in power systems, and is of higher interest by the discrete optimization community (as a general QCQP problem). Any advance in this area is of higher interest by the community
Authors: Yury Maximov (consultant and expert), Michael Chertkov (expert)
Замечания: the problem has both the computational and the theoretical focuses, so 2 students are ok to work on this topic

Task 2

Name: Исследование опорных объектов в задаче метрической классификации временных рядов.
Task: Функция DTW - это расстояние между двумя временными рядами, которые могут быть нелинейно деформированы друг относительно друга. Она ищет наилучшее выравнивание между двумя объектами, поэтому ее можно использовать в задаче метрической классификации объектов. Один из методов решения задачи метрической классификации - измерение расстояний до опорных объектов and использование вектора этих расстояний в качестве признакового описания объекта. Метод DBA - это алгоритм построения центроидов (опорных объектов) для временных рядов на основе расстояния DTW. При построении расстояния между временным рядом and центроидом различные пары значений (например пиковые значения) более характерны для одного из классов, and влияние таких совпадений на значение расстояния должна быть выше.

Необходимо исследовать различные способы построения опорных объектов, а также определение их оптимального числа. Критерием является качество работы метрического классификатора в задаче. В методе DBA для каждого центроида предлагается создавать вектор весов, который демонстрирует "значимость" измерений центроида, and использовать его в модифицированной функции расстояния weighted-DTW.

Data: Данные описывают 6 классов временных рядов с акселерометра мобильного телефона. https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2015MetricClassification/data/
References:
Basic algorithm: Реализовать базовые методы:
1. Выбор подмножества объектов обучающей выборки как опорных
2. Предварительная обработка аномальных объектов
3. Кластеризация объектов обучающей выборки для построения центроидов внутри кластера
4. Использование метода DBA для построения опорных объектов
5. Использование методов численной оптимизации для поиска оптимального вектора весов с заданными ограничениями
Solution: Расширение типов ограничений на вид вектора весов: бинарный вектор, одинаковый вектор для всех центроидов, бинарный одинаковый вектор для всех центроидов. Такое решение позволит экономить затраты энергии при работе датчиков мобильного устройства.

Исследование литературы and комбинация up-to-date методов.

Novelty: Не проводилось комплексного исследования различных способов построения центроидов and опорных элементов вместе с выбором их оптимального числа.
Authors: Alexey Goncharov - consultant, Expert, Strizhov V.V. - Expert

Task 7

Name: Привилегированное обучение в задаче аппроксимации границ радужки глаза
Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[36], [37].
References::
- Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель Strizhov V.V.). Московский физико-технический институт, 2017. [38]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Basic algorithm: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Solution: См. Iris_circle_problem.pdf
Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей. Дополнительно капсульные нейросети.
consultant: Radoslav Neichev (автор Strizhov V.V., Expert Matveev I.A.)

Task 44

Name: Ранее прогнозирование достаточного объема выборки для обобщенно линейной модели.
Task: Исследуется проблема планирования эксперимента. Решается Task оценивания достаточного объема выборки по данным. Предполагается, что выборка является простой. Она описывается адекватной моделью. Иначе, выборка порождается фиксированной вероятностной моделью из известного класса моделей. Объем выборки считается достаточным, если модель восстанавливается с достаточной достоверностью. Требуется, зная модель, оценить достаточный объем выборки на ранних этапах сбора данных.
Data: Для вычислительного эксперимента предлагается использовать классические выборки из UCI репозитория. Ссылка на выборки https://github.com/ttgadaev/SampleSize/tree/master/datasets
References::
1. [Обзор методов для оценки объема выборки]
2. http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/.
3. Метод бутстреп. https://projecteuclid.org/download/pdf_1/euclid.aos/1.

Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.

Basic algorithm: Будем говорить, что объем выборки достаточный, если логарифм правдоподобия имеет малую дисперсию, на подборке размера m, посчитанную при помощи бутстрепа.

Пытаемся аппроксимировать зависимость среднего значения log-likelihood and его дисперсии от размера выборки.

Solution: Методы описанные в обзоре являются асимптотическими или же требуют заведомо большого размера выборки. Новый метод должен заключаться в том, чтобы прогнозировать объем на начальных этапах планирования эксперимента, то есть когда данных мало.
Authors: Grabovoi A.V. (consultant), Гадаев Т. Т Strizhov V.V. (Experts)
Примечание: для определения простоты выборки предлагается новое определение сложности (Сергей Иванычев). Это отдельная работа, +1 Task 44a (? Катруца).

Task 15

Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [39]
Task: С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
Data:
- Данные для бинарной классификации. Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Данные для регрессии. Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
References::
- SVM [40]
- Ridge Regression [41]
- [42] (секция 1)
Basic algorithm: [43] В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
Solution: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация. Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
Novelty: В первую очередь, интерес представляет объединение задач классификации and регрессии. Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
Авторы Sergei Grudinin, Maria Kadukova

Task 27

Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Data:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
References::
1. (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
2. А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [44]
3. Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [45]
Basic algorithm: Описан в [1]. Развит в работе команды группы 974. Предлагается использовать их код and эксперимент.
Solution: Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит. Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Authors: consultant Андрей Кулунчаков (Inria Montbonnot), Expert В. В. Стрижов

Task 26

Name: Определение местоположения по сигналам акселерометра
Task: Даны исходные координаты, сигналы акселерометра, дополнительная информация (сигналы гироскопа, магнетометра). Возможно, дана неточная карта (Task SLAM)
Data: из работы [1], данные, собранные самостоятельно.
References::
1. https://arxiv.org/pdf/1712.09004.pdf
2. https://ieeexplore.ieee.org/document/1528431
Basic algorithm: из работы [1].
Solution: Поиск априорной and дополнительной информации, которая позволяет повысить точность позиционирования.
Novelty: Постановка задачи в терминах Projection to Latent Spaces
Authors: consultant Анастасия Мотренко, Expert Илья Гарцеев, В. В. Стрижов

Task 45

Name: Task поиска символов в изображениях
Task: Данная Task в одном из вариантов постановки может быть сведена к двум последовательным операциям: 1) поиск объектов на изображении and определение их класса 2) поиск в базе данных информации о символическом смысле найденных объектов. Основная сложность решения задачи заключена в поиске объектов на изображении. Однако следующая классификация также может быть затруднительной в связи с тем, что изображение объекта может быть неполным, необычно стилизованным and т.п.
Data: Словарь символов  Сайты-музеи  Image-net 
References:
1. http://www.machinelearning.ru/wiki/images/e/e2/IDP18.pdf (с. 116)
2. http://www.image-net.org
Basic algorithm: CNN
Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов. Предложить метрику качества поиска and классификации объектов. Определить применимость методов.
Novelty: Предлагаемый подход к анализу изображений используется Expertами в ручном режиме and не был автоматизирован
Authors: М. Апишев (consultant), Д. Лемтюжникова

Task 28

Name: Мультимоделирование как универсальный способ описания выборки общего вида
Task: Построить метод инкрементального уточнения структуры мультимодели при появлении новых объектов. Разработка and сравнение разных алгоритмов обновления структуры мультимоделей. Построение оптимальной схемы уточнения структуры мультимодели в зависимости от полного размера выборки.
Data: На начальном этапе работы используются синтетические данные с известной статистической структурой. Тестирование разработанных методов производится на реальных данных из репозитория UCI.
References:

Bishop, Christopher M. «Pattern recognition and machine learning». Springer, New York (2006).
Gelman, Andrew, et al. Bayesian data analysis, 3rd edition. Chapman and Hall/CRC, 2013.
MacKay, David JC. «The evidence framework applied to classification networks.» Neural computation 4.5 (1992): 720—736.
Адуенко А. А. «Выбор мультимоделей в Taskх классификации» кандидатская диссертация
Motrenko, Anastasiya, Strizhov V.V., and Gerhard-Wilhelm Weber. «Sample size determination for logistic regression.» Journal of Computational and Applied Mathematics 255 (2014): 743—752.

Basic algorithm: Алгоритм построения адекватных мультимоделей из #4.
Solution: Байесовский подход к задаче выбора моделей на основании обоснованности. Анализ свойств обоснованности and ее связи со статистической значимостью.
Novelty: Предлагается метод построения оптимальной схемы обновления структуры мультимодели при появлении новых объектов. Исследована связь обоснованности and статистической значимости для некоторых классов моделей.
Authors: Стрижов Вадим Викторович, Адуенко Александр Александрович (GMT-5)

Task 11

Name: Автоматическое построение нейросети оптимальной сложности
Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Нейросеть рассматривается как вычислительный граф, ребрами которого выступают примитивные функции, а вершинами --- промежуточные представления выборки, полученные под действием этих функций. Требуется выбрать подграф модели, при котором итоговая нейросеть будет давать приемлемое качество классификации при небольшом количестве параметров.
Data: Выборки Boston, MNIST, CIFAR-10
References::
1. Oleg BakhteevЮ., Strizhov V.V. Выбор моделей глубокого обучения субоптимальной сложности с использованием вариационной оценки правдоподобия // Автоматика and телемеханика, 2018.
2. Смердов А.Н., Oleg BakhteevЮ., Strizhov V.V. Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза // Информатика and ее применения, 2018.
3. [46] Вариационный вывод.
4. [47] Релаксация на основе вариационного вывода.
5. [48] DARTS.
Basic algorithm: случайный поиск and алгоритм DARTS (выбор модели с использованием релаксации без вариационного вывода).
РешениеПредлагается выбирать структуру нейросети на основе вариационного вывода. Для выбора оптимальной структуры используется релаксация: от строго выбора одной из нескольких рассматриваемых подмоделей нейросети предлагается перейти к композиции этих моделей с различным весом каждой из них.
Novelty: Предложен метод автоматического построения модели, учитывающий неточности при оптимизации параметров модели and позволяющий находить наиболее устойчивые модели.
Authors: Oleg Bakhteev, Strizhov V.V.

Task 48

Name: Мультимоделирование, привилегированное обучение
Task: Рассматривается Task обучения одной модели с помощью другой
Data: Выборки временных рядов
References::
1. https://github.com/neychev/distillation_n_privileged_info_torch
2. https://github.com/neychev/Multitask_forecast_code
3. Статья по Mixture Experts
4. Диплом Нейчева http://www.machinelearning.ru/wiki/images/3/36/NeyhevMS_Thesis.pdf
Basic algorithm: Смесь Expertов, привилегоированное обучение, дистилляция
Решение Выполнить эксперимент, иллюстрирующий эти подходы
Novelty: Предложен метод прогнозирования, использующий апроорную информацию о принадлежности выборки модели (опубликовать полученные результаты).
Authors: Р.Г. Нейчев (consultant), Strizhov V.V.

Task 49

Name: Декодирование сигналов мозга and прогнозирование намерений
Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
Data: neurotycho.org [9] (или пальцы)
References:
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [10]
- Isachenko R.V., Strijov V.V. Quadratic Programming Optimization with Feature Selection for Non-linear Models // Lobachevskii Journal of Mathematics, 2018, 39(9) : 1179-1187. Article
Basic algorithm: Partial Least Squares[11]
Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной. Бонус: исследовать изменения структуры модели при изменении характера выборки.
Authors: Андрей Задаянчук, Strizhov V.V.

2018

Autumn 2018

Number	Project name	materials	Team
0	(пример) Метрическая классификация временных рядов	code, LinkReview, Discussion	Alexey Goncharov*, Максим Савинов
1	Прогнозирование направления движения цены биржевых инструментов по новостному потоку0	Code, LinkReview, Slides, Report	Александр Борисов, Дробин Максим, Говоров Иван, Мухитдинова София, Валентин Родионов, Валентин Ахияров
2	Построение опорных объектов для множества многомерных временных рядов	Code LinkReview	Исхаков Ришат, Корепанов Георгий, Степан Солоднев Самирханов Данил
3	Динамическое выравнивание многомерных временных рядов	Code LinkReview Slides Report	Gleb Morgachev, Владислав Смирнов, Татьяна Липницкая
4	Автоматическая настройка параметров АРТМ под широкий класс задач	Code, LinkReview, Presentation	Голубева Татьяна, Иванова Екатерина, Матвеева Светлана, Трусов Антон, Царицын Михаил, Черноног Вячеслав
5	Нахождение парафразов	Code, LinkReview	Stas Okrug, Nikita Mokrov Fedor Kitashov, Polina Proskura, Natalia Basimova, Roman Krasnikov, Akhmedkhan Shabanov
6	On conformational changes of proteins using collective motions in torsion angle space and L1 regularization	Code, LinkReview Presentation	Ryabinina Raisa, Emtsev Daniil
7	Privileged training in the problem of approximating the borders of the iris	Code, LinkReview	Pavel Fedosov, Alexey Gladkov, Genrikh Kenigsberger, Ivan Korostelev, Nikolay Balakin
8	Порождение признаков с помощью локально-аппроксимирующих моделей	Code, LinkReview	Ибрагим Курашов, Наиль Гильмутдинов, Альберт Мулюков, Валентин Спивак
9	Распознавание текста на основе скелетного представления толстых линий and сверточных сетей	Code, LiteratureReview, Slides, report	Kutsevol Polina Lukoyanov Artem Korobov Nikita Boyko Alexander Litovchenko Leonid Valukov Alexandr Badrutdinov Kamil Yakushevskiy Nikita Valyukov Nikolay Tushin Kirill
10	Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста	Code, LinkReview, Discussion, Presentation	Гайдученко Николай Торлак Артём Акимов Кирилл Миронова Лилия Гончар Даниил
11	Автоматическое построение нейросети оптимальной сложности	Code, LinkReview, report, slides	Николай Горян Александр Улитин Товкес Артем Таранов Сергей Губанов Сергей Криницкий Константин Забазнов Антон Valery Markin
12	Обучение машинного перевода без параллельных текстов.	Code, LinkReview, Отчет, Слайды	Александр Артеменков Ангелина Ярошенко Андрей Строганов Егор Скиднов Анастасия Борисова Рябов Федор Мазуров Михаил
13	Глубокое обучение для предсказания вторичной структуры РНК	Code Link Review	Дорохин Семён Пастухов Сергей Пикунов Андрей Нестерова Ирина Курилович Анна chat
14	Deep Learning for reliable detection of tandem repeats in 3D protein structures	Code Link Review	Веселова Евгения
15	Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул	Code Link Review	Меркулова Анастасия Плумите Эльвира Жибоедова Анастасия chat
16	Оценка оптимального объема выборки для исследований в медицине	Code Link Review	Артемий Харатян, Михаил Михеев, Евгин Александр, Сеппар Александр, Коноплёв Максим, Мурлатов Станислав, Макаренко Степан
17	Прогнозирование намерений. Исследование свойств локальных моделей при пространственном декодировании сигналов головного мозга	Code, LinkReview, Presentation	Наталия Болоболова, Alina Samokhina, Шиянов Вадим
18	Прогнозирование намерений. Построение оптимальной модели декодирования сигналов при моделировании нейрокомпьютерного интерфейса.	Code, LinkReview, Presentation, Article	Иван Наседкин, Галия Латыпова, Нестор Суходольский, Александр Шеменев Иван Бородулин,
19	Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.	Code, Report, LinkReview, Presentation	Вячеслав Резяпкин, Алексей Русскин, Виктория Дочкина, Мирон Кузнецов, Ярмошик Демьян
20	Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста	Code LinkReview Отчет, Presentation	Агафонов Алексей, Рякин Илья,Литвиенко Владимир, Хохлов Иван, Великовский Никита, Ануфриенко Олег
21	Методы выпуклой оптимизации высокого порядка	Code, LinkReview, Slides	Селиханович Даниил, Соколов Игорь
23	Фрактальный анализ and синтез оптических изображений морского волнения	code, LinkReview, Presentation report	Каныгин Юрий
24	Максимизация энтропии при различных видах преобразований над изображением	code, LinkReview, report, slides	Никита Воскресенский, Алиса Шабалина, Ярослав Мурзаев, Алексей Хохлов, Алексей Казаков, Ольга Грибова, Александр Белозерцев
25	Автоматическое детектирование and распознавание объектов на изображениях	code, code_A, Slides_for_demo, Report2018Project25_30 Report2018Project25_31 slides_30 slides_25_31 LinkReview	Юлия Демидова Иван Разумов Владислав Томинин Ярослав Томинин Никита Дудоров Леонид Ерлыгин Прошутинский Дмитрий Баймаков Владимир Зубков Александр Черненкова Елена
26	Определение местоположения по сигналам акселерометра	Code, LinkReview, Слайды, Текст	Эльвира Зайнулина Фатеев Дмитрий Виталий Протасов Никита Божедомов
28	Мультимоделирование как универсальный способ описания выборки общего вида	Code, Linkreview, Slides, report	Владимир Качанов Евгения Стрелкова
29	Cross-Language Document Extractive Summarization with Neural Sequence Model	Code, Linkreview, Отчет, Слайды	Павел Захаров Павел Кваша Евгений Дьячков Евгений Петров Илья Сельницкий
31	Pairwise energy matrix construction for inverse folding problem	Code, LinkReview Report Slides	Рубинштейн Александр
32	Smooth orientation-dependent scoring function	Code Отчёт	Носкова Елизавета Качков Сергей Сидоренко Антон

Task 5

Name: Нахождение парафразов.
Task: Парафразы — разные вариации одного and того же текста, одинаковые по смыслу, но отличающиеся лексически and грамматически, например: "Куда поехала машина" and "В каком направлении поехал автомобиль". Task детектирования парафразов заключается в выделении в множестве текстов кластеров, таких что в каждом кластере содержатся только парафразы одного and того же предложения.

Самый простой способ выделения парафразов — кластеризация текстов, где каждый текст представлен "мешком слов".

. Data: Есть открытые датасеты вопросов для тестирования and обучения на kaggle.com, есть открытые данные для тестирования с конференций semeval.
References:
1. Будет позже
Basic algorithm: Использовать для выделения парафразов какой-нибудь из алгоритмов кластеризации документов, где каждый документ представлен мешком слов или tf-idf.
Solution: Использовать нейросетевые архитектуры для поиска парафразов, использовать в качестве признаков словосочетания, выделенные с помощью синтаксических анализаторов, использовать многоуровневую кластеризацию.
Novelty: Отсутствие реализаций для русского языка, которые будут использовать синтаксические анализаторы для подобной задачи, все текущие решения достаточно "просты".
Authors: Артём Попов.

Task 6

Name: On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
Task: Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
. Data: Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
References:
1. Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
2. Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
3. SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
4. Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
5. https://en.wikipedia.org/wiki/Lasso_(statistics)
6. E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
Basic algorithm: The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
Novelty: This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
Authors: Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)

Task 10

Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Task: Automatically Detect Text in Natural Images.
Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
References:: COCO benchmark, One of a state-of-the-art architecture
Basic algorithm: code + морфологические методы, Avito 2014 winner’s solution.
Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
Authors: И. Н. Жариков.
Expert: Л. М. Местецкий (морфологические методы).

Task 16

Name: Оценка оптимального объема выборки для исследований в медицине
Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
Data: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
References::
- Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[49], [50].
Basic algorithm: Серия эмпирических алгоритмов оценки объема выборки.
Solution: Исследование свойств пространства параметров при пополнении выборки.
Novelty: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
Authors: А.М. Катруца, Strizhov V.V., координатор Tamaz Gadaev

Task 19

Name: Исследование зависимости качества распознавания онтологических объектов от глубины гипонимии.
Task: Необходимо исследовать зависимость качества распознавания онтологических объектов на различных уровнях гипонимии понятий. Классическая постановка задачи распознавания именованных сущностей: https://en.wikipedia.org/wiki/Named-entity_recognition
Data: Гипонимии из https://wordnet.princeton.edu/ , тексты разных доменов предположительно из WebOfScience.
References: Релевантные статьи для классической постановки http://arxiv-sanity.com/search?q=named+entity+recognition
Basic algorithm: В качестве алгоритма может использоваться https://arxiv.org/pdf/1709.09686.pdf или упрощенная его версия, исследования производятся с использованием библиотеки DeepPavlov.
Solution: Необходимо собрать датасет гипонимии (вложенности понятий) объектов с использованием WordNet, произвести автоматическую разметку онтологических объектов текстов различных доменов для нескольких уровней обобщения понятий, провести ряд экспериментов для определения качества распознавания онтологических объектов для разных уровней вложенности.
Novelty: Подобные исследования не производились, готовые датасеты с иерархической разметкой объектов отсутствуют. Распознавание онтологических объектов на различных уровнях гипонимии может быть использовано для производства дополнительных признаков при решении различных NLP (Natural language processing) задач, а также определения являются ли объекты парой гипоним-гипероним.
Authors: Бурцев Михаил Сергеевич (Expert), Баймурзина Диляра Римовна (consultant).

Task 20

Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
Task: Задан фрагмент текста and несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального and конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) and 1 (входит в ответ).
Data: Предоставляется размеченный датасет с фрагментами текста and наборами вопросов с ответами в диалоге
References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
Basic algorithm: Basic algorithm описан статьях and реализован (QuAC2018, BiDAF2017).
Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) and исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только Basic algorithm. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
Authors: Антон Сергеевич Хританков

Task 21

Name: Методы выпуклой оптимизации высокого порядка
Task: Для выпуклых задач не очень больших размерностей эффективно (до n ~ 10^3 иногда даже до n ~ 10^4) применяются методы высокого порядка. До недавнего времени принято было считать, что это методы второго порядка (использующие вторые производные оптимизируемой функции). Однако в начале 2018 года Ю.Е. Нестеров [1] предложил в теории эффективный метод третьего порядка, который работает почти по оптимальным оценкам. В пособии [3] в упражнении 1.3 описан пример "плохой" выпуклой функции, предложенной Ю.Е. Нестеровым, на котором хотелось бы сравнить метод Нестерова второго and третьего порядка [1], метод из работы [2] второго and третьего порядка and обычные быстрые градиентные методы (первого порядка). Сравнивать стоит как по числу итераций, так and по общему времени работы.
References:

Author: Евгения Алексеевна Воронцова (доцент ДВФУ, Владивосток), Александр Владимирович Гасников

Task 22

Name: Cutting plane methods for copositive optimization
Task: Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. Подробнее тут
Data: The algorithm will be tested on randomly generated instances
References:
- [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
- [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
- [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
Basic algorithm: The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
Solution: The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
Novelty: The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
Автор: Roland Hildebrand

Task 23

Name: Фрактальный анализ and синтез оптических изображений морского волнения
Task: Разнообразные физические процессы and явления изучаются с помощью изображений, получаемых дистанционно. Важной задачей является получение адекватной информации об интересующих процессах and явлениях путём измерения определённых характеристик изображений. Линии равной яркости (изолинии) на изображениях многих природных объектов являются фрактальными, то есть представляют собой множества точек, которые не могут быть представлены линиями конечной длины and занимают промежуточное положение между линиями and двумерными плоскими фигурами. Такие множества характеризуются фрактальной размерностью D, которая обобщает классическое понятие размерности множества and может принимать дробные значения. Для уединённой точки на изображении D=0, для гладкой кривой D=1, для плоской фигуры D=2. Фрактальная изолиния имеет размерность 1<D<2. Алгоритм расчёта D приведён, например, в [1]. Фрактальная размерность изолиний морской поверхности, может служить для оценки пространственных спектров морских волн по данным дистанционного зондирования [1]. Task состоит в следующем. Необходимо провести исследование численными методами зависимости между характеристиками пространственных спектров морских волн and фрактальной размерностью спутниковых изображений Земли в области солнечного блика. Для исследования следует использовать метод численного синтеза оптических изображений морского волнения, описанный в [2]. Численное моделирование должно быть при различных характеристиках морских волн, а также при различных положениях Солнца and пространственном разрешении изображений.
References:
1. Лупян Е. А., Мурынин А. Б. Возможности фрактального анализа оптических изображений морской поверхности. // Препринт Института Космических исследований АН СССР Пр.-1521, Москва, 1989, 30 с.
2. Мурынин А. Б. Восстановление пространственных спектров морской поверхности по оптическим изображениям в нелинейной модели поля яркости // Исследования Земли из космоса, 1990. № 6. С. 60-70.
Author: Иван Алексеевич Матвеев

Task 24

Название Максимизация энтропии при различных видах преобразований над изображением
Task: Паншарпенинг — это алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения. Task паншарпенинга формулируется следующим образом: имея панхроматическое изображение требуемого разрешения and мультиспектральное изображение пониженного разрешения, требуется восстановить мультиспектральное изображение в пространственном разрешении панхроматического. Из эмпирических наблюдений, основанных на большом количестве снимков высокого разрешения, известно, что пространственная вариативность интенсивности отраженного излучения для объектов одной природы гораздо больше, чем вариативность их спектра. Другими словами, можно наблюдать, что спектр отраженного излучения однороден в границах одного объекта, в то время как даже внутри одного объекта интенсивность отраженного излучения варьируется. На практике хороших результатов можно достигнуть, используя упрощенный подход, при котором считается, что если интенсивность соседних областей значительно отличается, то, вероятно, эти области принадлежат разным объектам с разными отраженными спектрами. На этом основан разработанный вероятностный алгоритм повышения разрешения мультиспектральных изображений с использованием опорного изображения [1]
Необходимо провести исследование по максимизации энтропии при различных видах преобразований над изображением. Показать, что энтропия может служить индикатором потерь информации, содержащейся в изображении, при преобразованиях над ним. Формулировка обратной задачи по восстановлению изображения: Условие 1: Соответствие интенсивности (в каждой точке) восстановленного изображения интенсивности панхромного изображения. Условие 2: Соответствие низкочастотной составляющей восстановленного изображения исходному мультиспектральному изображению. Условие 3: Однородность (подобность) спектра в пределах одного объекта and допущение скачкообразного изменения спектра на границе двух однородных областей. Условие 4: При соблюдении первых трех условий, локальная энтропия восстановленного изображения должна быть максимизирована.
References:
1. Гороховский К. Ю., Игнатьев В. Ю., Мурынин А. Б., Ракова К. О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Известия РАН. Теория and системы управления, 2017, № 6.
Author: Иван Алексеевич Матвеев

Task 25

Name: Автоматическое детектирование and распознавание объектов на изображениях
Task: Автоматическое детектирование and распознавание объектов на изображениях and видео является одной из основных задач компьютерного зрения. Как правило, эти задачи разбиваются на несколько подзадач: предобработка, выделение характерных свойств изображения объекта and классификация. Этап предобработки обычно включает некоторые операции с изображением, такие как фильтрация, выравнивание яркости, геометрические корректирующие преобразования для облегчения устойчивого выделения признаков.

Под характерными свойствами изображения объекта понимается некоторый набор признаков, приближённо описывающий интересующий объект. Признаки можно разбить на два класса: локальные and интегральные. Преимуществом локальных признаков является их универсальность, инвариантность по отношению к неравномерным изменениям яркости and освещённости, но они не уникальны. Интегральные признаки, характеризующие изображение объекта в целом, не устойчивы к изменению структуры объекта and сложным условиям освещения. Существует комбинированный подход — использование локальных признаков в качестве элементов интегрального описания, когда искомый объект моделируется набором областей, каждая из которых характеризуется своим набором признаков — локальным текстурным дескриптором. Совокупность таких дескрипторов характеризует объект в целом. Под классификацией понимают определение принадлежности объекта к тому или иному классу путём анализа вектора признаков, полученного на предыдущем этапе, разделения признакового пространства на подобласти, указывающие на соответствующий класс. Существует множество подходов к классификации: нейросетевые, статистические (Байеса, регрессия, Фишера and др.), решающие деревья and леса, метрические (ближайшие К-соседей, парзеновские окна и т. д.) and ядерные (SVM, RBF, метод потенциальных функций), композиционные (AdaBoost). Для задачи обнаружения объекта на изображении оценивается принадлежность двум классам — классу изображений, содержащих объект, and классу изображений, не содержащих объект (изображениям фона).

References: and более подробно тут
Author: Иван Алексеевич Матвеев

Task 29

Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
Task: Предлагается решить задачу переноса обучения для модели сокращения текста выделением предложением (extractive summarization) and исследовать зависимость качества сокращения текста от качества обучения модели перевода. Имея данные для обучения модели сокращения на английском языке and параллельный англо-русский корпус текстов построить модель для сокращения текста на русском языке. Решение задачи оценивается на небольшом наборе данных для тестирования модели на русском языке, качество решения задачи определяется отношением значений критериев ROUGE на английском and русском наборах.
Data: Данные для обучения модели на английском языке (SummaRuNNer2016), параллельный корпус OPUS, данные для проверки на русском языке.
References: В статье (SummaRuNNer2016) дается описание базового алгоритма сокращения текста, в работе Neural machine translation by jointly learning to align and translate.(NMT2016) дается описание модели перевода. Идея совместного использования моделей представлена в статье Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
Basic algorithm: Одна из идей базового алгоритма представлена в (CrossSum2010), модель перевода реализована (OpenNMT), предоставляется реализация модели сокращения текста (SummaRuNNer2016).
Solution: Предлагается исследовать идею решения, предложенную в статье (CrossSum2010) and варианты объединения моделей сокращения and перевода. Базовые модели and предобработка наборов данных реализованы (OpenNMT), библиотеки PyTorch and Tensorflow. Анализ ошибок по сокращению текста производится, как описано в (SummaRuNNer2016), анализ качества обучения моделей стандартными инструментами библиотек, .
Novelty: Для базовой модели применимость исследована на паре наборов данных, подтверждение возможности переноса обучения на набор данных на другом языке and указание условий для этого переноса расширит область применения модели and укажет необходимые новые доработки модели или предобработки данных.
Authors: Алексей Романов (consultant), Anton Khritankov (Expert).

Task 30

Name: Метод построения HG-LBP дескриптора на основе гистограмм градиентов для детектирования пешеходов.
Task: Предлагается разработать новый дескриптор, обобщающий LBP дескриптор на основе гистограмм модулей градиентов, имеющий свойства композиции HOG-LBP для задачи детектирования пешеходов на изображении. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
References:
1. 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No.7, July, 2002.
2. 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot,, «On the Role and the Importance of Features for Background Modeling and Foreground Detection», https://arxiv.org/pdf/1611.09099v1.pdf
3. 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
4. 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
5. 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
6. 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
7. 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
8. 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
9. 9. http://www.cse.oulu.fi/CMV/Research
Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
Solution: Одним из вариантов обобщения LBP может быть использование вместо гистограмм распределения точек по LBP-коду, гистограмм распределения модулей градиентов точек в блоке по LBP-коду (HG-LBP). Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализованы алгоритмы HOG and LBP. Необходимо модифицировать исходный код реализации LBP and вставить подсчет модулей градиента and накопление соответствующей гистограммы по LBP. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на исходных and модифицированных дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR.
Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Замена композиции дескрипторов одним, более информативным, чем каждый по отдельности может упростить решение задачи. Использование значений градиента в гистограммах дескриптора LPB является новым.
Authors: Гнеушев Александр Николаевич

Task 31

Name: Использование HOG дескриптора для обучения нейронной сети в задаче детектирования пешеходов
Task: Предлагается заменить линейный SVM классификатор в классическом алгоритме HOG простой сверточной нейронной сетью небольшой глубины, при этом HOG дескриптор должен представляться трехмерным тензором, сохраняющим пространственную структуру локальных блоков. В качестве анализа качества нового дескриптора предлагается использовать графики ошибок детектирования FAR/FRR на базе INRIA.
Data: База данных пешеходов INRIA: http://pascal.inrialpes.fr/data/human/
References:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491—1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
3. 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp. 743—761
4. 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
5. 6. https://en.wikipedia.org/wiki/Pedestrian_detection
6. 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
7. 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
8. 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
9. 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
Basic algorithm:
1. 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection // Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
2. 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
Solution: Одним из вариантов обобщения алгоритма HOG может быть использование вместо линейного алгоритма SVM другого классификатора, например какой-либо нейронной сети. Предлагается для основы экспериментов использовать библиотеку OpenCV, в которой реализован алгоритм HOG and классификатор SVM. Нужно проанализировать исходный код реализации HOG, формализовать внутреннюю структуру вектора HOG дескриптора в форме трехмерного тензора — две пространственные and одна спектральная размерности. Необходимо написать программу чтения базы INRIA, обучения по ней метода линейного SVM на HOG-дескрипторах, сбора статистики детектирования and построения DET-графиков FAR/FRR. Необходимо на основе какой-либо системы обучения нейросети (например, mxnet) собрать неглубокую (не более 2-3 сверточных слоев) сверточную нейросеть известной архитектуры, обучить ее на базе INRIA and на тензорных дескрипторах HOG, построить соответствующие графики FAR/FRR.
Novelty: Разработка вычислительно простых методов для выделения максимально информативных признаков в Taskх распознавания является актуальной в области создания встроенных систем, обладающих малыми вычислительными ресурсами. Использование небольшого количества наиболее информативных дескрипторов может уменьшить вычислительную сложность, по сравнению с использованием большой композиции простых признаков, например в глубокой сверточной нейросети. Обычно классификаторы используют HOG дескриптор как вектор в целом, однако при этом теряется информация о локальной пространственной структуре and спектре признаков. Новизна заключается в использовании свойства локальности блоков в HOG дескрипторе and представление HOG в виде трехмерного тензора. Использование этой информации позволяет достичь устойчивости детектирования к перекрытию пешехода.
Authors: Гнеушев Александр Николаевич

YEAR

Author	Topic	Links	Consultant	Reviewer	Report	Letters	$\Sigma=3+13$
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Астахов Антон	Восстановление структуры прогностической модели по вероятностному представлению	folder code paper	Александр Катруца	Кислинский Вадим	BHF	A-I-L0S0B0R0C0V0T0 [A-I-L-S-B0R0C0V0T0E0D0W0S] + [AILSBRCBTEDWS]	2+4
Гаврилов Юрий	Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга	folder code paper video	А.В. Гончаров	Остроухов Петр	BF	A+IL-S0B-R0 [A+ILSBRC-VT0E0D0W0S] + (W)	2+9+1
Гадаев Тамаз	Оценка оптимального объема выборки	folder code paper slides video	Александр Катруца	Шульгин Егор	BHF	A-IL>SB-R-C0V0T0 [AILSBR0CVT0E-D0W0S]	2+9
Гладин Егор	Экономия заряда акселерометра на основе прогнозирования временных рядов	folder code paper slides	Мария Владимирова	Козлинский Евгений review	.F	AILS [A-I-L-SB0R0C000V0T0E0D0W0S]	1+4
Грабовой Андрей	Автоматическое определение релевантности параметров нейросети.	folder code paper slides video	Oleg BakhteevЮ.	Кульков Александр	BHMF	A+ILS+BRC+VTE>D> [AILSBRCVTEDWS] [ $\emptyset$ ]	3+13
Нурланов Жакшылык	Deep Learning for reliable detection of tandem repeats in 3D protein structures	folder code paper slides video	С. В. Грудинин, Guillaume Pages	Плетнев Никита Review	BHF	AILB [A-I-LS-BRC0V0T-E0D0W0S]	2+7
Рогозина Анна	Deep learning for RNA secondary structure prediction	folder code paper slides video	Мария Попова	Гадаев Тамаз	BHMF	AILSBR> [AILSBRC0V0T0E0D0W0S]+CW	3+9
Терехов Олег	Порождение признаков с помощью локально-аппроксимирующих моделей	folder code paper slides	С.Д. Иванычев, Р.Г.Нейчев	Гладин Егор review	BHM	AILSBRCVTDSW [AIL0SB0R0C0V0TE0D0W0S]	2+12
Шульгин Егор	Порождение признаков, инвариантных к изменению частоты временного ряда	folder code paper	Р.Г.Нейчев	Терехов Олег	BHM	AIL [AI-LS-BR0CV0T0E0D0W0S]	2+5
Малиновский Григорий	Предсказание графовой структуры нейросетевой модели	folder code paper slides video	Oleg BakhteevЮ.	Грабовой Андрей review	BHMF	A+I+L+SBR>C>V>T>E>D> [AILSBRC0VTED0WS]+(C)	3+11
Кульков Александр	Декодирование сигналов мозга and прогнозирование намерений	folder code paper slides video	Р.В. Исаченко	Малиновский Григорий review	BHMF	AILSBR [AILSBRCVTED0W0S]	3+11
Плетнев Никита	Аппроксимация границ радужки глаза	paper slides [ video]	Alexander Aduenko	Нурланов Жакшылык	BF	AILSB>R> [AILSTWS]	2+7
Остроухов Петр	Selection of models superposition for identification of a person on the basis of a ballistocardiogram	folder paper code slides	Александр Прозоров	Гаврилов Юрий review	BhF	AIL>S?B?R? [AILSBRCVT-E0D0W0S]	2+10
Кислинский Вадим	Предсказание музыкальных плейлистов пользователей в рекомендательной системе.	folder code slides paper video	Евгений Фролов	Астахов Антон	.F	(AIL)------(SB)---(RCVT)-- [AILS-BRCVTED0W0S]	1+11
Козлинский Евгений	Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.	folder code paper slides video	Роза Айсина	Рогозина Анна review	BHMF	AILSBR>CV> [AILSBR0C0V0TE0D0WS]+(С)	3+8+1

Task 1

Name: Аппроксимация границ радужки глаза
Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[51], [52].
References::
- Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель Strizhov V.V.). Московский физико-технический институт, 2017. [53]
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Basic algorithm: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Solution: См. Iris_circle_problem.pdf
Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
consultant: Alexander Aduenko (автор Strizhov V.V., Expert Matveev I.A.)

Task 2

Name: Оценка оптимального объема выборки
Task: В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
Data: Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
References::
- Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[54], [55].
Basic algorithm: Алгоритмы оценки объема выборки при .
Solution: Исследование свойств пространства параметров при пополнении выборки.
Novelty: Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
Authors: А.М. Катруца, Strizhov V.V., Expert А.П. Мотренко

Task 3

Name: Восстановление структуры прогностической модели по вероятностному представлению
Task: Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
Data: Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
References::
- Работы Tommy Yakkola and других в LinkReview [56].
Basic algorithm: Метод ветвей and границ, динамическое пограммирование при построении полносвязного графа.
Solution: Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
Novelty: Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
Authors: А.М. Катруца, Strizhov V.V.

Task 4

Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
Data: Шрифты в растровом представлении.
References:: Список работ [57], в частности arXiv:1611.03199 and
Basic algorithm: Сверточная сеть для растрового изображения.
Solution: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Novelty: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Authors: Л.М. Местецкий, И.А. Рейер, Strizhov V.V.

Task 5

Name: Порождение признаков с помощью локально-аппроксимирующих моделей
Task: Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
Data:
- WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
- (Временной ряд (библиотека примеров), раздел Accelerometry).
References::
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471-1483.[58]
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.URL
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. URL
- Isachenko R.V., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. URL
- Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. URL
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. URL
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. URL
Basic algorithm: Описан в работе Кузнецова, Ивкина.
Solution: Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные.
Novelty: Создан стандарт построения локально-аппроксимирующих моделей.
Authors: С.Д. Иванычев, Р.Г. Нейчев, Strizhov V.V.

Task 6

Name: Декодирование сигналов мозга and прогнозирование намерений
Task: Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
Data: neurotycho.org [59]
References::
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [60]
- MLAlgorithms: Motrenko, Isachenko (submitted)
Basic algorithm: Partial Least Squares[61]
Solution: Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
Novelty: Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной.
Authors: Р.В. Исаченко, Strizhov V.V.

Task 7

Name: Автоматическое определение релевантности параметров нейросети.
Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров and удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
Data: Выборка рукописных цифр MNIST
Basic algorithm: Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
References::
- [62] Градиентные методы оптимизации гиперпараметров.
- [63] Градиентные методы оптимизации гиперпараметров.
- [64] Optimal Brain Damage.
- [65] AdaNet
- [66] Метод Белсли
Authors: Oleg Bakhteev, Strizhov V.V.

Task 8

Name: Предсказание графовой структуры нейросетевой модели.
Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
Data: Выборки MNIST, CIFAR-10
Basic algorithm: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
References::
- [67] doubly-recurrent нейросети.
- [68] Схожий подход с использованием обучения с подкреплением.
Authors: Oleg Bakhteev. Strizhov V.V.

Task 9

Name: Deep Learning for reliable detection of tandem repeats in 3D protein structures подробнее в PDF
Task: Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
Data: Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
References:: Our previous 3D CNN: [69] Invariance of CNNs (and references therein): [70], [71]
Basic algorithm: A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [72]
Solution: The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [73],

[74] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.

Novelty: Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
Authors: Expert Sergei Grudinin, consultants Guillaume Pages, Strizhov V.V.

Task 10

Name: Semi-supervised representation learning with attention
Task: обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
Data: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) and PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
References::

1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762). 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198). 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726). 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).

Basic algorithm: решение [3] или векторные представления, полученные с использованием seq2seq [].
Solution: в задаче предлагается обучить векторные представления для фраз, используя механизм attention and метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований and сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной and feed-forward сети.
Novelty: новый метод.
Authors: Рита Кузнецова, consultant

Task 11

Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
Data: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
Basic algorithm: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
Solution: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
Novelty: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
Authors: А.В. Гончаров, Strizhov V.V..

Task 12

Name: Порождение признаков, инвариантных к изменению частоты временного ряда.
Task: Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима and при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) and получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, .., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима and при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.

f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.

Data: Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ and акселерометрам.
References:: См выше про Акселерометры
Basic algorithm: Преобразование Фурье.
Solution: Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
Novelty: Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как and кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках and во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x and y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации and предсказания временных рядов.
Authors: Р. Г. Нейчев, Strizhov V.V..

Task 14

to be done

Name: Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
Task:
Data: конкурса конференции RecSys'18.
References::
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Basic algorithm:
Solution: построение тематической модели с помощью библиотеки BigARTM.
Novelty:
Authors: К.В.Воронцов.

Task 15

to be done

Name: Иерархическое тематическое моделирование текстовой коллекции
Task: (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
Data:
References::
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Basic algorithm:
Solution: построение тематической модели с помощью библиотеки BigARTM.
Novelty:
Authors: К.В.Воронцов

Task 16

to be done

Name: Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
Task:
Data:
References::
1. Воронцов К.В. Обзор вероятностных тематических моделей. 2017.
Basic algorithm:
Solution: построение тематической модели с помощью библиотеки BigARTM.
Novelty:
Authors: К.В.Воронцов, consultants Роза Айсина, Philip Nikitin.

Task 17

to be done

Name: Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
Task:
Data:
References::
1. Айсина Р.М. Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным.
Basic algorithm:
Solution: построение тематической модели с помощью библиотеки BigARTM.
Novelty: Task восстановления структуры товарно-денежных потоков в отрасли по банковским транзакционным данным ранее не ставилась.
Authors: К.В.Воронцов, consultant Роза Айсина.

Task 18

Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Task: Automatically Detect Text in Natural Images.
Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
References:: COCO benchmark, One of a state-of-the-art architecture
Basic algorithm: code + морфологические методы, Avito 2014 winner's solution.
Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
Authors: И.Н. Жариков.
Expert: Л.М. Местецкий (морфологические методы).

YEAR

Group 594

Author	Topic	Link	Consultant	Reviewer	Report	Letters	$\Sigma=3+13$
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Белых Евгений Проскурин Александр	Классификация суперпозиций движений физической активности	paper slides code	Мария Владимирова, Александра Малькова	Романенко Илья, Поповкин Андрей, review video	MF	AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD	2+9
Зуева Надежда	Style Change Detection	paper slides video	Рита Кузнецова	Игашов Илья, review	BHMF	AIL-S-B-R- [AILSBRCV0TE0D0WS]	3+10
Игашов Илья	Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.	paper slides video	Sergei Grudinin, Maria Kadukova	Манучарян Вардан, review, correction	BHMF	AILBS+BRHC>V> [AILSBRCVTE0D0WS]	3+11
Калугин Дмитрий	Предсказание графовой структуры нейросетевой модели	paper slides	Бахтеев Олег	Зуева Надежда review	BHM	AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS]	2+11
Манучарян Вардан	Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей	paper, slides, code video	Sergei Grudinin, Maria Kadukova	Фаттахов Артур review	BMF	AILS>B> [AILSB0R0CV0TE0D0WS] VED	3+7
Муравьев Кирилл	Определение параметров нейросети, подлежащих оптимизации.	paper, slides, code video	Бахтеев Олег	Калугин Дмитрий review	BHMF	A+IL-S-B-RCVTED [AILSBRCV0TE0DWS]	3+12
Мурзин Дмитрий Данилов Андрей	Распознавание текста на основе скелетного представления толстых линий and свёрточных сетей	paper, slides, code [video]	Л. М. Местецкий, Иван Рейер, Жариков И. Н.	Муравьев Кирилл review	BHMF	A+IL> [AILSB0R0CV0TE0D0WS]	3+8
Поповкин Андрей Романенко Илья	Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей	paper slides code video	Кулунчаков Андрей, В. В. Стрижов	Проскурин Александр, Белых Евгений, review	BHMF	AILS0BC>V> [AILSBRC0VTED0WS]	3+11
Фаттахов Артур	Style Change Detection	paper slides code video	Рита Кузнецова	Данилов Андрей, Мурзин Дмитрий, рецензия	BMF	AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS]	3+11

Task 1 (1-2)

Name: Классификация суперпозиций движений физической активности
Task: Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.

Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.)

Data:
- Собираются самостоятельно
- Данные строителей
- Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
References::
- Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471—1483. [URL]
- Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
Basic algorithm: Basic algorithm описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
Solution: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Novelty: Предложен способ классификации and анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
Authors: Александра Малькова, Мария Владимирова, Р. Г. Нейчев, В. В. Стрижов,

Task 2 (1)

Name: Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
Task: Automatically Detect Text in Natural Images.
Data: синтетические сгенерированные данные + подготовленная выборка фотографий + COCO-Text dataset + Конкурс Avito 2014.
References:: COCO benchmark, One of a state-of-the-art architecture
Basic algorithm: code + морфологические методы, Avito 2014 winner’s solution.
Solution: Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
Novelty: предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
Authors: И. Н. Жариков.
Expert: Л. М. Местецкий (морфологические методы).

Task 3 (1-2)

Name: Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
Task: Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
Data: Шрифты в растровом представлении.
References:: Список работ [75], в частности arXiv:1611.03199 и
Basic algorithm: Сверточная сеть для растрового изображения.
Solution: Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
Novelty: Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
Authors: Л. М. Местецкий, И. А. Рейер, В. В. Стрижов

Task 4 (1-2)

Name: Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Data:
- Коллекция текстовых документов TREC (!)
- Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
References::
- (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // Expert Systems with Applications, 2017, 85 : 221—230.
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [76]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [77]
Basic algorithm: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
Solution: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
Authors: Кулунчаков Андрей, В. В. Стрижов

Task 5 (1)

Name: Определение параметров нейросети, подлежащих оптимизации.
Task: Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
- а) Параметры модели, подлежащие оптимизации
- б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.

Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.

Data: Выборка рукописных цифр MNIST
Basic algorithm: Случайный выбор параметров.
References::
- [78] SGD как стохастический процесс.
- [79] Вариационный вывод в нейросетях.
Novelty: полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления and удаления слоев.
Authors: Бахтеев Олег, В. В. Стрижов

Task 6 (1)

Name: Предсказание графовой структуры нейросетевой модели.
Task: Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
Data: Выборки MNIST, CIFAR-10
Basic algorithm: случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
References::
- [80] doubly-recurrent нейросети.
- [81] Схожий подход с использованием обучения с подкреплением.
Authors: Бахтеев Олег, В. В. Стрижов

Task 7 (1)

Name: Style Change Detection.
Task: Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
Data: PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)

PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html) PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)

References::

1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf) 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf) 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf) 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)

Basic algorithm: решение, описанное в [3, 4].
Solution: предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
Novelty: предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
Authors: Рита Кузнецова (consultant), В. В. Стрижов

Task 8 (1)

Name: Получение оценок правдоподобия с использованием автокодировщиков
Task: предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
Data: предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
References::

1. Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
2. Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
3. Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)

Basic algorithm:
Solution: в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
Novelty: получение оценок правдоподобия данных and правдоподобия модели, порождение текстов с помощью полученных оценок.
Authors: Рита Кузнецова (consultant).

Task 9 (1)

Name: Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей.
Task: Multilabel classification using convolutional neural networks (CNN) on graphs.

Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты and химические элементы атомов, длины связей and величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов and типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, and типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, and было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN. Необходимо предсказать типы вершин and рёбер молекулярных графов :

- тип атома (тип вершины графа, около 150 классов),
- гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
- тип связи (вспомогательный признак, тип ребра, 5 классов).

Тип атома (вершины графа) основан на информации о его гибридизации and свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.

Data: Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты and химический элемент. Дополнительно посчитаны длины связей, величины углов and двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл and является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.

Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.

References::
Basic algorithm: Предсказание гибридизаций and порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
Solution: Предлагаемое решение задачи and способы проведения исследования.

Способы представления and визуализации данных and проведения анализа ошибок, анализа качества алгоритма. На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа. Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) and сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.

Novelty: Предложенные молекулярные графы обладают 3D структурой and внутренней иерархией, что делает их идеальным объектом применения CNN.
Authors: Sergei Grudinin, Maria Kadukova, В. В. Стрижов.

Task 10 (1)

Name: Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [85]
Task:

С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)

Data:
- Данные для бинарной классификации.

Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.

- Данные для регрессии.

Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.

References::
- SVM [86]
- Ridge Regression [87]
- [88] (секция 1)
Basic algorithm: [89]

В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.

Solution: Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.

Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.

Novelty:' В первую очередь, интерес представляет объединение задач классификации and регрессии.

Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.

Авторы Sergei Grudinin, Maria Kadukova, В. В. Стрижов.

2017

Author	Topic	Link	Consultant	Reviewer	Report	Letters
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>
Алексеев Василий	Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций	code data paper slides video	Виктор Булатов	Захаренков Антон	BMF	AILSB+RC+V+TDHW
Аникеев Дмитрий	Локальная аппроксимация временных рядов для построения прогностических метамоделей	code paper slides	Strizhov V.V.	Смердов Антон	BMF	AILS>B0R0C0V0T0D0H0W0
Гасанов Эльнур	Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме	code paper slides	Анастасия Мотренко	Ковалев Дмитрий	BMF	AILSBRCVTDH0W0
Захаренков Антон	Massively multitask deep learning for drug discovery	code paper slides video	Мария Попова	Алексеев Василий	BMF	AILSBRCVT>D>H0W0
Ковалев Дмитрий	Unsupervised representation for molecules	code paper slides	Мария Попова	Гасанов Эльнур	BMF	AILSBRCVT>D>H0W0
Новицкий Василий	Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов	paper code slides	Александр Катруца		B - F	AILS>B0R0C0V0T0D0H0W0
Селезнева Мария	Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента	paper code slides video	Ирина Ефимова	Шолохов Алексей	BMF	A+IL+SBRCVTDHW
Смердов Антон	Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза	paper code slides video	Oleg Bakhteev	Дмитрий Аникеев	BMF	AIL+SB+RC>V+M-T>D0H0W0
Уваров Никита	Оптимальный алгоритм для восстановления динамических моделей	paper slides code video	Yuri Maksimov		BMF	AILS0B0R0C0V0T0D0H0W0
Усманова Карина	Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices)	paper slides code video	Михаил Карасиков	Иннокентий Шибаев	BMF	AILSBRC+VT+EDH>W
Шибаев Иннокентий	Convex relaxations for multiple structure alignment (synchronization problem for SO(3))	paper slides code video	Михаил Карасиков	Карина Усманова	BMF	AILS-BRCVT>D>H>W
Шолохов Алексей	Помехоустойчивость методов информационного анализа ЭКГ-сигналов	paper code slides video	Влада Бунакова	Селезнева Мария	BMF	AILSBRCVTDHW

Академ или новые

Author	Topic	Link	Consultant	Report	Letters
Кульков Александр	Адаптивные релаксации NP трудных задач через машинное обучение	paper	Yuri Maksimov	академ	A>I>L>B0R0C0V0T0D0H0W0
Калошин Павел	Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.	paper code data	Anton Khritankov	- MF	AIL-SBRC-VT+D>H>W0
Малиновский Григорий	Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга	paper code	Alexander Aduenko	академ B - -	AILS-B>R>C>V>T0D0H0W0
Плетнев Никита	Детектирование внутреннего плагиата	paper	Рита Кузнецова	академ - - -	A-I-L-S>B0R0C0V0T0D0H0W0
Гревцев Александр	Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN	paper	Каринэ Абгарян
Зайцев Никита	Автоматическая классификация научных статей по кристаллографии	paper readme	Евгений Гаврилов
Дилигул Александр	Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным and результатам квантово-механических расчетов	paper	Каринэ Абгарян
Дарья Фокина	Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов		Алексей Романов		AILSB0R0C0V0T0D0H0W0

Task 1

Name: Классификация видов деятельности человека по измерениям фитнес-браслетов.
Task: По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
Data: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
References::
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Isachenko R.V., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [URL]
- Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
Basic algorithm: Basic algorithm описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
Solution: Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
Novelty:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
Authors: Strizhov V.V., М.П. Кузнецов, П.В. Левдик.

Task 2

Name: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
Task: В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки and является избыточным. Требуется предложить метод снижения размерности признакового пространства.
Data: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
References::
- Макарчук Г.И., Zadayanchuk A.I. Strizhov V.V. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
Basic algorithm: PLS

Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.

Solution: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
Novelty: Предложен новый метод восстановления движений на основе электрокортикограмм.
Authors: Strizhov V.V., А.П. Мотренко

Task 3

Name: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
Task: Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
Data: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
References:: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.

Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905. Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623

Basic algorithm: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
Solution: Вычисление гессианов (C++ код у Сергея), изучение and запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
Novelty: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
Authors: Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.

Task 4

Name: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
Task: Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то Basic algorithm, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
Data: Структуры белков в PDB формате в различных состояниях and системах координат.
References::
- Multiple structural alignment:
  1. Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
  2. Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
  3. Diamond,R. (1992) Protein Sci., 1, 1279-1287.
  4. May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
- Synchronisation problem:
  1. O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
  2. L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
  3. Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
  4. Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
  5. Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
- Spectral relaxation for SO(2)
  1. A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
- Spectral relaxation for SO(3)
  1. M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
  2. A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
Basic algorithm: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions

Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569

Solution: Два варианта постановки оптимизационных задач (через матрицы поворота and через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом and релаксациями (spectral relaxation, SDP).
Novelty: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
Authors: Грудинин Сергей, consultant: Карасиков Михаил.

Task 5

Name: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
Task: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
Data: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями and соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
References::
- Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [URL]
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
Basic algorithm: [Карасиков 2016]
Solution: См. описание задачи.
Novelty: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
Authors: Strizhov V.V.

Task 6

Name: Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
Task: Задана выборка пар предложений с метками <<похожие>> and <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
Data: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) and PPDB (набор коротких сегментов, не всегда корректная разметка)
References::
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
- [3] Optimal Brain Damage
Basic algorithm: В качестве базового алгоритма могут выступать:
1. Решение без прореживания
2. Решение, описанное в [3]
3. Otimal Brain Damage
Solution: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
Novelty: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
Authors: Oleg Bakhteev, consultant

Task 7

Name: Детектирование внутреннего плагиата
Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
Data: Предлагается рассмотреть корпус PAN-2011, PAN-2016
References::
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм кластеризации авторов
- [3] Statistical Language Models Based on Neural Networks
- [4] Methods for intrinsic plagiarism detection and author diarization
Basic algorithm: В качестве базового алгоритма может выступать решение, описанное в [4].
Solution: Предлагается рассмотреть метод, описанный в [2] and строить стилевую функцию, основываясь на выходах нейронной сети.
Novelty: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
Authors: Рита Кузнецова, consultant

Task 8

Name: Адаптивные релаксации NP трудных задач через машинное обучение
Task: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач and в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. and последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.

Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов and более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве and в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.

References:: Методы семплинга/машинного обучения:
1. Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
2. Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
3. Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.

Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.

Data: данные ieee + matpower содержащие описания энергетических сетей and режимов их функционирования.
Novelty: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
Автор: consultant: Yuri Maksimov, Expert: Михаил Чертков

Task 9

Name: Оптимальный алгоритм для восстановления динамических моделей.
Task: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы and получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение and являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа and параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения and имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
Data: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
References::
1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
3. Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
4. Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
5. Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
Basic algorithm: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
Novelty: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков

Task 10

Name: Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
Data: Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
References:: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
Basic algorithm: Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
Solution: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
Novelty: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
Authors: А.А. Адуенко, Strizhov V.V..

Task 11

Name: Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
Task: Решается Task прогнозирования биомедицинских сигналов and сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так and независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
Data: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
References:: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
Basic algorithm: PLS, алгоритм квадратичной оптимизации для выбора признаков.
Solution: построить матрицу плана с субоптимальным набором объектов and признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
Novelty: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
Authors: А.М. Катруца, Strizhov V.V..

Task 12

Name: Massively multitask deep learning for drug discovery
Task: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
Data: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
References:: https://arxiv.org/pdf/1502.02072
Basic algorithm: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
Solution: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу and предсказывает её биологическую активность против всех протеинов в выборке.
Novelty: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
Authors: Expert -- Александр Исаев, consultant -- Мария Попова

Task 13

Name: Unsupervised representation for molecules
Task: Разработать unsupervised метод для репрезентации молекул
Data: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
References:: https://www.cs.toronto.edu/~hinton/science.pdf
Basic algorithm: в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
Solution: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
Novelty: построение end-to-end модели для получения информативных признаков
Authors: Expert -- Александр Исаев, consultant -- Мария Попова

Task 14

Name: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
Task: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически and хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана and Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости and когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
Data: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
References::
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
2. N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013.
3. D.Newman et al. Automatic evaluation of topic coherence, 2010
4. D.Mimno et al. Optimizing semantic coherence in topic models, 2011
5. http://palmetto.aksw.org/palmetto-webapp/
Basic algorithm: Стандартные методы оценивания интерпретируемости and когерентности тем в тематических моделях.
Solution: Новый метод измерения интерпретируемости and когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости and когерентности, аналогичные [D.Newman, 2010].
Novelty: внутритекстовые меры интерпретируемости and когерентности ранее не предлагались.
Authors: К.В.Воронцов. consultants: Виктор Булатов, Анна Потапенко, Артём Попов.

Task 15

Name: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
Task: Реализовать and сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
Data: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
References::
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
2. Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение and анализ данных, 2016. T. 2. № 2.
Basic algorithm: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
Solution: Построить тематическую модель с модальностями источников and выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
Novelty: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
Authors: К.В.Воронцов. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.

Task 16

Name: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
Task: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность and поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC and MAP ранжирования диагнозов.
Data: Выборка электрокардиограмм с известными диагнозами.
References::
1. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика and информация», 2008. - 116с
2. Технология информационного анализа электрокардиосигналов.
Basic algorithm: Методы классификации .
Solution: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC and MAP (ранжирования диагнозов).
Novelty: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
Authors: К.В.Воронцов. consultants: Влада Целых.

Task Vorontsov +

Title: Dynamic hierarchical thematic model of the news flow.
Task: Develop an algorithm for classifying topics in news flows into new and ongoing ones. Apply the obtained criteria for creating new topics at all levels of the topic model hierarchy when adding the next piece of data to the text collection (for example, all news for one day).
Data: Collection of news in Russian. A subsample of news classified into two classes: new and ongoing topics.
Literature:
1. Vorontsov K.V. Review of probabilistic thematic models, 2017.
2. Chirkova N. A, Vorontsov K. V. Additive regularization of multimodal hierarchical topic models // Machine Learning and Data Analysis , 2016. T. 2. No. 2.
Basic Algorithm: An algorithm for constructing a thematic hierarchy in BigARTM, implemented by Nadezhda Chirkova. Known Topic Detection & Tracking algorithms.
Solution: Using BigARTM, selecting regularizers and their parameters, using the topic selection regularizer. Building an algorithm for classifying topics into new and ongoing.
Novelty: Additive regularization of topic models has not been applied to this problem before.
Authors: KV Vorontsov. Consultants: Alexander Romanenko, Artyom Popov.

Task Antiplagiarism +

Name: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
Task: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
Data: PAN
References::
1. Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
Basic algorithm: метод шинглов с построением обратного индекса.
Solution: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) and последующий поиск ближайших объектов в многомерном метрическом пространстве.
Novelty: новый подход к решению задачи.
Authors: Алексей Романов (consultant)

Additional tasks

Task Vorontsov +

Name: Тематическое моделирование отрасли экономики по транзакционным данным банка.
Task: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений and найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
Data: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
References::
1. Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
Basic algorithm: Стандартные методы неотрицательных матричных разложений.
Solution: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
Novelty: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
Authors: К.В.Воронцов. consultants: Виктор Сафронов, Роза Айсина.

Task scoring +

Name: Порождение and выбор признаков при построении модели кредитного скоринга.
Task: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
Data: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
References:: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
Basic algorithm: Алгоритм построения скоринговой модели, рекомендуемый SAS.
Solution: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
Novelty: Предложена функция ошибки, при использовании который порождение and выбор признаков, а также оптимизация параметров модели выполняются совместно.
Authors: Т.В. Вознесенская, Strizhov V.V..

Task Popova +

Name: Representation of molecules in 3D
Task: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной and трансляционной инвариантности.
Data: Миллионы молекул, заданные 3D координатами
References:: https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
Basic algorithm: low rank matrix/tensor factorization
Solution: Молекулы имеют различное число атомов, and поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
Novelty: существующие алгоритмы зависят от числа атомов в молекуле
Authors: Expert -- Александр Исаев, consultant -- Мария Попова

Task Maksimov +

Name: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY and Гейзенберга).
Task: Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- and трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
Data: Симулированные конфигурации блочных спиновых моделей.
References::
1. Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
2. Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
3. Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
Basic algorithm: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
Novelty: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
Автор: consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков

Task Khritankova (Transfer Learning)

Name: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
Task:
1. Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, and который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
2. Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
Data: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
References::Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.

Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).

Basic algorithm: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
Solution: Взять Basic algorithm, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда and применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) and предложить доработку для повышения устойчивости (robustness).
Novelty: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
Authors: Хританков

Task INRIA-МТФИ +

Name: Оценка энергии связывания белка and маленьких молекул.
Task: Моделирование связывания белка and маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка and лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, and несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
Data: Около 10000 комплексов: для каждого из них есть 1 нативная поза and 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением and использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
References:: PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
Basic algorithm: Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
Solution: Необходимо свести использованную ранее задачу SVM к задаче регрессии and решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так and несколько других тестовых сетов с аналогичными Taskми, но другими данными.
Novelty: Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.

Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения and оптимизации интерес представляет объединение задач классификации and регрессии.

Добавление Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) and несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но and вычислительная сложность предсказания.
Authors: Sergei Grudinin, Maria Kadukova

Task Strizhov and Kulunchakov +

Name: Creation of delay-operators for multiscale forecasting by means of symbolic regression
Task: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
Data: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
References:: to be handed by V.V.Strijov
Basic algorithm: to be handed by V.V.Strijov
Solution: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
Novelty: to be handed by V.V.Strijov
Authors: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov

2016

Author	Topic	Link	Consultant	Reviewer	Report	Letters	Grade	Magazine
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSWH>	10	ИИП
Баяндина Анастасия	Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях	paper slides video	Анна Потапенко	Олег Городницкий	BF	AILSB++RCVTDEWHS	10
Белозерова Анастасия	Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов	code paper slides video	Влада Целых	Малыгин Виталий	BF	AILSB+RC+VTD>E0WH>S	10
Владимирова Мария	Бэггинг нейронных сетей в задаче предсказания биологической активности клеточных рецепторов	code paper slides vido	Мария Попова	Володин Сергей	BMF	AILSBRCVTD>E>WHS	10
Володин Сергей	Вероятностный подход для задачи предсказания биологической активности ядерных рецепторов	code paper slides video, itis	Мария Попова	Мария Владимирова	BMF	AILSBRCVTDEWHS	10
Городницкий Олег	Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям	code paper slides, itis	Михаил Трофимов	Анастасия Баяндина	M	A++I++L++S+B+R+C++VTDE+WH	10
Иванычев Сергей	Синергия алгоритмов классификации (SVM Multimodelling)	code paper slides	Alexander Aduenko		BM	A+I+L++S+BRCVTDEW+H	10
Ковалева Валерия	Регулярная структура редких макромолекулярных кластеров	code paper slides video, itis	Ольга Вальба, Yuri Maksimov	Дмитрий Федоряка	BM	A+IL+SBRCVTD0E0WH	10
Макарчук Глеб	Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян	code, paper slides video	Андрей Задаянчук		BF	AI+L+S+BRС>V>T+D>E0WH>S	10
Малыгин Виталий	Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков в задаче медицинской диагностики методом В. М. Успенского	code, paper, slides	Шаура Ишкина	Белозёрова Анастасия	B	AILSBRCVTDEWH	10
Молибог Игорь	Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата	paper, doc, slides, itis	Анастасия Мотренко	Сафин Камиль	BMF	AILSBRCVTDEWHS	10
Погодин Роман	Определение положения белков по электронной карте	code, paper, slides video, itis	Александр Катруца	Андрей Рязанов	BMF	AILSBRСVTDEWHS	10
Рязанов Андрей	Восстановление первичной структуры белка по геометрии его главной цепи	folder paper slides video, itis	Михаил Карасиков	Роман Погодин	BMF	AIL+SBRC++VTD+EWHS	10
Сафин Камиль	Определение заимствований в тексте без указания источника	code, paper slides video	Михаил Кузнецов	Молибог Игорь	BMF	AIL+SBRC>V>T>D>E0WHS	10
Федоряка Дмитрий	Смеси моделей векторной авторегрессии в задаче прогнозирования временных рядов	code, slides, paper	Radoslav Neichev	Ковалева Валерия	BM	AILSBRCV-T>D0E0WH>	10
Цветкова Ольга	Построение скоринговых моделей в системе SAS	code, paper slides	Раиса Джамтырова	Чигринский Виктор	BF	A+I+L+S+B+R+C+V0T0D0E0WH>S	10
Чигринский Виктор	Аппроксимация границ радужки глаза	code paper slides video	Юрий Ефимов		B	AI+L+SBRCV+TDEHFS	10

Task 1

Data: Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
References:: существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют and boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
Basic algorithm: Описан в постановке задачи
Solution: модификация базового алгоритма, или просто сам Basic algorithm. Главное - сравнить с другими методами and сделать выводы, в частности о связи наличия улучшения в качестве and разнообразия множеств опорных объектов, построенных разными SVM ами.
Novelty: известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
consultant: Alexander Aduenko

Task 2

Name: Темпоральная тематическая модель коллекции пресс-релизов.
Task: Разработка методов анализа тематической структуры большой текстовой коллекции and её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости and полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности and событийности.
Data: Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
References::
1. Дойков Н.В. Адаптивная регуляризация вероятностных тематических моделей. ВКР бакалавра, ВМК МГУ. 2015.
Basic algorithm: Классический LDA Д.Блэя c post-hoc анализом времени.
Solution: Реализация аддитивно регуляризованной тематической модели с помощью библиотеки BigARTM. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости and полноты.
Novelty: Критерии устойчивости and полноты тематических моделей являются новыми.
consultant: Никита Дойков, автор задачи К.В.Воронцов.

Task 3

Name: Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов.
Task: Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания and построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе and удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически and по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
Data: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
References:: выдадим :)
Basic algorithm: Линейный классификатор.
Solution: Методы линейной регрессии, линейной классификации, отбора признаков.
Novelty: Task согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
consultant: Влада Целых, автор задачи К.В.Воронцов.

Task 4

Name: Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов and определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под BigARTM, расширить вычислительные эксперименты, улучшить качество классификации.
Data: Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
References:: выдадим :)
Basic algorithm: Модели классификации В.Целых, тематическая модель С.Цыгановой.
Solution: Тематическая модель, реализованная с помощью библиотеки BigARTM.
Novelty: Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
consultant: Светлана Цыганова, автор задачи К.В.Воронцов.

Task 5

Name: Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
Task: Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, and т.д.). Тематические модели дают интерпретируемые векторные представления слов and документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства and свободной от недостатков обеих моделей.
Data: Коллекции социальных сетей ЖЖ and ВК.
References:: выдадим :)
Basic algorithm: Тематические модели, ранее построенные на этих данных.
Solution: Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке BigARTM.
Novelty: Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей and модели word2vec.
consultant: Анна Потапенко, по техническим вопросам Мурат Апишев, автор задачи К.В.Воронцов.

Task 7

Name: определение положения белков по электронной карте
Task: неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы and вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей and вектором.
Data: экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
Basic algorithm: методы квадратичного программирования с различными релаксациями
Solution: минимизация суммарной энергии белкового комплекса
Novelty: применение методов квадратичного программирования and исследование их точности в Taskх восстановления электронных карт
consultant: Александр Катруца, автор задачи: Sergei Grudinin.
Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX

Task 8

Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
Data: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
References::
- Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Oleg BakhteevЮ., Popova M.S., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
Basic algorithm: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
Solution: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
Novelty: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
consultant: Oleg Bakhteev

Task 9

Name: восстановление первичной структуры белка по геометрии его главной цепи
Task: на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
Data: на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
References:: статьи по методам решения задач квадратичного программирования and различным релаксациям
Basic algorithm: методы квадратичного программирования с различными релаксациями
Solution: минимизация суммарной энергии белка
Novelty: применение методов квадратичного программирования and исследование их точности
consultant: Михаил Карасиков, автор задачи: Sergei Grudinin.
Желательные навыки: понимание and интерес к методам оптимизации, работа с пакетом CVX

Task 10

Name: Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
Task: В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
Data: описание 8500+ протеинов and метки для 12 рецепторов
References:: будет отправлена studentу
Basic algorithm: multi-task lasso регрессия из библиотеки python scikit-learn
Solution: обобщение линейной регрересси на случай multi-task в вероятностной интерпретации
Novelty: Multi-task learning подход является новаторским в области drug design
consultant: Мария Попова
Желательные навыки: понимание and интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python

Task 11

Name: Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
Task: В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой and предсказывать взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
Data: описание 8500+ протеинов and метки для 12 рецепторов
References:: будет отправлена studentу
Basic algorithm: двухслойная нейронная сеть
Solution: Композиция базовых классификаторов бэггинг
Novelty: Такой подход является новаторским в области drug design
consultant: Мария Попова

Task 12

Name: Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
Task: Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры and избежать поломки или минимизировать потери.
Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
References:: Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
- Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [90]
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[91]
- Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
Basic algorithm: Бустинг, алгоритм Adaboost.
Solution: Использовать для построения проноза смесь нескольких линейных моделей вместо одной сложной.
Novelty: Доработано пространство параметров для смеси моделей в векторной авторегрессии.
consultant: Radoslav Neichev

Task 13

Name: Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
References:: Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
- Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[92]
Basic algorithm: метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
Solution: Применить метод Белсли для обнаружения коррелирующих признаков.
Novelty: Метод Белсли применяется для векторной авторегрессии.
consultant: Radoslav Neichev

Task 14

Name: Порождение признаков в задаче прогнозирования.
Task: Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
Data: Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
References:: Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
- М.П. Кузнецов, Strizhov V.V., М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[93]
Basic algorithm: Непараметрические порождающие функициии.
Solution: Применить к признакам квазилинейные and нелинейные преобразования зависящие от параметра.
Novelty: Предложен новый набор признаков для решения авторегрессионных задач.
consultant: Roman Isachenko

Task 15

Name: Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
Task: Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
Data: Многомерные временные ряды с показаниями ECOG and данные о движении обезьян [94]
References:: Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
- Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[95]
Basic algorithm: Вейвлет-преобразование (англ. Wavelet transform)
Solution: Выделение признаков из ECoG различными методами.
Novelty: Анализ оптимальности Вейвлет-преобразования в Taskх обработки ECoG сигналов
consultant: Задаянчук Андрей

Task 16

Name: Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
Task: Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию and параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [96]
Data: модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
References::
- "ACCAMS: Additive Co-Clustering to Approximate Matrices Succinctly" (Beutel, Amr Ahmed, Smola)
- "Non-linear Matrix Factorization with Gaussian Processes" (Neil D. Lawrence)
- "Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
Basic algorithm: Низкоранговое приближение
Solution: and параметры, and параметризацию искать из данных.
Novelty: Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
consultant: Михаил Трофимов
Желательные навыки: python

Task 17

Name: Построение скоринговых моделей в системе SAS (либо MATLAB).
Task: Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
Data: Кредитная Story/анкеты потенциальных заемщиков [97], [98].
References::
- Хосмер, Лемешов. Логистическая регрессия (англ.)
- Siddiqi. Constructing scorecards
- Материалы по построению скоринговых карт
Basic algorithm: Логистическая регрессия
Solution: Смесь моделей
Novelty: Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так and мультимоделирование.
consultant: Раиса Джамтырова
Желательные навыки: SAS

Task 18

Name: Аппроксимация границ радужки глаза.
Task: По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
Data: Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)

[99], [100].

References::
- К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
- Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
Basic algorithm: Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
Solution: См. Iris_circle_problem.pdf
Novelty: Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
consultant: Юрий Ефимов (автор Стрижов, Expert Матвеев)

Task 19

Name: Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
Task: Технология информационного анализа электрокардиосигналов по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие and более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
Data: Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
References::
- Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика and информатика, 2008. – 116 с.
- Воронцов К. В. Теория надёжности обучения по прецедентам. Курс лекций ВМК МГУ and МФТИ. 2011.
- Ишкина Ш. Х. Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
- MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
Basic algorithm: линейный наивный байесовский классификатор с отбором признаков.
Solution: Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
Novelty: Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков and улучшать качество классификации.
consultant: Ишкина Шаура, Кулунчаков Андрей (MVR Composer), автор задачи: К.В.Воронцов

Task 20

Name: Модель порождения объектов в задаче прогнозирования временных рядов
Task: Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
Data: Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
References::
- Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
- Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
- Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
- Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [101]
Basic algorithm: Различные эвристики
Постановка задачи: Формулировка and подробное описание задачи приведено по ссылке [102]
Novelty: рассмотрение модели порождения данных в подобной задаче
consultant: Гончаров Алексей

Task 21

Name: Алгоритм прогнозирования структуры локально-оптимальных моделей
Task: Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
Data: Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
References::
- А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [103]
- Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [104]
Basic algorithm: Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
Solution: Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
consultant: Кулунчаков Андрей

Task 22

Name: Определение заимствований в тексте без указания источника
Task: Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
Data: Коллекция конкурса PAN-2011.
References::
1. Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
Basic algorithm, решение: На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов and символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм and сравнить его с базовым методом.
consultant: Михаил Кузнецов

Task 23

Name: Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
Task: Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных and возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
Data: Коллекция конкурса PAN-2011.
References::
1. Problem_statement_dim_reduce.pdf‎
2. Laurens van der Maaten. Visualizing Data using t-SNE Journal of Machine Learning Research, 9 (2008) 2579-2605.
3. Julian Brooke and Graeme Hirst. Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features, 2012.
Базовой алгоритм, решение: См. [1]
consultant: Мотренко Анастасия

Task 26

Name: Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
Task: Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии and регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
Data: Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
References::
1. Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
2. Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
3. Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
4. Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
5. Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
Basic algorithm: Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
Solution: Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, and поправки к предобусловливателю.
Novelty: Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения and быстродействие полученного алгоритма.
consultant: Владимир Анатольевич Гаранжа (ВЦ РАН).

Task 27

Name: Кросс-язычный тематический поиск научных публикаций.
Task: Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке and выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
Data: Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
References:: выдадим.
Basic algorithm: Тематическая модель, построенная по объединённой коллекции англоязычного arXiv and двуязычной англо-русской Википедии.
Solution: Построение регуляризованной тематической модели средствами библиотеки BigARTM. Применение стандартных средств построения инвертированных индексов.
Novelty: Такого сервиса в русскоязычном интернете пока нет.
consultant: Марина Суворова.

Task 28

Name: Поиск резонансных частот в растворах полимеров.
Task: Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
Data: Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
References:: Nazarov L. I. et al. A statistical model of intra-chromosome contact maps //Soft matter. – 2015. – Т. 11. – №. 5. – С. 1019-1025.
Basic algorithm: Монте-Карло.
Novelty: В настоящее известен алгоритм оценка спектральной плотности линейных цепочек, вопрос с оценкой спектральной плотности ансамблей деревьев открытый.
consultant: Ольга Вальба, Yuri Maksimov, Автор задачи: Нечаев Сергей.

YEAR

Author	Topic	Link	Consultant	Reviewer	Report	Letters	Grade	Magazine
Гончаров Алексей (пример)	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук Андрей	BMF	AILSBRCVTDSW	10	ИИП
Ахтямов Павел	Отбор мультикоррелирующих признаков в задаче векторной авторегрессии	code, paper, slides	Radoslav Neichev	Медведева Анна	BF	AI+LSB++R+CVTDEH	10
Батаев Владислав	Тематическая модель классификации для диагностики заболеваний по электрокардиограмме	code, paper	Светлана Цыганова		B	AIL-S++B>R>C0V0T0D0E0W0H>	>26.05 (7)
Иванов Илья	Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения	code, paper, slides	Oleg Bakhteev		BF	A+ILS+B+R++C+VT+DEW0H	10
Медведева Анна	Модель порождения объектов в задаче прогнозирования временных рядов	code paper slides	Гончаров Алексей	Ахтямов Павел	BF	AILS-BRCVTD0EWS	10
Персиянов Дмитрий	Темпоральная тематическая модель коллекции пресс-релизов	code paper slides	Никита Дойков		BF	A+I+L+S++B+R+C+V+T0DEW0H	10
Семененко Денис	Алгоритм прогнозирования структуры локально-оптимальных моделей	code paper	Кулунчаков Андрей		B	AI+L+SB0R0C0V0T0D0E0W0H0
Софиенко Александр	Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов	code, paper	Влада Целых		B	A-I-L-S-C0V0T0D0E0W0H>	>26.05
Яронская Любовь	Sparse Regularized Regression on Protein Complex Data	code paper slides	Александр Катруца			A-I-L-SB-R-CVT--D-EW0H>	>26.05
Аксенов Сергей	Кросс-язычный тематический поиск научных публикаций.	code paper slides	Марина Суворова			AILS0B0R0C0V0T0D0E0W0H>	>26.05 (7)
Хисматуллин Тимур	Анализ and классификация интерфейса комплекса ДНК-белок	code paper slides	Владимир Гаранжа		F	AILSBRCVT>H>	>26.05 (7)

Task 6

Name: Sparse Regularized Regression on Protein Complex Data
Task: найти лучшую модель регрессии на данных связывания белковых комплексов
Data: признаковое описание белковых комплексов and константы связывания для них
References:: статьи по регрессии and сравнению методов на схожих данных
Basic algorithm: регуляризованная линейная регрессия (Lasso, Ridge, ..), SVR, kernel methods, etc.
Solution: сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели and оптимизация параметров
Novelty: получение лучшей модели регрессии для данных связывания белковых комплексов
consultant: Александр Катруца, автор задачи: Sergei Grudinin.
Желательные навыки: готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)

Task 8

Name: Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
Task: Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
Data: Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
References::
- Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
- Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
- Oleg BakhteevЮ., Popova M.S., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
- LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
- Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
Basic algorithm: Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
Solution: Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
Novelty: Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
consultant: Oleg Bakhteev

Task 25

Name: Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
Task: Технология информационного анализа электрокардиосигналов по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме and на качество классификации.
Data: электрокардиограммы в формате KDM.
References:: выдадим :)
Basic algorithm: Линейный классификатор.
Solution: Прямое and обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
Novelty: Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
consultant: Виктор Сафронов (Научный центр им. В.И.Кулакова)

2015

Author	Topic	Link	Consultant	Reviewer	DZ-1	DZ-2 (Problem number)	Letters	Sum	Grade
Бернштейн Юлия	Методы определения характеристик фибринолиза по последовательности изображений крови in vitro	Матвеев И. А.	Соломатин	1	3 (8)	AILSBRCVTDE	11	10
Бочкарев Артем	Структурное обучение при порождении моделей	[105] (no code), paper, slides	Варфоломеева Анна, Бахтеев Олег	Исаченко	2	2 (7)	A+I++LS+BRCVT+DS	9.25	10	Гончаров Алексей	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук	1.5	1 (4)	AILSBRCVTDSW	12	10
Двинских Дарина	Повышение качества прогнозирования с использованием групп товаров	code, paper, slides	Каневский Д. Ю.	Смирнов	0.5	3 (7)	AILSBRCVTDEHS	14	10
Ефимов Юрий	Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов	code, paper, slides	Матвеев И. А.	Нейчев			AILSBRCVTDEW	12	10
Жариков Илья	Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.	code, paper, slides	Ишкина Шаура	Бочкарев	3.5	3 (5)	AIL+SBRCVTDEHSW	14.25	10
Задаянчук Андрей	Выбор оптимальной модели классификации физической активности	code, paper, slides	Мария Попова	Гончаров	2	0 (17)	AI-LSB+RCVTD	10	10
Златов Александр	Построение иерархической модели крупной конференции	code, paper, slides	Арсентий Кузьмин	Двинских	1.5	3 (14)	AI+L+SBRC++V+TDESW	14.25	10
Исаченко Роман	Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов	code, paper, slides	Катруца Александр	Жариков	3.5	3 (14)	A-I+L+S-BR+CVTDEHSW	14.25	10
Нейчев Радослав	Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов	code, paper, slides	Катруца Александр	Ефимов	1	3 (9)	AI-L-SBRCVTDEHSW	13.5	10
Подкопаев Александр	Прогнозирование четвертичных структур белков	code, paper, slides	Ю. В. Максимов	Решетова	3.5	3 (11)	AILS+B+RCVTDEHS	13.5	10
Решетова Дарья	Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения	code, paper, slides	Максимов Юрий	Камзолов	2.5	3 (10)	AIL++SB+RCVT++DEHS-	14	10
Смирнов Евгений	Тематическая модель интересов постоянных пользователей мобильного приложения	code, paper, slides	Виктор Сафронов	Златов	1	1 (4)	AILSBRCVTWDE	11.25	10
Соломатин Иван	Определение области затенения радужки классификатором локальных текстурных признаков	code, paper, slides	Матвеев И. А.	Бернштейн		3 (9)	AILSBRCVTDE	11	10
Черных Владимир	Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности	code, paper, slides	Стенина Мария	Шишковец	3.5	3 (4)	A+I+LSBRCVT+DE++H++	13.75	10
Шишковец Светлана	Регуляризация линейного наивного байесовского классификатора.	code, paper, slides	Михаил Усков, Константин Воронцов	Черных	3.5	2 (9)	A+I+L+SBR+CV+TD+E+H+S	15	10
Камзолов Дмитрий	Новые алгоритмы для задачи ранжирования веб-страниц	—	Александр Гасников, Yuri Maksimov	Подкопаев			AILSB+RCVT+DEHS--	13	8
Сухарева Анжелика	Классификация научных текстов по отраслям знаний	code, paper, slides	Сергей Царьков		0.5		AILSBRCVTDEH		9

Task 1

Name: Повышение качества прогнозирования спроса с использованием групп товаров
Task:

Дано:

1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

Data:
1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
References:
1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
consultant: Каневский Д.Ю.

Task 2

Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
References:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [106] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
consultant: Oleg Bakhteev.

Task 3

Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
Data: Синтетические данные and тесты.
References::
- Зайцев А.А., Strizhov V.V., Tokmakova A.A. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
Basic algorithm: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Solution:
Novelty: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
consultant: Alexander Aduenko.

Task 4

Name: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
Task: постановка задачи из [107] формула (32)
Data: временные ряды с ценами на электроэнергию.
References::
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
1. [108] - исследование влияния цен в одной стране на цену в другой and как это учесть при прогнозировании.
2. [109] - обзор терминов and процессов, всплывающих в прогнозировании HPFC + мотивация
3. [110] - тоже про прогнозирование цен, но тут про спотовые цены
Basic algorithm:
1. LAD-Lasso estimation из [111]
2. Статья Сандуляну про модификацию Add-Del: [112].
Solution: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
Novelty: сравнение базвого and предложенного методов, анализ свойств предложенного метода.
consultant: Александр Катруца.

Task 5

Name: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
Task: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики and [113]. Требуется разработать алгоритм поиска координат отрезка and угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза and примерах, где данный процесс отсутствует.
Data: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
References:
- Описание прикладной задачи and техническое задание: по запросу.
Basic algorithm: Преобразование Хафа [114], обсуждается.
consultant: И.А. Матвеев

Task 6

Name: Прогнозирование четвертичных структур белков: нивелирование
Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку and предложить алгоритм решения. Suppose we have $N$ proteins in an assembly, such that each protein $i$ can be located in one of $P$ positions $x_{p}^{i}$ . $N$ is ~ 10, $P$ ~ 100. To each two vectors $x_{i}^{p}$ and $x_{j}^{q}$ , we can assign an energy function $q_{0}$ , which is the overlap integral in the simplest approximation. Each protein position also has an associated score $b_{0}$ . Thus, the optimal packing problem can be formulated as $\begin{align} x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\ \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\ && x_{i}^{k}\geq0\;\forall i,k \end{align}$

Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
Замечания по коду: Замечания по программной реализации
Basic algorithm: Хочется попробовать выпуклые релаксации.
Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
consultant: Ю.В. Максимов

Task 7

Name: Метрическое обучение and снижение размерности пространства в Taskх классификации временных рядов
Task: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
Data: временные ряды цен на электроэнергию
References::
1. [115] - базовая статья
2. [116] - отличный обзор методов Metric Learning
3. [117] - ещё обзор
Basic algorithm: алгоритм Франка-Вольфа (условного градиентного спуска)
Solution: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
Novelty: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
consultant: Александр Катруца

Task 8

Name: Структурное обучение при порождении моделей
Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Data: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [118]
References:
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Basic algorithm: Парантапа, BM25 - модели для сравнения.
Solution: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Novelty: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* consultant: Анна Варфоломеева, Oleg Bakhteev

Task 9

Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
References:
1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
2. Технология информационного анализа электрокардиосигналов
3. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
consultant: Ишкина Шаура

Task 10

Name: Simplification of the IR models structure
Task: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
Data: TREC collections.
References:
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
- Problem statement
Basic algorithm: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
Solution: The optimal functions for the linear combination can be found by the greedy algorithm.
Novelty: A new ranking function of simple structure competitive with traditional ones.
consultant: Mikhail Kuznetsov.

Task 11

Name: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
Task: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее and др.
Data: Данные о грузовых железнодорожных перевозках (РЖД)
References::
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
- Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
Basic algorithm: ARMA, Hist.
Solution: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд and сезонность.
Novelty: Разработан and обоснован метод определения выполнения условия локальной стационарности временного ряда.
consultant: Стенина Мария

Task 12

Name: Обучение метрик в Taskх полного and частичного обучения
Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
References: Список литературы and описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
consultant: Ю.В. Максимов

Task 13

Name: Построение иерархической тематической модели крупной конференции
Task: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:

Классификация тезисов новой конференции.
Прогнозирование изменений структуры конференции.

Data: Тезисы and экспертные модели конференций EURO 2010, 2012, 2013.
References:: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
Basic algorithm:
Solution: Для решения подзадач

предлагается объединить экспертные модели конференций прошлых лет в одну, and для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
исследовать изменения в структуре конференций из года в год and определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Experts создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.

Novelty: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
consultant: Арсентий Кузьмин

Task 14

Name: Регуляризация линейного наивного байесовского классификатора.
Task: Построение линейного классификатора является одной из классических and самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, and сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном and том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
Data: Один из трёх наборов данных, по выбору: классификация текстов на научные and ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных and здоровых.
References::
1. Larsen (2005) Generalized Naive Bayes Classifiers.
2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
5. + спросить у К.В.Воронцова.
Basic algorithm: любые готовые реализации LNB and SVM. Плюс наивный отбор признаков для LNB.
Solution: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые and зависимости Hold-out AUC от номера итерации.
Novelty: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
consultant: Михаил Усков. Гиперconsultant: К.В.Воронцов.

Task 15

Name: Тематическая модель интересов постоянных пользователей мобильного приложения.
Task: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
Data: Для каждого пользователя имеются списки добавленных and откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
References::
1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
2. + попросить у К.В.Воронцова
Basic algorithm: Алгоритм случайного отбора слов.
Solution: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
Novelty: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками and дизлайками.
consultant: Виктор Сафронов. Гиперconsultant: К.В.Воронцов.

2015

Author	Topic	Link	Consultant	Reviewer	DZ-1	DZ-2 (Problem number)	Letters	Sum	Grade
Бернштейн Юлия	Методы определения характеристик фибринолиза по последовательности изображений крови in vitro	Матвеев И. А.	Соломатин	1	3 (8)	AILSBRCVTDE	11	10
Бочкарев Артем	Структурное обучение при порождении моделей	[119] (no code), paper, slides	Варфоломеева Анна, Бахтеев Олег	Исаченко	2	2 (7)	A+I++LS+BRCVT+DS	9.25	10
Гончаров Алексей	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук	1.5	1 (4)	AILSBRCVTDSW	12	10
Двинских Дарина	Повышение качества прогнозирования с использованием групп товаров	code, paper, slides	Каневский Д. Ю.	Смирнов	0.5	3 (7)	AILSBRCVTDEHS	14	10
Ефимов Юрий	Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов	code, paper, slides	Матвеев И. А.	Нейчев			AILSBRCVTDEW	12	10
Жариков Илья	Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.	code, paper, slides	Ишкина Шаура	Бочкарев	3.5	3 (5)	AIL+SBRCVTDEHSW	14.25	10
Задаянчук Андрей	Выбор оптимальной модели классификации физической активности	code, paper, slides	Мария Попова	Гончаров	2	0 (17)	AI-LSB+RCVTD	10	10
Златов Александр	Построение иерархической модели крупной конференции	code, paper, slides	Арсентий Кузьмин	Двинских	1.5	3 (14)	AI+L+SBRC++V+TDESW	14.25	10
Исаченко Роман	Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов	code, paper, slides	Катруца Александр	Жариков	3.5	3 (14)	A-I+L+S-BR+CVTDEHSW	14.25	10
Нейчев Радослав	Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов	code, paper, slides	Катруца Александр	Ефимов	1	3 (9)	AI-L-SBRCVTDEHSW	13.5	10
Подкопаев Александр	Прогнозирование четвертичных структур белков	code, paper, slides	Ю. В. Максимов	Решетова	3.5	3 (11)	AILS+B+RCVTDEHS	13.5	10
Решетова Дарья	Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения	code, paper, slides	Максимов Юрий	Камзолов	2.5	3 (10)	AIL++SB+RCVT++DEHS-	14	10
Смирнов Евгений	Тематическая модель интересов постоянных пользователей мобильного приложения	code, paper, slides	Виктор Сафронов	Златов	1	1 (4)	AILSBRCVTWDE	11.25	10
Соломатин Иван	Определение области затенения радужки классификатором локальных текстурных признаков	code, paper, slides	Матвеев И. А.	Бернштейн		3 (9)	AILSBRCVTDE	11	10
Черных Владимир	Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности	code, paper, slides	Стенина Мария	Шишковец	3.5	3 (4)	A+I+LSBRCVT+DE++H++	13.75	10
Шишковец Светлана	Регуляризация линейного наивного байесовского классификатора.	code, paper, slides	Михаил Усков, Константин Воронцов	Черных	3.5	2 (9)	A+I+L+SBR+CV+TD+E+H+S	15	10
Камзолов Дмитрий	Новые алгоритмы для задачи ранжирования веб-страниц	—	Александр Гасников, Yuri Maksimov	Подкопаев			AILSB+RCVT+DEHS--	13	8
Сухарева Анжелика	Классификация научных текстов по отраслям знаний	code, paper, slides	Сергей Царьков		0.5		AILSBRCVTDEH		9

Task 1

Name: Повышение качества прогнозирования спроса с использованием групп товаров
Task:

Дано:

1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Data:
1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
References:
1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
Basic algorithm: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
Solution: Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
Novelty: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
consultant: Каневский Д.Ю.

Task 2

Name: Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
Task: Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
Data: таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
References:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [120] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Basic algorithm: Сравнений с базовым алгоритмом проводить не предполагается
Solution: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Novelty: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
consultant: Oleg Bakhteev.

Task 3

Name: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Task: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
Data: Синтетические данные and тесты.
References::
- Зайцев А.А., Strizhov V.V., Tokmakova A.A. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
Basic algorithm: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Solution:
Novelty: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
consultant: Alexander Aduenko.

Task 6

Name: Прогнозирование четвертичных структур белков: нивелирование
Task: Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку and предложить алгоритм решения.

Suppose we have $N$ proteins in an assembly, such that each protein $i$ can be located in one of $P$ positions $x_{p}^{i}$ . $N$ is ~ 10, $P$ ~ 100. To each two vectors $x_{i}^{p}$ and $x_{j}^{q}$ , we can assign an energy function $q_{0}$ , which is the overlap integral in the simplest approximation. Each protein position also has an associated score $b_{0}$ . Thus, the optimal packing problem can be formulated as

$\begin{align} x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\ \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\ && x_{i}^{k}\geq0\;\forall i,k \end{align}$

Data: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
References: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
Замечания по коду: Замечания по программной реализации
Basic algorithm: Хочется попробовать выпуклые релаксации.
Novelty: Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
consultant: Ю.В. Максимов

Task 8

Name: Структурное обучение при порождении моделей
Task: Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Data: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [121]
References:
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Basic algorithm: Парантапа, BM25 - модели для сравнения.
Solution: Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Novelty: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* consultant: Анна Варфоломеева, Oleg Bakhteev

Task 9

Name: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
Task: Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
Data: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
References:
1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
2. Технология информационного анализа электрокардиосигналов
3. Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
Basic algorithm: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
Solution: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
Novelty: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
consultant: Ишкина Шаура

Task 12

Name: Обучение метрик в Taskх полного and частичного обучения
Task: состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Data: Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных здесь
References: Список литературы and описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Basic algorithm: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
consultant: Ю.В. Максимов

Plans for next year:

Expand the matlab test and give it along with the trial programming as the first task.

2014

Author	Topic	Link	Consultant	DZ-1	Letters	Sum	Grade
Газизуллина Римма	Прогнозирование объемов железнодорожных грузоперевозок по парам веток	[122], pdf	Стенина Мария	$\frac{15}{15}+\frac{10}{16}$	[MF]TAI+L+SBR+CV+T>DEH(J)	16	10
Гринчук Алексей	Выбор оптимальных структур прогностических моделей методами структурного обучения	[123], pdf	Варфоломеева Анна	$\frac{7}{15}+\frac{2}{16}$	[F]TA+I+LSBR+СV+T+D+E(F)	14,5	9
Гущин Александр	Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов	[124], pdf	Кузнецов Михаил	$\frac{5}{15}+\frac{2}{16}$	[F]TAI+L+SBRCVTDEHS(F)	15,5	9
Ефимова Ирина	Дифференциальная диагностика заболеваний по электрокардиограмме	[125], pdf	Целых Влада	$\frac{15}{15}+\frac{12}{16}$	[MF]T+A+I+L+SB++R+CV+TDE+H(J ed)	17,25	10
Жуков Андрей	Построение рейтингов вузов: панельный анализ and оценка устойчивости	[126], pdf	Кузнецов Михаил	$\frac{8}{15}+0$	[F]TAIL+SBRCVTDEHS(F)	15,25	9
Игнатов Андрей	Обучение многообразий для прогнозирования наборов квазипериодических временных рядов	[127], pdf	Ивкин Никита	$0+\frac{7}{16}$	[MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed)	18	10
Карасиков Михаил	Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач	[128], pdf	Ю.В. Максимов	$0+0$	[MF]TAI+L+SBRC+V+TDESH(J)	15	10
Кулунчаков Андрей	Обнаружение изоморфных структур существенно нелинейных прогностических моделей	[129], pdf	Сологуб Роман, Кузнецов Михаил	$\frac{10}{15}+\frac{14}{16}$	[F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed)	17	10
Липатова Анна	Обнаружение закономерностей в наборе временных рядов методами структурного обучения	[130], pdf	А. П. Мотренко	$\frac{8}{15}+\frac{6}{16}$	[MF]TA+I+LSBR-CVTDE (J when ed)	14,25	10
Макарова Анастасия	Использование нелинейного прогнозирования при поиске зависимостей между временными рядами	[131], pdf	Мотренко Анастасия	$0+0$	[F]TAI-LSB+R-CVTD>E>(F)	12,75	9
Плавин Александр	Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания	[132], pdf	Потапенко Анна	$\frac{13}{15}+\frac{14}{16}$	[F]T+A+I+L+S+BR++CVTD+>>(?)	14	10
Попова Мария	Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра	[133], pdf	Токмакова Александра	$\frac{11}{15}+\frac{6}{16}$	[MF]T+AI+L++SB++R+CV+TD+(JV ed)	15,25	10
Швец Михаил	Интерпретация мультимоделей при обработке социологических данных	[134], pdf	Адуенко Александр	$\frac{11}{15}+\frac{4}{16}$	[M+F]T+A+I+L+S+B+R+CVTD+E(F)	16,25	9
Шинкевич Михаил	Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели	[135], pdf	Дударенко Марина	$\frac{15}{15}+\frac{9}{16}$	[MF]T+AIL+S+BR+CV+T+D+E+H(J ed)	17	10

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

consultant: А.А. Потапенко

Task: Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Требуется проверить гипотезу, что, накладывая ограничения на матрицу $\Theta$ с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

References:

Описание задачи and предлагаемые пути решения
Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Basic algorithm: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Novelty: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, and при этом сложна как для понимания, так and для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость and простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

consultant: В.Р. Целых

Task: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого and второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Data: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

References:

Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика and информация», 2008. — 116 с.

Basic algorithm: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Novelty: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации and исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели

consultant: М.A. Дударенко

Task:Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Представление матрицы $\|p(w|d)\|_{W\times D}$ в виде произведения двух матриц меньшего размера ${\Phi=\|\phi_{wt}\|_{W\times T}}$ and ${\Theta=\|\theta_{dt}\|_{T\times D}}$ не единственно: $\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'$ для некоторых невырожденных $S$ . Требуется проверить гипотезу, что, накладывая ограничения на матрицы $\Phi, \Theta$ с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Data: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы $\Phi, \Theta,$ эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем and наличия фоновых тем.

References:

Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Novelty: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости and интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ and оценка устойчивости

consultant: М.П. Кузнецов

Task: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза and целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Data: Данные по ста ведущим мировым университетам за восемь лет.

References:

Strizhov V.V. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
Strizhov V.V. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
Черновик статьи POF по запросу.

Basic algorithm: Методика построения рейтинга RUR and один из избыточно устойчивых алгоритмов для ранговых шкал.

Novelty: Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора and оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

consultant: А.П. Мотренко

Task: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей and найти структуру, наиболее согласованную с мнением Expertа.

References:

R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.

Basic algorithm: моделирование структурных уравнений, SEM

Novelty: Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры and оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

consultant: А.П. Мотренко

Task: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда and исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных and выявлению связей между ними; описать границы применимости базового алгоритма and предложить новые варианты выявляемых структурных связей. Data: Синтетические данные, исторические биржевые цены на основные инструменты and данные по железнодорожным грузоперевозкам.

References:

Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.

Basic algorithm: convergent cross mapping

Novelty: Предложены различные структуры связей между временными рядами and метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов

consultant: М.П. Кузнецов

Task: Предложить and протестировать на тестовых and реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Data: Синтетические данные, данные по текстовым коллекциям LIG.

References:

Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Basic algorithm: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Novelty: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции and понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

consultant: Р.А. Сологуб, М.П. Кузнецов

Task: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма and для алгоритма поэлементного сравнения отображений.

Data: Данные по биржевым опционам: зависимость волатильности опциона от цены and времени его исполнения.

References:

Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
Strizhov V.V., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Basic algorithm: Алгоритм поэлементного сравнения отображений.

Novelty: Предложен быстрый алгоритм упрощения суперпозиций and поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций Expertно-заданных функций

consultant: Н.П. Ивкин

Task: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Data: данные с акселерометра мобильного телефона.

References:

Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
Хайкин С. Нейронные сети. Вильямс, 2006.

Basic algorithm: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Novelty: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.

Сравнение структурной and топологической сложности в Taskх классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

consultant: Н.П. Ивкин

Task: Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба and др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Data: данные с акселерометра мобильного телефона.

References:

Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Basic algorithm: нейронная сеть

Novelty: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

consultant: А.А. Адуенко

Task: Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей and градиентный бустинг.

Data: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

References:

смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
бустинг (лекция «Композиционные методы классификации and регрессии» Воронцова)

Basic algorithm: бустинг.

Novelty: Выявление and объяснение сходств and различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

consultant: А.А. Варфоломеева

Task: Предлагается решать задачу прогнозирования в два этапа: сначала по Storyм построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Data: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

References:

Jaakkola T. Scaled structured prediction.
URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
Найти все работы учеников TJ по данной тематике.
Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva

Basic algorithm: алгоритм метапрогнозирования, описанный в дипломной работе.

Novelty: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

consultant: А.А. Кузьмин

Task: Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Data: почасовые данные о ценах and объема потребления электроэнергии (вставить ссылку).

References:

Сандуляну Л.Н., Strizhov V.V. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
(взять из последней статьи Фадеева)

Basic algorithm: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Novelty: Предложен алгоритм совместной оценки параметров инвариантов and авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

consultant: М.М. Стенина (Медведникова)

Task: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Data: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

References:

Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.

Basic algorithm: гистограммное прогнозирование, описанное в статье.

Novelty: предлагается повысить качество прогноза путем разделения данных на меньшие части and прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

consultant: А.А. Токмакова

Task: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую and точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Data: Набор временных рядов измерений акселерометра.

References:

Прореживание нейронных семей на сайте Machinelearning.ru.
Хайкин С. Нейронные сети. Вильямс, 2006.

Basic algorithm: Optimal Brain Damage/Optimal Brain Surgery.

Novelty: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

consultant: А.С. Инякин, Н.П. Ивкин

Task: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Data: Библиотека квазипериодических and апериодических временных рядов

References:

Kuznetsov M.P., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 104-112.
Фадеев И.В., Ivkin N.P., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 92-103.

Basic algorithm: Использовать алгоритм SAS/SPSS.

Novelty: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

consultant: И.А. Матвеев

Task: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания and более того, использование данных с затенённых участков может порождать ложные признаки and снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Data: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны and другие размеры) and координаты центров and радиусы двух окружностей, аппроксимирующих зрачок and радужку.

References:

Описание задачи and предлагаемые пути решения
Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Basic algorithm: метод, использующий скользящее окно and текстурные признаки [2006: Xu, Zhang, Ma].

Novelty: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

consultant: Ю.В. Максимов

Task: Исследовать различные подходы к решению задач классификации с многими классами and сравнить их эффективность.

Data: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

References:

Описание задачи and предлагаемые пути решения
Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
Tax, Duin. Using two-class classiﬁers for multiclass classiﬁcation. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf
Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101
Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classiﬁers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Task	Кто делает	Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) and нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means and EM, and показать сравнение результатов кластеризации на графике.	Плавин	1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.	Записать свою фамилию тут.	2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями and нарисовать спрогнозированные and исходный ряды на одном графике.	Кулунчаков Андрей.	3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным $\alpha$ рядов and исходного ряда.	Авдюхов	4
Аппроксимация выборки замкнутой кривой [136]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно.	Газизуллина Римма	5
Дан временной ряд с пропусками, например [137]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки.	Игнатов Андрей	6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.	Попова Мария	7
Для различных видов зависимости $y = f(x) + \epsilon$ (линейная, квадратичная, логарифмическая) построить линейную регрессию and нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".	Ефимова Ирина	8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.	Шинкевич Михаил	9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки and их выпуклая оболочка – замкнутая ломаная линия.	Макарова Анастасия	10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.	Жуков Андрей	11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.	Карасиков Михаил	12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания.	Гринчук Алексей	13
Сгенерировать набор точек на плоскости. Выделить and визуализировать главные компоненты.	Липатова	14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм.	Швец Михаил	15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами.	Гущин Александр	16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).		17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.	Костюк	18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из $n$ перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?	Гиззатуллин Анвар	19
Показать разницу в скорости выполнения матричных операций and операций в цикле. Можно использовать в качестве примера Сингулярное разложение and другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).		20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).

2013

Моя первая публикация с кросс-рецензированием

Задачи

Task name	Author	Link	MAIPVTDCHSJ
Определение напечатанного изображения	Пушняков Алексей	[138]	MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации	Катруца Александр	[139]	MAIPVTDCHS
Векторная авторегрессия and управление макроэкономическими показателями	Кащеева Мария	[140]	MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов	Рыскина Мария	[141]	MAIPVTDCHS
Определение точной границы зрачка	Чинаев Николай	[142]	MAIPV.DCHS
Векторная авторегрессия and управление макроэкономическими показателями	Гринчук Олег	[143]	MAIPVTD.HS
Порождение нейронных сетей с Expertно-заданными функциями активации	Перекрестенко Дмитрий	[144]	MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей	Яшков Даниил	[145]	MAI.VTD.HS
Инвариантные преобразования в Taskх локального прогнозирования	Костин Александр	[146]	MAI.VT.HS
Алгоритм генетического программирования для решения задачи прогнозирования	Воронов Сергей	[147]	MAIPVTDC.S
Группировка номинальных переменных в Taskх банковского кредитного скоринга	Митяшов Андрей	[148]	MAIPVTDCHS
Моделирование процесса обучения and забывания при оценке качества производства	Неклюдов Кирилл	[149]	MAI..DC.S
Обзор алгоритмов упрощения алгебраических выражений	Шубин Андрей	[150]	MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии	Ибраимова Айжан	[151]	MAIP.TD..
Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов	Бырдин Александр	[152]	MAI.TD.S
Визуализация матрицы парных расстояний в тематическом моделировании	Вдовина Евгения	[153]	MAI.TDC.S
Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов	Антипова Наташа	[154]	MAIP.T..S

Task 2. Surname2013MassProduction (*eng)

Название. Порождение and оптимизация логических описаний при построении производственных линий.
Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм and протестировать его на синтетических данных.
Данные. Требуется создать.
References:. Нужен поиск (скорее всего немецких публикаций).
Предлагаемый алгоритм. Обсуждается.
Basic algorithm. Нет.

Task 3. Surname2013LearnForget (eng)

Название. Моделирование процесса обучения and забывания при оценке качества производства.
Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
Данные. Данные по скорости and качеству сборки бумажных самолетиков.
References:. Нужно искать.
Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
Basic algorithm. Регрессионная модель в прилагаемой статье.

Task 4. Surname2013GeneticProg

Название. Алгоритм генетического программирования для решения задачи прогнозирования.
Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП and с нейронными сетями.
Данные. Тестовый набор задач, взять на UCI или на Полигоне.
References:. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
Предлагаемый алгоритм. ГП.
Basic algorithm. ГП, нейронные сети.

Task 5. Surname2013Simplify

Название. Обзор алгоритмов упрощения алгебраических выражений.
Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
Данные. Собрать тестовую коллекцию выражений.
References:. Graph rewriting.
Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Task 6. Surname2013RedListExplanation

Название. Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным and "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
Данные. экспертные оценки краснокнижных видов.
References:. References: по алгоритмам метрической классификации.
Предлагаемый алгоритм. Метод или алгоритм, который сообщает Expertу почему (sic!) объект не попал в предполагаемый Expertом класс.

Task 7. Surname2013RedListClassification

Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
Проблема. Применить решающее дерево к Expertным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
Данные. экспертные оценки краснокнижных видов.
References:. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Task 11. Surname2013Invaraint4LocalForecast

Название. Инвариантные преобразования в Taskх локального прогнозирования.
Проблема. Совместить алгоритмы инвариантного преобразования времени and амплитуды прогнозируемых временных рядов.
Данные. Временные ряды измерения пульсовой волны.
References:. Найти, избежать тривиальных ссылок.

Task 8. Surname2013PlausibleExpert

Название. Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
Проблема. Исследование взаимосвязи биржевых цен на основные инструменты and железнодорожных грузоперевозок.
Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
References:. Публикации по CCM.
Предлагаемый алгоритм. Модификации ССМ.

Task 9. Surname2013DeepLearning

Название. Порождение нейронных сетей с Expertно-заданными функциями активации.
Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления and цен на электроэнергию.
Данные. Посуточные данные за три года.
References:. Deep Learning.
Предлагаемый алгоритм. Построение нейронной сети and оценка ее параметров.

Task 16. Surname2013ScoringSelection

Название. Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии.
Проблема. С помощью генетического алгоритма найти информативные объекты and признаки.
Данные. Данные по потребительским кредитам.
References:. -

Task 10. Surname2013ScoringFeatureSelection

Название. Группировка номинальных переменных в Taskх банковского кредитного скоринга.
Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
Данные. Исторические данные по кредитам наличностью.
References:. SAS, найти еще.

Task 15. Surname2013InverseVAR

Название. Векторная авторегрессия and управление макроэкономическими показателями.
Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
Данные. Макроэкономические показатели России за последние 16 лет.
References:. Работы С.А. Айвазяна.

Task 12. Surname2013DistanceVisualizing

Название. Визуализация матрицы парных расстояний в тематическом моделировании.
Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
Данные. Тезисы конференции EURO.
References:. Зиновьев на ML, References: по теме.
Предлагаемый алгоритм. PCA.
Basic algorithm. Алгоритм с минимизацией энергетического критерия.

Task 13. Surname2013RhoNets

Название. Сравнение быстрых алгоритмов кластеризации.
Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей and быстрый алгоритм $k$-средних.
Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
References:. $k$-средних, $\varepsilon$-сети.
Предлагаемый алгоритм. $\rho$-сети.
Basic algorithm. $k$-средних.

Task 17. Surname2013FeatureSelection

Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
Данные. Синтетические.
References:. Леонтьева/Стрижов, поискать современные обзоры.

Task 1. Surname2013Txt2Bib

Название. Разметка библиографических записей с помощью логических алгоритмов.
Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений and выбран адекватный алгоритм.
Данные. В MLAlgorithms.
References:. Работа А. Ивановой and все, что есть по теме за последние два года.
Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
Basic algorithm. Тупиковые покрытия.

Task 14. Surname2013FindTheFormula (Risky)

Название. Алгоритм поиска текстовых структур в документе.
Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
Данные. Синтетические, коллекция MLAlgorithms.
References:. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Task 18. Surname2013ScannedImage (Image)

Название. Определение типа бланка.
Проблема. Определить тип бланка по скану.
Данные. Набор изображений в TIF.

Task 19. Surname2013SpectrumImage (Image)

Название. Определение напечатанного изображения.
Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
Данные. Набор изображений в JPG, отнесенных в два класса.

Task	Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс and ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?	Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма?	Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.	Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p.	Шубин Андрей
Разобраться как работает web-соединение and regexp. Сделать поисковый запрос по теме and сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?	Воронов Сергей
Повернуть and увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.	Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица?	Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).	Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.	Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.	Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения.	Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет.	Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости and выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.	Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить and проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно.	Бырдин Александр
Показать разницу в скорости выполнения матричных операций and операций в цикле. Показать эффективность параллельных вычислений (parfor and другие).	Катруца Александр
Предложить варианты визуализации четырехмерных векторов and пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.	Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат.	Костин Александр

2012

Тематическое моделирование: публикация в журнале ВАК

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.

Список задач

Task name	Author	Link to work	Comments
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	[155]	Опубликовано
Иерархическая тематическая кластеризация тезисов and визуализация	Кузьмин Арсентий	[156]	Опубликовано
Совместный выбор объектов and признаков в Taskх многоклассовой классификации.	Адуенко Александр	[157]	Опубликовано
Построение иерархических тематических моделей	Цыганова Светлана	[158]	Опубликовано
Выбор признаков в Taskх структурной регрессии	Варфоломеева Анна	[159]	Принято
Статистические критерии однородности and согласия для сильно разреженных дискретных распределений	Целых Влада	[160]	Опубликовано
Построение логических правил при разметке текстов	Иванова Алина	[161]	Принято
Проверка адекватности тематической модели	Степан Лобастов	[162]	Редакция

1. 2012CoRegression

Name: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Data: Синтетические. ПРНД сотрудников. Таблица авторы-журналы and число статей выбранных авторов в журналах.
References: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Basic algorithm: Вычисленный IF журналов and h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов and журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

Name: Согласование ранговых Expertных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Data: Интернет-голосование за список книг, голосование без кооптации.
References: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов and оценка эффективной размерности пространства или другой алгоритм.
Basic algorithm: Медиана Кемени and другие алгоритмы.
Проблема: Требуется проиллюстрировать and изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

Name: Выбор признаков в Taskх структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
Data: библиографические записи из BibTeX collection on CS.
References: работы Jaakkola and его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия.
Basic algorithm: описан Валентином.
Требуется: сегментировать входной текст and поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

Name: Построение логических правил при разметке текстов
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
Data: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
References: работы Инякина, Чувилина, Кудинова.
Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
Basic algorithm: описан Валентином.
Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

Name: Ранговая кластеризация and алгоритмы динамического выравнивания.
Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
Data: Испорченные and некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
References: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Basic algorithm: k-Means and его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать and учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

Name: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
References: по кластеризации, and введению расстояний между текстами как мешками слов.
Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
Basic algorithm: k-Means
Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.

7. 2012ThematicHierarchy

Name: Построение иерархических тематических моделей.
Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Data: Тексты тезисов.
References: иерархические модели, topic modelling.
Ключевые слова: иерархическое тематическое моделирование.
Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
Basic algorithm: PLSA--LDA.
Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

Name: Визуализация иерархических тематических моделей.
Тизер: На материалах конференции EURO.
Data: Тексты тезисов конференции Евро-2012.
References: многомерное шкалирование, кластеризация.
Ключевые слова: визуализация графов.
Предлагаемый алгоритм:
Basic algorithm: --
Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной and фактический кластеризации.

9. 2012CovSelection

Name: Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Data: Яндекс – математика.
References: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Basic algorithm: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что and данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

Name: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Data: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
References: (Статья С. Царькова «Морфологические and статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические and статистические признаки.
Предлагаемый алгоритм:
Basic algorithm: C-Value and TF-IDF.
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

Name: Последовательное порождение and выбор признаков в задаче многоклассовой классификации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Data: синтетические, интернет-коллекция.
References: Стрижов, Рудой.
Ключевые слова: порождение признаков, поиск изоморфных моделей.
Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
Basic algorithm: решающие деревья.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

Name: Методы извлечения признаков из текстовой информации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Data: синтетические, интернет-коллекция.
References: Найти.
Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
Предлагаемый алгоритм.
Basic algorithm.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

2012SparceDistribution Статистические критерии однородности and согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

Name: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Data: Тексты тезисов конференции Евро-2012, 1862 тезиса.
References: по латентным моделям.
Ключевые слова: мягкая кластеризация, латентные модели.
Предлагаемый алгоритм: hHDP.
Basic algorithm: HDP.
Проблема: Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

References:

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов and редактора учтены) >> Опубликовано (вышел номер).

Task name	Author	Link to the journal	The original text of the work	Date of application	State
Выбор признаков and оптимизация метрики при кластеризации коллекции документов	Адуенко А.А., Кузьмин А.А., Strizhov V.V.	Известия ТулГу	[163]	12.10.2012	Опубликовано
Оценивание вероятностей появления строк в коллекции документов	Будников Е.А., Strizhov V.V.	Информационные технологии	[164]	24.09.2012	Опубликовано
Проверка адекватности тематических моделей коллекции документов	Кузьмин А.А., Strizhov V.V.	Программная инженерия	[165]	17.12.2012	Опубликовано
Алгоритм оптимального расположения названий коллекции документов	Адуенко А.А., Strizhov V.V.	Программная инженерия	[166]	13.11.2012	Опубликовано
Визуализация матрицы парных расстояний между документами	Адуенко А.А., Strizhov V.V.	Научно-технические ведомости С.-Пб.ПГУ	[167]	29.10.2012	Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации	Медведникова М.М., Strizhov V.V.	Известия ТулГу	[168]	15.11.2012	Опубликовано
Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов	Адуенко А.А., Strizhov V.V.	Инфокоммуникационные технологии	[169]	18.12.2012	Опубликовано
Алгоритм построения логических правил при разметке текстов	Иванова А.В., Адуенко А.А., Strizhov V.V.	Программная инженерия	[170]	24.01.2013	Принято
Построение иерархических тематических моделей коллекции документов	Цыганова С.В., Strizhov V.V.	Прикладная информатика	[171]	27.01.2013	Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения	Варфоломеева А.А., Strizhov V.V.	Научно-технические ведомости С.-Пб.ПГУ	[172]	27.01.2013	Отрецензировано
Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании	Целых В.Р., Воронцов К.В.	Машинное обучение and анализ данных	[173]	17.12.2012	Опубликовано
Проверка адекватности тематической модели	Степан Лобастов		[174]		Редакция

Список принятых к публикации работ

1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков and оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
5. Кузьмин А. А., Strizhov V.V. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
6. Медведникова М. М., Strizhov V.V. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Моя первая публикация с кросс-рецензированием

Список задач

Task name	Author	Reviewer	Link to work	Comments
CMARS: аппроксимация сплайнами	Влада Целых	Татьяна Шпакова	Celyh2012CMARS	[.]сaipvdstrj(10)
Алгоритмические основы построения банковских скоринговых карт	Alexander Aduenko	Алина Иванова	Aduenko2012economics	[.]сaipvdstrj(10)
Использование метода главных компонент при построении интегральных индикаторов	Мария Медведникова	Светлана Цыганова	Medvednikova2012PCA	[r]сaipvdstrj(10)
Многоуровневая классификация при обнаружении движения цен	Арсентий Кузьмин	Анна Варфоломеева	Kuzmin2012TimeRows	[r]сaipvdstjr(10)
Локальные методы прогнозирования с выбором инвариантного преобразования	Светлана Цыганова	Мария Медведникова	Tsyganova2012 LocalForecast	[r]сaipvdstjr(10)
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример)	Егор Клочков	Александр Шульга	Klochkov2012Goods4Cast	[r]сaipvdstj.(10)
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии (пример)	Степан Лобастов	Егор Клочков	Lobastov2012FOSelection	[r]сaipvdstrj(10)
Локальные методы прогнозирования с выбором метрики	Анна Варфоломеева	Арсентий Кузьмин	Varfolomeeva2012 LocForecastMetrics	[r]сaipvdstjr(10)
Полиномы Чебышева and прогнозирование временных рядов	Валерия Бочкарева	Степан Лобастов	Bochkareva2012TimeSeriesPrediction	[.]сaipvdst-r(9)
Кластеризация and составление словаря аминокислотных последовательностей	Татьяна Шпакова	Влада Целых	Shpakova2012Clustering	[.]сaipvdst.(9)
Векторная авторегрессия and управление макроэкономическими показателями	Александр Шульга		Shulga2012VAR	[.]сaipvds..(9)
Аппроксимация эмпирических функций распределения	Алина Иванова	Alexander Aduenko	Ivanova2012 ApproximateFunc	[r]сaipvd..(9)

Аннотации

Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии

Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [175] and кредитном скроллинге. В реальных условиях число признаков обычно велико, and важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.

Ключевые слова: logit model, feature selection, boosting.

Использование метода главных компонент при построении интегральных индикаторов

В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Ключевые слова: интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.

Аппроксимация эмпирических функций распределения

Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических Taskх обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.

Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.

Методы локального прогнозирования с выбором преобразования

Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.

Ключевые слова: локальное прогнозирование, преобразование

Черновой список задач

Кластеризация and составление словаря аминокислотных последовательностей
Oblivious decision trees: алгоритм Яндекс для системы Полигон
Сравнительный анализ регрессионных остатков в SVN-регрессии
Алгоритмы нахождения гауссовских смесей
Прогноз квазипериодических многомерных временных рядов непараметрическими методами
Многоуровневая классификация при обнаружении движения цен
CMARS: аппроксимация сплайнами
Полиномы Чебышева and метод прогонки при прогнозировании временных рядов
Сравнение методов ARMA and FLS при ретроспективном прогнозировании
Локальные методы прогнозирования с выбором метрики
Локальные методы прогнозирования с выбором инвариантного преобразования
Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
Векторная авторегрессия and управление макроэкономическими показателями
Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников

Ещё задачи

Анализ текста методами структурного обучения
Аппроксимация эмпирических функций распределения
Алгоритмические основы построения банковских скоринговых карт
Сингулярное разложение and поисковая машина
Сравнение алгоритмов многокритериальной оптимизации
Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
Уточнение Expertных оценок при анализе работы механизма устойчивого развития энергетики
Визуализация пространства параметров регрессионных моделей
Восстановление регрессии методом главных компонент
Оценка гиперпараметров путем сэмплирования
Прореживание существенно нелинейных моделей с помощью гиперпараметров
Фактор Оккама для параметрических моделей с известной областью определения параметров
Создание алгоритмов последовательной модификации моделей
Порождение and выбор моделей классификации

and еще задачи

Функция расстояния между формулами and поиск.
Поиск объектов (техническая работа).

+

Авторегрессия
Векторная авторегрессия
Экспоненциальное сглаживание
Локальные методы, поиск метрики
Локальные методы с инвариантами, метрика фиксирована
ARIMA
Многомерная гусеница, выбор длины гусеницы
Многомерная гусеница, выбор рядов
Прогнозирование с использованием DTW
Скользящее среднее, выбор ядер
Скользящее среднее с забыванием истории
Скользящее среднее временных рядов с периодической составляющей
Прогнозирование нейронными сетями
Анализ качества прогноза
Метаописание временных рядов
Логическое прогнозирование
SVN – регрессия
Дискретное прогнозирование, музыка.

Составить

Список типичных типографических ошибок
Список ошибок BibTeX

2011

Публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи	Работу выполняет	Рецензент	Ссылка на работу
Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых and коррелирующих признаков	Токмакова Александра	Мотренко Анастасия	Tokmakova2011HyperPar
Выбор моделей прогнозирования цен на электроэнергию	Леонтьева Любовь	Гребенников Евгений	Leonteva2011ElectricityConsumption
Многоклассовый прогноз вероятности наступления инфаркта and оценка необходимого объема выборки пациентов (пример)	Мотренко Анастасия	Токмакова Александра	Motrenko2011HAPrediction
Алгоритмы порождения существенно-нелинейных моделей	Георгий Рудой	Николай Балдин	Rudoy2012Generation
Событийное моделирование and прогноз финансовых временных рядов	Александр Романенко	Егор Будников	Romanenko2011Event
Обзор некоторых статистических моделей естественного языка	Егор Будников	Александр Романенко	Budnikov2011Statistical

Моя первая публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

См. также

Временной ряд (библиотека примеров)

Задачи

Название задачи	Работу выполняет	Работу рецензирует	Ссылка на работу	Комментарии
Использование теста Гренджера при прогнозировании временных рядов	Анастасия Мотренко	Любовь Леонтьева	Motrenko2011GrangerForc	Опубл. в JMLDA
Выбор функции активации при прогнозировании нейронными сетями	Георгий Рудой	Николай Балдин	Rudoy2011NNForecasting	Опубл. в JMLDA
Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)	Любовь Леонтьева	Михаил Бурмистров	Leonteva2011GaterpillarLearning	Опубл. в JMLDA
Прогнозирование функциями дискретного аргумента (пример)	Егор Будников	Александр Романенко	Budnikov2011DiscreteForecasting	Опубл. в JMLDA
Исследование сходимости при прогнозировании нейронными сетями с обратной связью	Николай Балдин	Георгий Рудой	Baldin2011FNNForecasting	Опубл. в JMLDA
Выравнивание временных рядов: прогнозирование с использованием DTW	Александр Романенко	Егор Будников	Romanenko2011DTWForecasting	Опубл. в JMLDA
Выделение периодической компоненты временного ряда (пример)	Александра Токмакова	Егор Будников	Tokmakova2011Periodic	Опубл. в JMLDA

Краткое описание задач

Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров

В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра and наложенного шума.

Task 2: Экспоненциальное сглаживание and прогноз

В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.

Task 3: Выделение периодической компоненты временного ряда (пример)

В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции and метода наименьших квадратов на зашумлённом модельном синусе and реальном временном ряде электрокардиограммы.

Task 4: Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда) (пример)

В работе описывается метод гусеницы and его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент and последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы and числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.

Task 5: Прогнозирование функциями дискретного аргумента (пример)

В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.

Task 7: Локальные методы прогнозирования,поиск метрики

Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.

Task 8: Локальные методы прогнозирования, поиск инвариантного преобразования

В проекте используются локальные методы прогнозирования временных рядов. В этих методах не находится представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).

Пусть имеется временной ряд, and стоит Task продолжить его. Предполагается, что такое продолжение определяется предысторией, т.е. в ряде нужно найти часть, которая после некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A and есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков временного ряда (подробнее об этом см. здесь). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.

Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)

Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной $\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$ . Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей and его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине and других сферах.

Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности and транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".

Task 10: Выбор функции активации при прогнозировании нейронными сетями

Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- and многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.

Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа and параметров функции активации.

Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью

Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего and предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана. Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое and от ширины скользящего окна. Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.

Task 13: Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)

Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки and сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся and периодических до шумовых), и, наконец, восстановление ряда.

Областью применения алгоритма являются задачи как метеорологии and геофизики, так and экономики and медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.

Task 14: Использование теста Гренджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений and явлений природного характера (например, землятрясений).

Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Task 15: Прогнозирование and аппроксимация сплайнами

Описание.

Task 16: ARIMA and GARCH при прогнозировании высоковолатильных рядов

Описание.

Task 17: Прогнозирование and SVN–регрессия

Описание.

Доклады and экзамен (возможны уточнения)

Доклад-1 6 апреля
Контрольная точка 12 мая
Экзамен 19 мая

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Strijov/Drafts»

Категория: Учебные курсы