|
|
Строка 1817: |
Строка 1817: |
| | | |
| |} | | |} |
- |
| |
- | === Task 5 ===
| |
- | * '''Name:''' Finding paraphrases.
| |
- | * '''Task:''' Paraphrases are different variations of the same and the same text, identical in meaning, but differing lexically and grammatically, for example: "Where did the car go" and "Which direction did the car go". The task of detecting paraphrases is to select clusters in a set of texts, such that each cluster contains only paraphrases of the same and the same sentence.
| |
- | The easiest way to extract paraphrases is to cluster texts, where each text is represented by a "bag of words".
| |
- | *. '''Data:''' There are open datasets of questions for testing and training on kaggle.com, there are open datasets for testing from semeval conferences.
| |
- | * '''References:'''
| |
- | *# Will be later
| |
- | * '''Basic algorithm:''' Use one of the document clustering algorithms to extract paraphrases, where each document is represented by a bag of words or tf-idf.
| |
- | * '''Solution:''' Use neural network architectures to search for paraphrases, use phrases extracted with parsers as features, use multilevel clustering.
| |
- | * '''Novelty:''' Lack of implementations for the Russian language that will use parsers for a similar task, all current solutions are quite "simple".
| |
- | * '''Authors:''' Artyom Popov.
| |
- |
| |
- | === Task 6 ===
| |
- | * '''Name:''' On conformational changes of proteins using collective motions in torsion angle space and L1 regularization.
| |
- | * '''Task:''' Torsion angles are the most natural degrees of freedom for describing motions of polymers, such as proteins. This is because bond lengths and bond angles are heavily constrained by covalent forces. Thus, multiple attempts have been done to describe protein dynamics in the torsion angle space. For example, one of us has developed an elastic network model (ENM) [1] in torsion angle space called Torsional Network Model (TNM) [2]. Functional conformational changes in proteins can be described in the Cartesian space using just a subset of collective coordinates [3], or even a sparse representation of these [4]. The latter requires a solution of a LASSO optimization problem [5]. The goal of the current project is to study if a sparse subset of collective coordinates in the torsion subspace can describe functional conformational changes in proteins. This will require a solution of a ridge regression problem with a L1 regularization constraint. The starting point will be the LASSO formulation.
| |
- | *. '''Data:''' Experimental conformations will be extracted from the Protein Docking Benchmark v5 (https://zlab.umassmed.edu/benchmark/) and a few others. The TNM model can be downloaded from https://ub.cbm.uam.es/tnm/tnm_soft_main.php
| |
- | * '''References:'''
| |
- | *# Tirion MM. (1996) Large Amplitude Elastic Motions in Proteins from a Single-Parameter, Atomic Anal- ysis. Phys Rev Lett. 77:1905–1908.
| |
- | *# Mendez R, Bastolla U. (2011) Torsional network model: normal modes in torsion angle space better correlate with conformation changes in proteins. Phys Rev Lett. 2010 104:228103.
| |
- | *# SwarmDock and the use of normal modes in protein-protein docking. IH Moal, PA Bates - International journal of molecular sciences, 2010
| |
- | *# Modeling protein conformational transition pathways using collective motions and the LASSO method. TW Hayes, IH Moal - Journal of chemical theory and computation, 2017
| |
- | *# https://en.wikipedia.org/wiki/Lasso_(statistics)
| |
- | *# E. Frezza, R. Lavery, Internal normal mode analysis (iNMA) applied to protein conformational flexibility, Journal of Chemical Theory and Computation 11 (2015) 5503–5512.
| |
- | * '''Basic algorithm:''' The starting point will be a combination of methods from references 2 and 4. It has to be a LASSO formulation with the direction vectors reconstructed from the internal coordinates. The quality will be computed based on the RMSD measure between the prediction and the solution on several benchmarks. Results will be presented with statistical plots (see examples in references 3-4.
| |
- | * '''Novelty:''' This is an important and open question in computational structural bioinformatics - how to efficiently represent transitions between protein structures. Not much has been done in the torsional angle subspace (internal coordinates)[6] and nearly nothing has been done using L1 regularization [4].
| |
- | * '''Authors:''' Ugo Bastolla on the torsional subspace (https://ub.cbm.uam.es/home/ugo.php), Sergei Grudinin on L1 minimization (https://team.inria.fr/nano-d/team-members/sergei-grudinin/)
| |
- |
| |
- | === Task 10 ===
| |
- | * '''Name:''' Comparison of neural network and continuous-morphological methods in the problem of text detection (Text Detection).
| |
- | * '''Task''': Automatically Detect Text in Natural Images.
| |
- | * '''Data:''' Synthetic generated data + prepared sample of photos + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
| |
- | * '''References:''': [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf COCO benchmark], [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf One of a state-of-the-art architecture]
| |
- | * '''Basic algorithm:''' [https://github.com/eragonruan/text-detection-ctpn code] + morphological methods, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
| |
- | * '''Solution:''' It is proposed to compare the performance of several state-of-the-art algorithms that need a large training set with morphological methods that require a small amount of data. It is proposed to determine the limits of applicability of certain methods.
| |
- | * '''Novelty:''' propose an algorithm based on the use of both neural network and morphological methods (solution of the word detection problem).
| |
- | * '''Authors:''' I. N. Zharikov.
| |
- | * '''Expert''': L. M. Mestetsky (morphological methods).
| |
- |
| |
- | ===Task 16 ===
| |
- | * '''Name:''' Estimate of the optimal sample size for research in medicine
| |
- | * '''Task''': In conditions of an insufficient number of expensive measurements, it is required to predict the optimal size of the replenished sample.
| |
- | * '''Data:''' Samples of measurements in medical diagnostics, in particular, a sample of immunological markers.
| |
- | * '''References:''':
| |
- | ** Motrenko A.P. Materials on algorithms for estimating the optimal sample size in the MLAlgorithms repository [http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Motrenko/doc/], [http://svn.code.sf.net/ p/mlalgorithms/code/Group874/Motrenko2014KL/].
| |
- | * '''Basic algorithm''': A series of empirical sample size estimation algorithms.
| |
- | * '''Solution:''' Investigation of the properties of the parameter space when replenishing the sample.
| |
- | * '''Novelty:''' A new methodology for sample size forecasting is proposed, justified in terms of classical and Bayesian statistics.
| |
- | * '''Authors:''' A.M. Katrutsa, Strizhov V.V., coordinator Tamaz Gadaev
| |
- |
| |
- | ===Task 19 ===
| |
- | * Name: Study of the dependence of the quality of recognition of ontological objects on the depth of hyponymy.
| |
- | * Task: It is necessary to investigate the dependence of the quality of recognition of ontological objects at different levels of concept hyponymy. The classic formulation of the problem of named entity recognition: https://en.wikipedia.org/wiki/Named-entity_recognition
| |
- | * Data: Hyponyms from https://wordnet.princeton.edu/ , texts from different domains presumably from WebOfScience.
| |
- | * References: Relevant articles for classical staging http://arxiv-sanity.com/search?q=named+entity+recognition
| |
- | * Basic algorithm: https://arxiv.org/pdf/1709.09686.pdf or its simplified version can be used as an algorithm, studies are performed using the DeepPavlov library.
| |
- | * Solution: It is necessary to collect a dataset of hyponymy (nesting of concepts) of objects using WordNet, to automatically mark up ontological objects of texts of various domains for several levels of generalization of concepts, to conduct a series of experiments to determine the quality of recognition of ontological objects for different levels of nesting.
| |
- | * Novelty: Similar studies have not been carried out, there are no ready-made datasets with a hierarchical markup of objects. Recognition of ontological objects at various levels of hyponymy can be used to produce additional features when solving various NLP (Natural language processing) tasks, as well as determining whether objects are a hyponym-hypernym pair.
| |
- | * Authors: Burtsev Mikhail Sergeevich (Expert), Baimurzina Dilyara Rimovna (consultant).
| |
- |
| |
- | === Task 20 ===
| |
- | * Name: Сравнение качества end-to-end обучаемых моделей в задаче ответа на вопросы в диалоге с учетом контекста
| |
- | * Task: Задан фрагмент текста and несколько последовательных вопросов. Ответы на первые n вопросов известны. Нужно сформировать ответ на n+1 вопрос. В качестве ответа нужно указать непрерывный промежуток в тексте заданного фрагмента текста (номера начального and конечного слов). При оценке качества ответа Task сводится к классификации символов фрагмента на класс 0 (не входит в ответ) and 1 (входит в ответ).
| |
- | * Data: Предоставляется размеченный датасет с фрагментами текста and наборами вопросов с ответами в диалоге
| |
- | * References: Статья Bi-directional Attention Flow for Machine Comprehension (BiDAF2017) описывает end-to-end модель ответов на вопросы по фрагменту без учета контекста диалога. Статья QuAC: Question Answering in Context (QuAC2018) описывает набор данных, содержит описание используемого базового алгоритма с учетом контекста диалога. Статьи с описанием других моделей вопрос-ответных систем (R-Net, DrQA)
| |
- | * Basic algorithm: Basic algorithm описан статьях and реализован (QuAC2018, BiDAF2017).
| |
- | * Solution: Предлагается изучить механизмы учета контекста (k-ctx, append, etc) and исследовать возможность их добавления в другие модели (DrQA, R-NET), либо предложить собственные для повышения качества по мере F1. Для изучения поведения модели используется визуализация внимания (attention visualization), обучаемых эмбеддингов, а также анализ ошибочных ответов. Предоставляется доступ к вычислительным ресурсам, используемые фреймворки: TensorFlow, PyTorch или Keras.
| |
- | * Novelty: Исследование проводится на новом датасете, для которого на данный момент имеется только Basic algorithm. Подтверждение повышения качества от применения механизмов учета контекста диалога в других моделях указывает на применимость предлагаемых подходов для решения более широкого круга задач.
| |
- | * Authors: [https://mipt.ru/education/chairs/parallelcomputing/persons/chritankov.php Антон Сергеевич Хританков]
| |
- |
| |
- | === Task 21 ===
| |
- | * '''Name:''' High order convex optimization methods
| |
- | * '''Task:''' High-order methods are effectively (up to n ~ 10^3 sometimes even up to n ~ 10^4) used for convex problems of not very large dimensions. Until recently, it was generally accepted that these are second-order methods (using the second derivatives of the function being optimized). However, at the beginning of 2018 Yu.E. Nesterov [1] proposed an efficient third-order method in the theory, which works according to almost optimal estimates. In the manual [3] in exercise 1.3, an example of a "bad" convex function proposed by Yu.E. Nesterov, on which I would like to compare the Nesterov method of the second and third order [1], the method from [2] of the second and third order and the usual fast gradient methods (of the first order). It is worth comparing both by the number of iterations and by the total running time.
| |
- | * '''References:'''
| |
- | # https://alfresco.uclouvain.be/alfresco/service/guest/streamDownload/workspace/SpacesStore/aabc2323-0bc1-40d4-9653-1c29971e7bd8/coredp2018_05web.pdf?guest=true
| |
- | # https://arxiv.org/pdf/1809.00382.pdf
| |
- | # https://arxiv.org/pdf/1711.00394.pdf
| |
- | * '''Author:''' Evgenia Alekseevna Vorontsova (Associate Professor of Far Eastern Federal University, Vladivostok), Alexander Vladimirovich Gasnikov
| |
- |
| |
- | === Task 22 ===
| |
- | * '''Name:''' Cutting plane methods for copositive optimization
| |
- | * '''Task''': Conic program over the copositive cone (copositive program) min <C,X> : <A_i,X> = b_i, X \in \Pi_i C^k_i, k_i <= 5 A linear function is minimized over the intersection of an affine subspace with a product of copositive cones of orders k_i <= 5. [[Media:Problems.pdf|Подробнее тут]]
| |
- | * '''Data:''' The algorithm will be tested on randomly generated instances
| |
- | * '''References:'''
| |
- | ** [1] Peter J. C. Dickinson, Mirjam Dür, Luuk Gijben, Roland Hildebrand. Scaling relationship between the copositive cone and Parrilo’s first level approximation. Optim. Lett. 7(8), 1669—1679, 2013.
| |
- | ** [2] Stefan Bundfuss, Mirjam Dür. Algorithmic copositivity detection by simplicial partition. Linear Alg. Appl. 428, 1511—1523, 2008.
| |
- | ** [3] Mirjam Dür. Copositive programming — a Survey. In Recent advances in Optimization and its Applications in Engineering, Springer, pp. 3-20, 2010.
| |
- | * '''Basic algorithm:''' The reference algorithm is described in [4] Stefan Bundfuss, Mirjam Dür. An Adaptive Linear Approximation Algorithm for Copositive Programs. SIAM J. Optim., 20(1), 30-53, 2009.
| |
- | * '''Solution:''' The copositive program will be solved by a cutting plane algorithm. The cutting plane (in the case of an infeasible iterate) will be constructed from the semidefinite representation of the diagonal 1 section of the cone proposed in [1]. The algorithm will be compared to a simplicial division method proposed in [2], [4]. General information about copositive programs and their applications in optimization can be found in [3] .
| |
- | * '''Novelty:''' The proposed algorithm for optimization over copositive cones up to order 5 uses an exact semi-definite representation. In contrast to all other algorithms existing today the generation of cutting planes is non-iterative.
| |
- | * '''Автор''': [http://www-ljk.imag.fr/membres/Roland.Hildebrand/ Roland Hildebrand]
| |
- |
| |
- | === Task 23 ===
| |
- | * '''Name:''' Fractal analysis and synthesis of optical images of sea waves
| |
- | * '''Task:''' A variety of physical processes and phenomena are studied with the help of images obtained remotely. An important task is to obtain adequate information about the processes and phenomena of interest by measuring certain image characteristics. Lines of equal brightness (isolines) on the images of many natural objects are fractal, that is, they are sets of points that cannot be represented by lines of finite length and occupy an intermediate position between lines and two-dimensional flat figures. Such sets are characterized by the fractal dimension D, which generalizes the classical concept of the dimension of a set and can take fractional values. For a solitary point on the image D=0, for a smooth curve D=1, for a flat figure D=2. The fractal isoline has the dimension 1<D<2. The algorithm for calculating D is given, for example, in [1]. The fractal dimension of the sea surface isolines can serve to estimate the spatial spectra of sea waves according to remote sensing data [1]. Task is as follows. It is necessary to conduct a numerical study of the relationship between the characteristics of the spatial spectra of sea waves and the fractal dimension of satellite images of the Earth in the solar glare region. For the study, the method of numerical synthesis of optical images of sea waves, described in [2], should be used. Numerical modeling should be done with different characteristics of sea waves, as well as with different positions of the Sun and spatial resolution of images.
| |
- | * '''References:'''
| |
- | *# Lupyan E. A., Murynin A. B. Possibilities of fractal analysis of optical images of the sea surface. // Preprint of the Space Research Institute of the Academy of Sciences of the USSR Pr.-1521, Moscow, 1989, 30 p.
| |
- | *# Murynin A. B. Reconstruction of the spatial spectra of the sea surface from optical images in a nonlinear model of the brightness field // Research of the Earth from Space, 1990. No. 6. P. 60-70.
| |
- | * '''Author:''' Ivan Alekseevich Matveev
| |
- |
| |
- | === Task 24 ===
| |
- | * '''Name''' Entropy maximization for various types of image transformations
| |
- | * '''Task:''' Pansharpening is an algorithm for upscaling multispectral images using a reference image. The task of pansharpening is formulated as follows: having a panchromatic image of the required resolution and a multispectral image of reduced resolution, it is required to restore the multispectral image in the spatial resolution of the panchromatic one. From empirical observations based on a large number of high-resolution images, it is known that the spatial variability of the reflected radiation intensity for objects of the same nature is much greater than the variability of their spectrum. In other words, one can observe that the spectrum of reflected radiation is homogeneous within the boundaries of one object, while even within one object the intensity of reflected radiation varies. In practice, good results can be achieved using a simplified approach, in which it is assumed that if the intensity of neighboring regions differ significantly, then these regions probably belong to different objects with different reflected spectra. This is the basis for the developed probabilistic algorithm for increasing the resolution of multispectral images using a reference image [1]
| |
- | * '''It is necessary''' to conduct a study on maximizing the entropy for various types of transformations on the image. Show that entropy can serve as an indicator of the loss of information contained in the image during transformations over it. Formulation of the inverse problem for image restoration: Condition 1: Correspondence of the intensity (at each point) of the restored image with the intensity of the panchromatic image. Condition 2: Correspondence of the low-frequency component of the reconstructed image with the original multispectral image. Condition 3: Homogeneity (similarity) of the spectrum within one object and the assumption of an abrupt change in the spectrum at the border of two homogeneous regions. Condition 4: Under the first three conditions, the local entropy of the reconstructed image must be maximized.
| |
- | * '''References:'''
| |
- | *# Gorohovsky K. Yu., Ignatiev V. Yu., Murynin A. B., Rakova K. O. Search for optimal parameters of a probabilistic algorithm for increasing the spatial resolution of multispectral satellite images // Izvestiya RAN. Theory and control systems, 2017, No. 6.
| |
- | * '''Author:''' Ivan Alekseevich Matveev
| |
- |
| |
- | === Task 25 ===
| |
- | * '''Name:''' Automatic detection and recognition of objects in images
| |
- | * '''Task:''' Automatic detection and recognition of objects in images and videos is one of the main tasks of computer vision. As a rule, these tasks are divided into several subtasks: preprocessing, extraction of the characteristic properties of the object image and classification. The pre-processing stage usually includes some operations on the image such as filtering, brightness equalization, geometric corrective transformations to facilitate robust feature extraction.
| |
- | The characteristic properties of an image of an object are understood as a set of features that approximately describe the object of interest. Features can be divided into two classes: local and integral. The advantage of local features is their versatility, invariance with respect to uneven changes in brightness and illumination, but they are not unique. Integral features that characterize the image of the object as a whole are not resistant to changes in the structure of the object and difficult lighting conditions. There is a combined approach - the use of local features as elements of an integral description, when the desired object is modeled by a set of areas, each of which is characterized by its own set of features - a local texture descriptor. The totality of such descriptors characterizes the object as a whole.
| |
- | Classification is understood as determining whether an object belongs to a particular class by analyzing the feature vector obtained at the previous stage, dividing the feature space into subdomains indicating the corresponding class. There are many approaches to classification: neural network, statistical (Bayesian, regression, Fisher, etc.), decision trees and forests, metric (nearest K-neighbors, Parzen windows, etc.) and nuclear (SVM, RBF, method of potential functions), compositional (AdaBoost). For the task of detecting an object in an image, membership in two classes is evaluated - the class of images containing the object, and the class of images that do not contain the object (background images).
| |
- | * [[Media:ThemesIS2018Video.pdf|References: and more details here]]
| |
- | * '''Author:''' Ivan Alekseevich Matveev
| |
- |
| |
- | === Task 29 ===
| |
- | * Name: Cross-Language Document Extractive Summarization with Neural Sequence Model.
| |
- | * Task: It is proposed to solve the transfer learning problem for the text reduction model by extractive summarization and to investigate the dependence of the quality of text reduction on the quality of training of the translation model. Having data for training the abbreviation model in English and a parallel English-Russian corpus of texts, build a model for abbreviating the text in Russian. The solution of the problem is evaluated on a small set of data for testing the model in Russian, the quality of the solution to the problem is determined by the ratio of the values of the ROUGE criteria in English and Russian sets.
| |
- | * Data: Data for training the model in English (SummaRuNNer2016), OPUS parallel corpus, data for verification in Russian.
| |
- | * References: The article (SummaRuNNer2016) describes the basic text reduction algorithm, the work Neural machine translation by jointly learning to align and translate.(NMT2016) describes the translation model. The idea of sharing models is presented in Cross-Language Document Summarization Based on Machine Translation Quality Prediction (CrossSum2010).
| |
- | * Basic algorithm: One idea of the basic algorithm is presented in (CrossSum2010), a translation model is implemented (OpenNMT), an implementation of a text reduction model is provided (SummaRuNNer2016).
| |
- | * Solution: It is suggested to explore the solution idea proposed in the article (CrossSum2010) and options for combining reduction and translation models. Basic models and dataset preprocessing implemented (OpenNMT), PyTorch and Tensorflow libraries. Analysis of text reduction errors is performed as described in (SummaRuNNer2016), analysis of the quality of model training by standard library tools, .
| |
- | * Novelty: For the base model, the applicability was investigated on a couple of datasets, confirming the possibility of transferring training to a dataset in another language and specifying the conditions for this transfer will expand the scope of the model and indicate the necessary new refinements of the model or data preprocessing.
| |
- | * Authors: Alexey Romanov (consultant), Anton Khritankov (Expert).
| |
- |
| |
- | === Task 30 ===
| |
- | * Name: Method for constructing an HG-LBP descriptor based on gradient histograms for pedestrian detection.
| |
- | * Task: It is proposed to develop a new descriptor that generalizes the LBP descriptor based on histograms of gradient modules, having HOG-LBP composition properties for the task of detecting pedestrians in an image. As an analysis of the quality of a new descriptor, it is proposed to use FAR/FRR detection error plots based on INRIA.
| |
- | * Data: INRIA pedestrian database: http://pascal.inrialpes.fr/data/human/
| |
- | * References:
| |
- | *# 1. T. Ojala and M. Pietikainen. Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol. 24. No. 7, July, 2002.
| |
- | *# 2. T. Bouwmans, C. Silva, C. Marghes, M. Zitouni, H. Bhaskar, C. Frelicot, "On the Role and the Importance of Features for Background Modeling and Foreground Detection", https:// arxiv.org/pdf/1611.09099v1.pdf
| |
- | *# 3. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
| |
- | *# 4. T. Ahonen, A. Hadid, M. Pietikainen Face Description with Local Binary Patterns: Application to Face Recognition \\ IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume:28 , Issue: 121.
| |
- | *# 5. http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
| |
- | *# 6. http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab2.
| |
- | *# 7. http://www.mathworks.com/help/vision/ref/extractlbpfeatures.html3.
| |
- | *# 8. http://www.codeproject.com/Articles/741559/Uniform-LBP-Features-and-Spatial-Histogram-Computa4.
| |
- | *# 9. http://www.cse.oulu.fi/CMV/Research
| |
- | * Basic algorithm: Xiaoyu Wang, Tony X. Han, Shuicheng Yan. An HOG-LBP Human Detector with Partial Occlusion Handling \\ ICCV 2009
| |
- | * Solution: One of the options for generalizing LBP can be to use instead of histograms of distribution of points by LBP code, histograms of distribution of modules of point gradients in a block by LBP code (HG-LBP). It is proposed to use the OpenCV library for the basis of experiments, in which the HOG and LBP algorithms are implemented. It is necessary to modify the source code of the LBP implementation and insert the calculation of the modules of the gradient and the accumulation of the corresponding histogram over the LBP. It is necessary to write a program for reading the INRIA base, learning the linear SVM method on the original and modified descriptors, collecting detection statistics and plotting FAR/FRR DET plots.
| |
- | * Novelty: The development of computationally simple methods for extracting the most informative features in recognition tasks is relevant in the field of creating embedded systems with low computing resources. Replacing the composition of descriptors with one that is more informative than each individually can simplify the solution of the problem. The use of gradient values in LPB descriptor histograms is new.
| |
- | * Authors: Gneushev Alexander Nikolaevich
| |
- |
| |
- | === Task 31 ===
| |
- | * Name: Using the HOG descriptor to train a neural network in a pedestrian detection task
| |
- | * Task: It is proposed to replace the linear SVM classifier in the classical HOG algorithm with a simple convolutional neural network of small depth, while the HOG descriptor should be represented by a three-dimensional tensor that preserves the spatial structure of local blocks. As an analysis of the quality of a new descriptor, it is proposed to use FAR/FRR detection error plots based on INRIA.
| |
- | * Data: INRIA pedestrian database: http://pascal.inrialpes.fr/data/human/
| |
- | * References:
| |
- | *# 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
| |
- | *# 3. Q. Zhu, S. Avidan, M.-C. Yeh, and K.-T. Cheng. Fast human detection using a cascade of histograms of oriented gradients. In CVPR, pages 1491-1498, 2006 O. Tuzel, F. Porikli, and P. Meer. Human detection via classification on riemannian manifolds. In CVPR, 2007
| |
- | *# 4. P. Dollar, C. Wojek, B. Schiele and P. Perona Pedestrian Detection: An Evaluation of the State of the Art / IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Vol 34. Issue 4, pp . 743-761
| |
- | *# 5. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009 http://www.xiaoyumu.com/s/PDF/Wang_HOG_LBP.pdf
| |
- | *# 6. https://en.wikipedia.org/wiki/Pedestrian_detection
| |
- | *# 7. HOG person detector tutorial https://chrisjmccormick.wordpress.com/2013/05/09/hog-person-detector-tutorial/
| |
- | *# 8. NavneetDalalThesis.pdf Navneet Dalal. Finding People in Images and Videos. PhD Thesis. Institut National Polytechnique de Grenoble / INRIA Rhone-Alpes, Grenoble, July 2006)
| |
- | *# 9. People Detection in OpenCV http://www.magicandlove.com/blog/2011/08/26/people-detection-in-opencv-again/
| |
- | *# 10. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
| |
- | *Basic algorithm:
| |
- | *# 1. N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.886-893
| |
- | *# 2. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
| |
- | * Solution: One of the options for generalizing the HOG algorithm can be to use another classifier instead of the linear SVM algorithm, for example, some kind of neural network. It is proposed to use the OpenCV library for the basis of experiments, which implements the HOG algorithm and the SVM classifier. It is necessary to analyze the source code of the HOG implementation, formalize the internal structure of the descriptor HOG vector in the form of a three-dimensional tensor — two spatial and one spectral dimensions. It is necessary to write a program for reading the INRIA base, learning the linear SVM method on HOG descriptors from it, collecting detection statistics and plotting FAR/FRR DET plots. Based on some neural network training system (for example, mxnet), it is necessary to assemble a shallow (no more than 2-3 convolutional layers) convolutional neural network of known architecture, train it on the basis of INRIA and on HOG tensor descriptors, build the corresponding FAR / FRR graphs.
| |
- | * Novelty: The development of computationally simple methods for extracting the most informative features in recognition tasks is relevant in the field of creating embedded systems with low computing resources. Using a small number of the most informative descriptors can reduce computational complexity compared to using a large composition of simple features, such as in a deep convolutional neural network. Typically, classifiers use the HOG descriptor as a vector as a whole, however, information about the local spatial structure and feature spectrum is lost. The novelty lies in the use of the block locality property in the HOG descriptor and the representation of the HOG as a 3D tensor. The use of this information makes it possible to achieve detection resistance to pedestrian overlap.
| |
- | * Authors: Gneushev Alexander Nikolaevich
| |
- |
| |
- | =YEAR=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- |
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Links
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | ! <tex>\Sigma=3+13</tex>
| |
- | !
| |
- | |-
| |
- | |[[Участник:Goncharovalex|Гончаров Алексей (пример)]]
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук Андрей
| |
- | |BMF
| |
- | |AILSBRCVTDSWH>
| |
- | |
| |
- | |
| |
- | |-
| |
- | | [[Участник:AstakhovAnton|Астахов Антон]]
| |
- | | Восстановление структуры прогностической модели по вероятностному представлению
| |
- | | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Astakhov2018RestorePrognosticStructure/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Astakhov2018RestorePrognosticStructure/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Astakhov2018RestorePrognosticStructure/doc/paper/Astakhov2018RestorePrognosticStructure.pdf paper]
| |
- | | [[Участник:Katrutsa|Александр Катруца]]
| |
- | | [[Участник:KislinskiVadim|Кислинский Вадим]]
| |
- | | BHF
| |
- | |A-I-L0S0B0R0C0V0T0 [A-I-L-S-B0R0C0V0T0E0D0W0S] + [AILSBRCBTEDWS]
| |
- | |2+4
| |
- | |
| |
- | |-
| |
- | | [[Участник:GavYur|Гаврилов Юрий]]
| |
- | | Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gavrilov2018CreditScoringMultimodels/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gavrilov2018CreditScoringMultimodels/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gavrilov2018CreditScoringMultimodels/doc/paper/Gavrilov574CreditScoringMultimodels.pdf paper]
| |
- | [https://youtu.be/ZOzprVyK8bc video]
| |
- | | [[Участник:Goncharovalex|А.В. Гончаров]]
| |
- | | [[Участник:Twelveth|Остроухов Петр]]
| |
- | | BF
| |
- | |A+IL-S0B-R0 [A+ILSBRC-VT0E0D0W0S] + (W)
| |
- | | 2+9+1
| |
- | |
| |
- | |-
| |
- | | [[Участник:Tamaz|Gadaev Tamaz]]
| |
- | |Оценка оптимального объема выборки
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gadaev2018OptimalSampleSIze/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gadaev2018OptimalSampleSIze/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gadaev2018OptimalSampleSIze/doc/paper/Gadaev2018OptimalSampleSize.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gadaev2018OptimalSampleSIze/slides/Gadaev2018OptimalSample.pdf slides]
| |
- | [https://youtu.be/N7UnR1cRTOI video]
| |
- | |[[Участник:Katrutsa|Александр Катруца]]
| |
- | | [[Участник:ShulginEgor|Шульгин Егор]]
| |
- | |BHF
| |
- | |A-IL>SB-R-C0V0T0 [AILSBR0CVT0E-D0W0S]
| |
- | | 2+9
| |
- | |
| |
- | |-
| |
- | | [[Участник:Egorgladin|Гладин Егор]]
| |
- | |Экономия заряда акселерометра на основе прогнозирования временных рядов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gladin2018AccelerometerChargeSaving/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gladin2018AccelerometerChargeSaving/code code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gladin2018AccelerometerChargeSaving/doc/paper/Gladin2018AccelerometerChargeSaving.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Gladin2018AccelerometerChargeSaving/doc/slides slides]
| |
- | |[[Участник:Mvladimirova|Мария Владимирова]]
| |
- | |[[Участник:KozlinskyEvg|Козлинский Евгений]]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/review_on_Gladin.docx review]
| |
- | |.F
| |
- | |AILS [A-I-L-SB0R0C000V0T0E0D0W0S]
| |
- | |1+4
| |
- | |
| |
- | |-
| |
- | | [[Участник:Andriygav|Грабовой Андрей]]
| |
- | |Автоматическое определение релевантности параметров нейросети.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Grabovoy2018OptimalBrainDamage/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Grabovoy2018OptimalBrainDamage/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Grabovoy2018OptimalBrainDamage/doc/paper/Grabovoy2018OptimalBrainDamage.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Grabovoy2018OptimalBrainDamage/doc/slides/Grabovoy2018OptimalBrainDamage.pdf slides]
| |
- | [https://www.youtube.com/watch?v=OnW3t5jk-r0&feature=youtu.be video]
| |
- | |[[Участник:Oleg Bakhteev| Oleg BakhteevЮ. ]]
| |
- | | [[Участник:Oleksandr Kulkov|Кульков Александр]]
| |
- | |BHMF
| |
- | | A+ILS+BRC+VTE>D> [AILSBRCVTEDWS] [<tex>\emptyset</tex>]
| |
- | |3+13
| |
- | |
| |
- | |-
| |
- | | [[Участник:Nurlanov_zh|Нурланов Жакшылык]]
| |
- | | Deep Learning for reliable detection of tandem repeats in 3D protein structures
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Nurlanov2018DeepSymmetry/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Nurlanov2018DeepSymmetry/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Nurlanov2018DeepSymmetry/doc/paper/Nurlanov2018DeepSymmetry.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Nurlanov2018DeepSymmetry/doc/slides/Nurlanov2018DeepSymmetry.pdf slides]
| |
- | [https://youtu.be/y_HKeBlj45s video]
| |
- | | [https://team.inria.fr/nano-d/team-members/sergei-grudinin/ С. В. Грудинин], Guillaume Pages
| |
- | | [[Участник:Nikita_Pletnev|Плетнев Никита]]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Nurlanov2018DeepSymmetry/feedback/Pletnev2018Recension.pdf Review]
| |
- | |BHF
| |
- | |AILB [A-I-LS-BRC0V0T-E0D0W0S]
| |
- | |2+7
| |
- | |
| |
- | |-
| |
- | | [[Участник:AnnRogozina|Рогозина Анна]]
| |
- | | Deep learning for RNA secondary structure prediction
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Rogozina2018StructurePredictionRNA/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Rogozina2018StructurePredictionRNA/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Rogozina2018StructurePredictionRNA/doc/paper/Rogozina2018StructurePredictionRNA.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Rogozina2018StructurePredictionRNA/doc/slides/Rogozina2018RNAPredictionsSlides.pdf slides]
| |
- | [https://youtu.be/r6S5_5b24hg video]
| |
- | | [[Участник:Mpopova|Maria Popova]]
| |
- | | [[Участник:Tamaz|Gadaev Tamaz]]
| |
- | |BHMF
| |
- | |AILSBR> [AILSBRC0V0T0E0D0W0S]+CW
| |
- | |3+9
| |
- | |
| |
- | |-
| |
- | | [[Участник:Ol terekhov|Терехов Олег]]
| |
- | |Порождение признаков с помощью локально-аппроксимирующих моделей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Terekhov2018LocallyApproxModels/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Terekhov2018LocallyApproxModels/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Terekhov2018LocallyApproxModels/doc/Terekhov2018LocalApproxModels.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Terekhov2018LocallyApproxModels/slides/Terekhov2018LAM_Presentation.pdf slides]
| |
- | |С.Д. Иванычев, [[Участник:Neychev|Р.Г.Нейчев]]
| |
- | |[[Участник:Egorgladin|Гладин Егор]]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Terekhov2018LocallyApproxModels/doc/Gladin2018LAM_Review.pdf review]
| |
- | |BHM
| |
- | |AILSBRCVTDSW [AIL0SB0R0C0V0TE0D0W0S]
| |
- | |2+12
| |
- | |
| |
- | |-
| |
- | | [[Участник:ShulginEgor|Шульгин Егор]]
| |
- | | Порождение признаков, инвариантных к изменению частоты временного ряда
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Shulgin2018InvariantFeatureGeneration/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Shulgin2018InvariantFeatureGeneration/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Shulgin2018InvariantFeatureGeneration/doc/paper/ paper]
| |
- | | [[Участник:Neychev | Р.Г.Нейчев]]
| |
- | | [[Участник:Ol terekhov|Терехов Олег]]
| |
- | | BHM
| |
- | |AIL [AI-LS-BR0CV0T0E0D0W0S]
| |
- | | 2+5
| |
- | |
| |
- | |-
| |
- | | [[Участник:Gmalinovsky|Малиновский Григорий]]
| |
- | |Предсказание графовой структуры нейросетевой модели
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group574/Malinovskyi2018StructureCNN/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Malinovskyi2018StructureCNN/code/ code]
| |
- | [https://gmalinovskyi@svn.code.sf.net/p/mlalgorithms/code/Group574/Malinovskyi2018StructureCNN/paper/Malinovskyi2018GraphStructure.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Malinovskyi2018StructureCNN/paper/Malinovskyi2018NeuralStructureF_talk.pdf slides]
| |
- | [https://youtu.be/GjsJxE6Msbg video]
| |
- | |[[Участник:Oleg Bakhteev| Oleg BakhteevЮ. ]]
| |
- | | [[Участник:Andriygav|Грабовой Андрей]]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Malinovskyi2018StructureCNN/paper/Grabovoy2018GraphStructure_Review.pdf review]
| |
- | | BHMF
| |
- | | A+I+L+SBR>C>V>T>E>D> [AILSBRC0VTED0WS]+(C)
| |
- | | 3+11
| |
- | |
| |
- | |-
| |
- | | [[Участник:Oleksandr Kulkov|Кульков Александр]]
| |
- | |Декодирование сигналов мозга and прогнозирование намерений
| |
- | | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/doc/kulkov2018_pls.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Kulkov2018PartialLeastSquares/doc/slides/kulkov2018_pls.pdf slides]
| |
- | [https://youtu.be/7TLzV-oK7mk video]
| |
- | | [[Участник:Isachenkoroma|Р.В. Исаченко]]
| |
- | | [[Участник:Gmalinovsky|Малиновский Григорий]]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/13746/#diff-1 review]
| |
- | | BHMF
| |
- | | AILSBR [AILSBRCVTED0W0S]
| |
- | | 3+11
| |
- | |
| |
- | |-
| |
- | | [[Участник:Nikita_Pletnev|Плетнев Никита]]
| |
- | |Аппроксимация границ радужки глаза
| |
- | | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Pletnev2018IrisApproximation/paper/Pletnev2018IrisApproximation.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Pletnev2018IrisApproximation/slides/Pletnev2018IrisApproximationSlides.pdf slides]
| |
- | [ video]
| |
- | | [[Участник:Aduenko|Alexander Aduenko]]
| |
- | | [[Участник:Nurlanov_zh|Нурланов Жакшылык]]
| |
- | |BF
| |
- | |AILSB>R> [AILSTWS]
| |
- | | 2+7
| |
- | |
| |
- | |-
| |
- | | [[Участник:Twelveth|Остроухов Петр]]
| |
- | |Selection of models superposition for identification of a person on the basis of a ballistocardiogram
| |
- | | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group374/Ostroukhov2018BCGIdentification/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ostroukhov2018BCGIdentification/doc/Ostroukhov2018BCGIdentification.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ostroukhov2018BCGIdentification/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ostroukhov2018BCGIdentification/slides/Ostroukhov2018BCGIdentification_slides.pdf slides]
| |
- | |Александр Прозоров
| |
- | |[[Участник:GavYur|Гаврилов Юрий]]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group574/Gavrilov2018CreditScoringMultimodels/ReviewOnOstroukhov.pdf review]
| |
- | |BhF
| |
- | |AIL>S?B?R? [AILSBRCVT-E0D0W0S]
| |
- | | 2+10
| |
- | |
| |
- | |-
| |
- | | [[Участник:KislinskiVadim|Кислинский Вадим]]
| |
- | |Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kislinskiy2018APContinuation/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kislinskiy2018APContinuation/code code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kislinskiy2018APContinuation/doc/slides/Kislinskiy2018APContinuation.pdf slides]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kislinskiy2018APContinuation/doc/paper/Kislinskiy2018APcontinution.pdf paper]
| |
- | [https://youtu.be/YTqe9dkVgyw video]
| |
- | | Евгений Фролов
| |
- | | [[Участник:AstakhovAnton|Астахов Антон]]
| |
- | | .F
| |
- | | (AIL)------(SB)---(RCVT)-- [AILS-BRCVTED0W0S]
| |
- | | 1+11
| |
- | |
| |
- | |-
| |
- | | [[Участник:KozlinskyEvg|Козлинский Евгений]]
| |
- | | Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
| |
- | | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/ folder]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/doc/paper/kozlinsky18wntm-individuals.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/doc/slides/analiz-tranzaktsii-slash.pdf slides]
| |
- | [https://youtu.be/0WCyndULNIM video]
| |
- | | Роза Айсина
| |
- | | [[Участник:AnnRogozina|Рогозина Анна]]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group574/Kozlinsky2018WNTMvsTM/doc/paper/Kozlinsky18wntm-individuals_Review.pdf review]
| |
- | | BHMF
| |
- | | AILSBR>CV> [AILSBR0C0V0TE0D0WS]+(С)
| |
- | | 3+8+1
| |
- | |
| |
- | |-
| |
- | |}
| |
- |
| |
- |
| |
- | ===Task 1 ===
| |
- | * '''Name:''' Аппроксимация границ радужки глаза
| |
- | * '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
| |
- | * '''Data:''' Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)[http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
| |
- | * '''References:''':
| |
- | ** Адуенко А.А. Выбор мультимоделей в Taskх классификации (научный руководитель Strizhov V.V.). Московский физико-технический институт, 2017. [http://www.frccsc.ru/sites/default/files/docs/ds/002-073-05/diss/11-aduenko/11-Aduenko_main.pdf?626]
| |
- | ** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
| |
- | ** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
| |
- | * '''Basic algorithm''': Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
| |
- | * '''Solution:''' См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
| |
- | * '''Novelty:''' Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
| |
- | * '''consultant''': Alexander Aduenko (автор Strizhov V.V., Expert Matveev I.A.)
| |
- |
| |
- | ===Task 2 ===
| |
- | * '''Name:''' Оценка оптимального объема выборки
| |
- | * '''Task''': В условиях недостаточного числа дорогостоящих измерений требуется спрогнозировать оптимальный объем пополняемой выборки.
| |
- | * '''Data:''' Выборки измерений в медицинской диагностике, в частности, выборка иммунологических маркеров.
| |
- | * '''References:''':
| |
- | ** Мотренко А.П. Материалы по алгоритмам оценки оптимального объема выборки в репозитории MLAlgorithms[http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Motrenko/doc/], [http://svn.code.sf.net/p/mlalgorithms/code/Group874/Motrenko2014KL/].
| |
- | * '''Basic algorithm''': Алгоритмы оценки объема выборки при .
| |
- | * '''Solution:''' Исследование свойств пространства параметров при пополнении выборки.
| |
- | * '''Novelty:''' Предложена новая методология прогнозирования объема выборки, обоснованная с точки зрения классической and байесовской статистики.
| |
- | * '''Authors:''' А.М. Катруца, Strizhov V.V., Expert А.П. Мотренко
| |
- |
| |
- | ===Task 3 ===
| |
- | * '''Name:''' Восстановление структуры прогностической модели по вероятностному представлению
| |
- | * '''Task''': Требуется восстановить дерево суперпозиции по порожденному графу вероятностей связей.
| |
- | * '''Data:''' Сегменты временных, пространственно-временных рядов (и текстовые коллекции).
| |
- | * '''References:''':
| |
- | ** Работы Tommy Yakkola and других в LinkReview [https://docs.google.com/document/d/1j-1eZ4Az05yBR3GvgZusqFVIZeE_HcZDawZDzz41zS4/edit?usp=sharing].
| |
- | * '''Basic algorithm''': Метод ветвей and границ, динамическое пограммирование при построении полносвязного графа.
| |
- | * '''Solution:''' Построение модели в виде GAN, VAE порождает взвешенный граф, NN аппроксимирует структуру дерева.
| |
- | * '''Novelty:''' Предложен способ оштрафовать граф за то, что он не является деревом. Предложен способ прогнозирования структур прогностических моделей.
| |
- | * '''Authors:''' А.М. Катруца, Strizhov V.V.
| |
- |
| |
- | ===Task 4 ===
| |
- | * '''Name:''' Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
| |
- | * '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное.
| |
- | * '''Data:''' Шрифты в растровом представлении.
| |
- | * '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 and
| |
- | * '''Basic algorithm''': Сверточная сеть для растрового изображения.
| |
- | * '''Solution:''' Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
| |
- | * '''Novelty:''' Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
| |
- | * '''Authors:''' Л.М. Местецкий, И.А. Рейер, Strizhov V.V.
| |
- |
| |
- | ===Task 5 ===
| |
- | * '''Name:''' Порождение признаков с помощью локально-аппроксимирующих моделей
| |
- | * '''Task''': Требуется проверить выполнимость гипотезы о простоте выборки для порожденных признаков. Признаки - оптимальные параметры аппроксимирующих моделей. При этом вся выборка не является простой and требует смеси моделей для ее аппроксимации. Исследовать информативность порожденных признаков - параметров аппроксимирующих моделей, обученных на сегментах исходного временного ряда.
| |
- | * '''Data:'''
| |
- | ** WISDM (Kwapisz, J.R., G.M. Weiss, and S.A. Moore. 2011. Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74–82.), USC-HAD или сложнее. Данные акселерометра (Human activity recognition using smart phone embedded sensors: A Linear Dynamical Systems method, W Wang, H Liu, L Yu, F Sun - Neural Networks (IJCNN), 2014)
| |
- | ** ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
| |
- | * '''References:''':
| |
- | ** Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471-1483.[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf]
| |
- | ** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016.[http://strijov.com/papers/Karasikov2016TSC.pdf URL]
| |
- | ** Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]
| |
- | ** Isachenko R.V., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]
| |
- | ** Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]
| |
- | ** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]
| |
- | ** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]
| |
- | * '''Basic algorithm''': Описан в работе Кузнецова, Ивкина.
| |
- | * '''Solution:''' Требуется построить набор локально-аппроксимирующих моделей and выбрать наиболее адекватные.
| |
- | * '''Novelty:''' Создан стандарт построения локально-аппроксимирующих моделей.
| |
- | * '''Authors:''' С.Д. Иванычев, Р.Г. Нейчев, Strizhov V.V.
| |
- |
| |
- | ===Task 6 ===
| |
- | * '''Name:''' Декодирование сигналов мозга and прогнозирование намерений
| |
- | * '''Task''': Требуется построить модель, восстанавливающую движение конечностей по кортикограмме.
| |
- | * '''Data:''' neurotycho.org [http://neurotycho.org/]
| |
- | * '''References:''':
| |
- | ** Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования // Заводская лаборатория. Диагностика материалов, 2016, 82(3) : 68-74. [http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
| |
- | ** MLAlgorithms: Motrenko, Isachenko (submitted)
| |
- | * '''Basic algorithm''': Partial Least Squares[https://en.wikipedia.org/wiki/Partial_least_squares_regression]
| |
- | * '''Solution:''' Создать алгоритм выбора признаков, альтернативный PLS and учитывающий неортогональную структуру взаимозависимости признаков.
| |
- | * '''Novelty:''' Предложен способ выбора признаков, учитывающий закономерности как and независимой, так and в зависимой переменной.
| |
- | * '''Authors:''' Р.В. Исаченко, Strizhov V.V.
| |
- |
| |
- | ===Task 7 ===
| |
- | * '''Name:''' Автоматическое определение релевантности параметров нейросети.
| |
- | * '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры нейросети. Для отсечения избыточных параметров предлагается ввести априорные вероятностные предположения о распределении параметров and удалить из нейросети неинформативные параметры методом Белсли. Для настройки априорного распределения предлагается использовать градиентные методы.
| |
- | * '''Data:''' Выборка рукописных цифр MNIST
| |
- | * '''Basic algorithm''': Optimal Brain Damage, прореживание на основе вариацинного вывода. Структуру итоговой модели предлагается сравнивать с моделью, полученной алгоритмом AdaNet.
| |
- | * '''References:''':
| |
- | ** [https://arxiv.org/pdf/1502.03492.pdf] Градиентные методы оптимизации гиперпараметров.
| |
- | ** [http://proceedings.mlr.press/v48/luketina16.pdf] Градиентные методы оптимизации гиперпараметров.
| |
- | ** [http://yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf] Optimal Brain Damage.
| |
- | ** [https://arxiv.org/abs/1607.01097] AdaNet
| |
- | ** [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf] Метод Белсли
| |
- | * '''Authors:''' Oleg Bakhteev, Strizhov V.V.
| |
- |
| |
- | ===Task 8 ===
| |
- | * '''Name:''' Предсказание графовой структуры нейросетевой модели.
| |
- | * '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
| |
- | * '''Data:''' Выборки MNIST, CIFAR-10
| |
- | * '''Basic algorithm''': случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
| |
- | * '''References:''':
| |
- | ** [https://pdfs.semanticscholar.org/e7bd/0e7a7ee6b0904d5de6e76e095a6a3b88dd12.pdf] doubly-recurrent нейросети.
| |
- | ** [https://arxiv.org/pdf/1707.07012] Схожий подход с использованием обучения с подкреплением.
| |
- | * '''Authors:''' Oleg Bakhteev. Strizhov V.V.
| |
- |
| |
- | ===Task 9===
| |
- | * '''Name:''' Deep Learning for reliable detection of tandem repeats in 3D protein structures [[Media:Strijov_3D_CNN.pdf|подробнее в PDF]]
| |
- | * '''Task''': Deep learning algorithms pushed computer vision to a level of accuracy comparable or higher than a human vision. Similarly, we believe that it is possible to recognize the symmetry of a 3D object with a very high reliability, when the object is represented as a density map. The optimization problem includes i) multiclass classification of 3D data. The output is the order of symmetry. The number of classes is ~10-20 ii) multioutput regression of 3D data. The output is the symmetry axis (a 3-vector). The input data are typically 24x24x24 meshes. The total amount of these meshes is of order a million. Biological motivation : Symmetry is an important feature of protein tertiary and quaternary structures that has been associated with protein folding, function, evolution, and stability. Its emergence and ensuing prevalence has been attributed to gene duplications, fusion events, and subsequent evolutionary drift in sequence. Methods to detect these symmetries exist, either based on the structure or the sequence of the proteins, however, we believe that they can be vastly improved.
| |
- | * '''Data:''' Synthetic data are obtained by ‘symmetrizing’ folds from top8000 library (http://kinemage.biochem.duke.edu/databases/top8000.php).
| |
- | * '''References:''': Our previous 3D CNN: [https://arxiv.org/abs/1801.06252] Invariance of CNNs (and references therein): [https://hal.inria.fr/hal-01630265/document], [https://arxiv.org/pdf/1706.03078.pdf]
| |
- | * '''Basic algorithm:''' A prototype has already been created using the Tensorflow framework [4], which is capable to detect the order of cyclic structures with about 93% accuracy. The main goal of this internship is to optimize the topology of the current neural network prototype and make it rotational and translational invariant with respect to input data. [4] [https://www.tensorflow.org/]
| |
- | * '''Solution:''' The network architecture needs to be modified according to the invariance properties (most importantly, rotational invariance). Please see the links below [https://hal.inria.fr/hal-01630265/document],
| |
- | [https://arxiv.org/pdf/1706.03078.pdf] The code is written using the Tensorflow library, and the current model is trained on a single GPU (Nvidia Quadro 4000)of a desktop machine.
| |
- | * '''Novelty:''' Applications of convolutional networks to 3D data are still very challenging due to large amount of data and specific requirements to the network architecture. More specifically, the models need to be rotationally and transnationally invariant, which makes classical 2D augmentation tricks loosely applicable here. Thus, new models need to be developed for 3D data.
| |
- | * '''Authors:''' Expert Sergei Grudinin, consultants Guillaume Pages, Strizhov V.V.
| |
- |
| |
- | ===Task 10===
| |
- | * '''Name:''' Semi-supervised representation learning with attention
| |
- | * '''Task''': обучение векторных представлений с использованием механизма attention, благодаря которому значительно выросло качество машинного перевода. Предлагается использовать его в сети архитектуры encoder-decoder для получения векторов фрагментов текста произвольной длины.
| |
- | * '''Data:''' Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений, https://www.microsoft.com/en-us/download/details.aspx?id=52398) and PPDB(набор коротких сегментов, не всегда корректная разметка. http://sitem.herts.ac.uk/aeru/ppdb/en/)
| |
- | * '''References:''':
| |
- | 1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need (https://arxiv.org/abs/1706.03762).
| |
- | 2. John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu. Towards Universal Paraphrastic Sentence Embeddings (https://arxiv.org/abs/1511.08198).
| |
- | 3. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors (https://arxiv.org/abs/1506.06726).
| |
- | 4. Keras seq2seq (https://github.com/farizrahman4u/seq2seq).
| |
- | * '''Basic algorithm''': решение [3] или векторные представления, полученные с использованием seq2seq [].
| |
- | * '''Solution:''' в задаче предлагается обучить векторные представления для фраз, используя механизм attention and метод частичного обучения. В качестве внутреннего функционала качества предлагается использовать усовершенствованную функцию ошибки из [2]. В качестве прикладной задачи можно рассмотреть задачу детектирования перефразирований and сентимент-анализ. Причем, исходя из результатов, полученный в [1], можно сделать предположение о том, что механизм attention в большей степени влияет на получение универсальных векторов для фраз, чем архитектура сети. Предлагается протестировать эту гипотезу с использованием двух различных архитектур - стандартной рекуррентной and feed-forward сети.
| |
- | * '''Novelty:''' новый метод.
| |
- | * '''Authors:''' Рита Кузнецова, consultant
| |
- |
| |
- | === Task 11 ===
| |
- | * '''Name:''' Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
| |
- | * '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
| |
- | * '''Data:''' Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
| |
- | * '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
| |
- | * '''Basic algorithm:''' Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
| |
- | * '''Solution:''' Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
| |
- | * '''Novelty:''' Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
| |
- | * '''Authors:''' А.В. Гончаров, Strizhov V.V..
| |
- |
| |
- | === Task 12 ===
| |
- | * '''Name:''' Порождение признаков, инвариантных к изменению частоты временного ряда.
| |
- | * '''Task''': Неформально: есть набор временных рядов определенной частоты (s1), причем интересующая нас информация различима and при меньшей частоте дискретизации (например, отсчеты происходят каждую миллисекунду, а интересующие нас события происходят на интервале 0.1 с). Данные ряды интегрируются, снижая частоту в 10 раз (т.е. каждые 10 значений просто суммируются) and получается набор временных рядов s2.Предлагается найти такие преобразования над временным рядом, зависящие от частоты, что временные ряды высокой частоты s1и более низкой частоты s2 будут описываться одинаково. Формально: Задан набор временных рядов s1, .., sNSс высокой частотой дискретизации 1. Целевая информация (например, движение рукой/cуточное колебание цены/…) различима and при меньшей частоте дискретизации 2 < 1. Необходимо найти такое отображение f: S G, -частота ряда, что оно будет порождать похожие признаковые описания для рядов различной частоты. Т.е.
| |
- | f* = argminf E(f1(s1) -f2(s2)) , где E- некоторая функция ошибки.
| |
- | * '''Data:''' Наборы временных рядов физической активности людей с акселерометров; временные ряды ЭЭГ человека; временные ряды энергопотребления городов/промышленных объектов. Ссылка на выборку: репозиторий UCI, наши выборки по ЭЭГ and акселерометрам.
| |
- | * '''References:''': См выше про Акселерометры
| |
- | * '''Basic algorithm:''' Преобразование Фурье.
| |
- | * '''Solution:''' Построение автоэнкодера с частично фиксированным внутренним представлением в виде того же временного ряда с меньшей частотой.
| |
- | * '''Novelty:''' Для временных рядов отсутствует “общепринятый подход” к анализу, в отличие, например, от анализа изображений. Если посмотреть на проблему отвлеченно, сейчас кот определяется так же хорошо, как and кот, занимающий вдвое меньшее пространство на изображении. Напрашивается аналогия с временными рядами. Тем более, природа данных в картинках and во временных рядах похожа: в картинках иерархия между значениями есть по двум осям (x and y), а во временных рядах - по одной - по оси времени. Гипотеза заключается в том, что сходные с анализом изображений методы позволят получить качественные результаты. Полученное признаковое представление может в дальнейшем использоваться для классификации and предсказания временных рядов.
| |
- | * '''Authors:''' R. G. Neichev, Strizhov V.V..
| |
- |
| |
- | === Task 14 ===
| |
- | to be done
| |
- | * '''Name:''' Предсказание музыкальных плейлистов пользователей в рекомендательной системе.
| |
- | * '''Task''':
| |
- | * '''Data:''' [https://recsys-challenge.spotify.com конкурса конференции RecSys'18].
| |
- | * '''References:''':
| |
- | *# ''Воронцов К.В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. 2017.
| |
- | * '''Basic algorithm:'''
| |
- | * '''Solution:''' построение тематической модели с помощью библиотеки [http://bigartm.org BigARTM].
| |
- | * '''Novelty:'''
| |
- | * '''Authors:''' Vorontsov K. V..
| |
- |
| |
- | === Task 15 ===
| |
- | to be done
| |
- | * '''Name:''' Иерархическое тематическое моделирование текстовой коллекции
| |
- | * '''Task''': (варианты: новостной поток на русском / выпускные работы studentов на русском / научные статьи на английском / научпоп на русском).
| |
- | * '''Data:'''
| |
- | * '''References:''':
| |
- | *# ''Воронцов К.В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. 2017.
| |
- | * '''Basic algorithm:'''
| |
- | * '''Solution:''' построение тематической модели с помощью библиотеки [http://bigartm.org BigARTM].
| |
- | * '''Novelty:'''
| |
- | * '''Authors:''' Vorontsov K. V.
| |
- |
| |
- | === Task 16 ===
| |
- | to be done
| |
- | * '''Name:''' Анализ банковских транзакционных данных физических лиц для выявления паттернов потребления клиентов.
| |
- | * '''Task''':
| |
- | * '''Data:'''
| |
- | * '''References:''':
| |
- | *# ''Воронцов К.В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. 2017.
| |
- | * '''Basic algorithm:'''
| |
- | * '''Solution:''' построение тематической модели с помощью библиотеки [http://bigartm.org BigARTM].
| |
- | * '''Novelty:'''
| |
- | * '''Authors:''' Vorontsov K. V., consultants Роза Айсина, Philip Nikitin.
| |
- |
| |
- | === Task 17 ===
| |
- | to be done
| |
- | * '''Name:''' Анализ банковских транзакционных данных юридических лиц для выявления видов экономической деятельности компаний.
| |
- | * '''Task''':
| |
- | * '''Data:'''
| |
- | * '''References:''':
| |
- | *# ''Айсина Р.М.'' [[Media:2017AysinaBsc.pdf|Тематическое моделирование финансовых потоков корпоративных клиентов банка по транзакционным данным]].
| |
- | * '''Basic algorithm:'''
| |
- | * '''Solution:''' построение тематической модели с помощью библиотеки [http://bigartm.org BigARTM].
| |
- | * '''Novelty:''' Task восстановления структуры товарно-денежных потоков в отрасли по банковским транзакционным данным ранее не ставилась.
| |
- | * '''Authors:''' Vorontsov K. V., consultant Роза Айсина.
| |
- |
| |
- | === Task 18 ===
| |
- | * '''Name:''' Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
| |
- | * '''Task''': Automatically Detect Text in Natural Images.
| |
- | * '''Data:''' синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
| |
- | * '''References:''': [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf COCO benchmark], [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf One of a state-of-the-art architecture]
| |
- | * '''Basic algorithm:''' [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner's solution].
| |
- | * '''Solution:''' Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
| |
- | * '''Novelty:''' предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
| |
- | * '''Authors:''' И.Н. Жариков.
| |
- | * '''Expert''': Л.М. Местецкий (морфологические методы).
| |
- |
| |
- | =YEAR=
| |
- | == Group 594 ==
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | !<tex>\Sigma=3+13</tex>
| |
- | !
| |
- | |-
| |
- | |[[Участник:Goncharovalex|Гончаров Алексей (пример)]]
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук Андрей
| |
- | |BMF
| |
- | |AILSBRCVTDSWH>
| |
- | |
| |
- | |
| |
- | |-
| |
- | |[[Участник:white2302|Белых Евгений]] [[Участник:Alladdin|Проскурин Александр]]
| |
- | |Классификация суперпозиций движений физической активности
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/ProskurinBelykh2018ClassificationOfPhysicalActivitySuperposition/ClassificationOfPhysicalActivitySuperposition.pdf paper]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/ProskurinBelykh2018ClassificationOfPhysicalActivitySuperposition/ProskurinBelykh2018Presentation.pdf slides]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/tree/master/ProskurinBelykh2018ClassificationOfPhysicalActivitySuperposition/code code]
| |
- | |Мария Владимирова, Александра Малькова
| |
- | |[[Участник:IlyaSM|Романенко Илья]], [[Участник:popovkin|Поповкин Андрей]], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/ProskurinBelykh2018ClassificationOfPhysicalActivitySuperposition/RomanenkoPopovkin2018ClassificationOfPhysicalActivitySuperposition_Review.pdf review]
| |
- | [https://www.youtube.com/watch?v=QnjOlVVVu2k video]
| |
- | |MF
| |
- | |AILSBRC>V> [AILSBRC0VT0E0D0WS] CTD
| |
- | |2+9
| |
- | |
| |
- | |-
| |
- | |[[Участник:zueva.nn|Зуева Надежда]]
| |
- | |Style Change Detection
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Zueva2018TextStyleTransfer/StyleChangeDetection%20(10).pdf paper]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/Zueva2018TextStyleTransfer/Zueva_Presentation_Plagiarism%20(2).pdf slides]
| |
- | [https://www.youtube.com/watch?v=1-GWn5uYvsc video]
| |
- | |Рита Кузнецова
| |
- | |Игашов Илья, [https://drive.google.com/file/d/1I-IWRxh39VhZuU2FPzbJAwkqfdYRcqRV/view?usp=sharing review]
| |
- | |BHMF
| |
- | |AIL-S-B-R- [AILSBRCV0TE0D0WS]
| |
- | |3+10
| |
- | |
| |
- | |-
| |
- | |[[Участник:Igashov|Игашов Илья]]
| |
- | |Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул.
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes.pdf paper]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/presentation/presentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=U0rDFG0-lzE video]
| |
- | |Sergei Grudinin, Maria Kadukova
| |
- | |[[Участник:vanderwardan|Манучарян Вардан]], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Review.pdf review], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Igashov2018ProteinLigandComplexes/Igashov2018ProteinLigandComplexes_Correction.pdf correction]
| |
- | |BHMF
| |
- | |AILBS+BRHC>V> [AILSBRCVTE0D0WS]
| |
- | |3+11
| |
- | |
| |
- | |-
| |
- | |[[Участник:kalugin_di|Калугин Дмитрий]]
| |
- | |Предсказание графовой структуры нейросетевой модели
| |
- | |[https://drive.google.com/file/d/1ZTP7Uhi622cj5BnItDmlz0k988Twd9UZ/view?usp=sharing paper]
| |
- | [https://drive.google.com/file/d/1iErLatXyIoqjH9yDXBbATc9vuA_8dmgZ/view?usp=sharing slides]
| |
- | |[[Участник:Oleg_Bakhteev|Бахтеев Олег]]
| |
- | |[[Участник:zueva.nn|Зуева Надежда]] [https://drive.google.com/drive/u/1/folders/1SV29oCjnqnrmjZ_pb1iNGgukodwLk-Bf review]
| |
- | |BHM
| |
- | |AI-L-S--B0R0C0V0 [A-ILSBR0CVT0ED0WS]
| |
- | |2+11
| |
- | |
| |
- | |-
| |
- | |[[Участник:vanderwardan|Манучарян Вардан]]
| |
- | |Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/doc/Manucharyan2018AtomicTypePredictionInUsingCNN.pdf paper],
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/slides/Manucharyan2018AtomicTypePredictionInUsingCNNPresentation.pdf slides],
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/Manucharyan2018AtomicTypePredictionInUsingCNN/code/Manucharyan2018AtomicTypePredictionInUsingCNN.ipynb code]
| |
- | [https://www.youtube.com/watch?v=sShO-zIbidE video]
| |
- | |Sergei Grudinin, [[Участник:Kadukovam|Maria Kadukova]]
| |
- | |Фаттахов Артур [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Manucharyan2018AtomicTypePredictionInUsingCNN/rev.pdf review]
| |
- | |BMF
| |
- | |AILS>B> [AILSB0R0CV0TE0D0WS] VED
| |
- | |3+7
| |
- | |
| |
- | |-
| |
- | |[[Участник:kirill_mouraviev|Муравьев Кирилл]]
| |
- | |Определение параметров нейросети, подлежащих оптимизации.
| |
- | |[https://github.com/KirillMouraviev/science_publication/blob/master/doc/Muravyev2018ParameterOptimization.pdf paper],
| |
- | [https://github.com/KirillMouraviev/science_publication/raw/master/doc/Muravyev2018FinalTalk.pdf slides],
| |
- | [https://github.com/KirillMouraviev/science_publication/tree/master/code code]
| |
- | [https://www.youtube.com/watch?v=1KkQnx249rU video]
| |
- | |[[Участник:Oleg_Bakhteev|Бахтеев Олег]]
| |
- | |Калугин Дмитрий [https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/Muravyev2018ParameterOptimization/Muravyev2018ParameterOptimization_Review.pdf review]
| |
- | |BHMF
| |
- | |A+IL-S-B-RCVTED [AILSBRCV0TE0DWS]
| |
- | |3+12
| |
- | |
| |
- | |-
| |
- | |[[Участник:diraria|Мурзин Дмитрий]] [[Участник:andnlv|Данилов Андрей]]
| |
- | |Распознавание текста на основе скелетного представления толстых линий and свёрточных сетей
| |
- | |[https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/doc/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf paper], [https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/slides/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN.pdf slides], [https://github.com/Intelligent-Systems-Phystech/Group594/tree/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/code code]
| |
- | [video]
| |
- | |[[Участник:Mest|Л. М. Местецкий]], [[Участник:Ivan_Reyer|Иван Рейер]], Жариков И. Н.
| |
- | |[[Участник:kirill_mouraviev|Муравьев Кирилл]] [https://github.com/Intelligent-Systems-Phystech/Group594/blob/master/DanilovMurzin2018TextRecognitionUsingSkeletonRepresentationAndCNN/%D0%A0%D0%B5%D1%86%D0%B5%D0%BD%D0%B7%D0%B8%D1%8F.docx?raw=true review]
| |
- | |BHMF
| |
- | |A+IL> [AILSB0R0CV0TE0D0WS]
| |
- | |3+8
| |
- | |
| |
- | |-
| |
- | |[[Участник:popovkin|Поповкин Андрей]] [[Участник:IlyaSM|Романенко Илья]]
| |
- | |Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/PopovkinRomanenko2018PredictionStructureOfIRFunctions/PredictionStructureOfIRFunctions.pdf paper]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/PopovkinRomanenko2018PredictionStructureOfIRFunctions/RomanenkoPopovkin2018Presentation.pdf slides]
| |
- | [https://github.com/IlRomanenko/Information-retrieval code]
| |
- | [https://www.youtube.com/watch?v=wBUt1SIWDBA video]
| |
- | |Кулунчаков Андрей, Strizhov V.V.
| |
- | |[[Участник:Alladdin|Проскурин Александр]], [[Участник:White2302|Белых Евгений]], [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/PopovkinRomanenko2018PredictionStructureOfIRFunctions/ProskurinBelykh2018PredictionStructureOfIRFunctions_Review.doc review]
| |
- | |BHMF
| |
- | |AILS0BC>V> [AILSBRC0VTED0WS]
| |
- | |3+11
| |
- | |
| |
- | |-
| |
- | |[[Участник:fartuk|Фаттахов Артур]]
| |
- | |Style Change Detection
| |
- | |[https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Fattakhov2018TextStyleTransfer/Fattakhov2018.pdf paper]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/raw/master/Fattakhov2018TextStyleTransfer/final_slides_Fattakhov_ansamble.pdf slides]
| |
- | [https://github.com/Intelligent-Systems-Phystech/Group594/tree/master/Fattakhov2018TextStyleTransfer/code code]
| |
- | [https://www.youtube.com/watch?v=PM5CmOmlAlw video]
| |
- | |Рита Кузнецова
| |
- | |Данилов Андрей, Мурзин Дмитрий, [https://rawgit.com/Intelligent-Systems-Phystech/Group594/master/Fattakhov2018TextStyleTransfer/review/Fattakhov2018_Review.pdf review]
| |
- | |BMF
| |
- | |AIL-S-B-R-CVTDSWH [AILSBRCVTE0D0WS]
| |
- | |3+11
| |
- | |-
| |
- | |}
| |
- |
| |
- |
| |
- | === Task 1 (1-2) ===
| |
- | * '''Name:''' Классификация суперпозиций движений физической активности
| |
- | * '''Task''': Анализ поведения человека по измерениям датчиков мобильного телефона: по данным акселерометра определить движения человека. Данные акселерометра представляют собой сигнал, не имеющий точной периодики, который содержит неизвестную суперпозицию физических моделей. Будем рассматривать суперпозицию моделей: тело + рука/сумка/рюкзак.
| |
- | Классификация видов деятельности человека по измерениям фитнес-браслетов. По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. (Развитие: Характерная продолжительность движения — секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности — минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.)
| |
- | * '''Data:'''
| |
- | ** Собираются самостоятельно
| |
- | ** Данные строителей
| |
- | ** Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
| |
- | * '''References:''':
| |
- | ** Карасиков М. Е., Стрижов В. В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
| |
- | ** Кузнецов М. П., Ивкин Н. П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471—1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
| |
- | ** Исаченко Р. В., Стрижов В. В. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
| |
- | ** Задаянчук А. И., Попова М. С., Стрижов В. В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
| |
- | ** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466—1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
| |
- | ** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
| |
- | * '''Basic algorithm:''' Basic algorithm описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
| |
- | * '''Solution:''' Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
| |
- | * '''Novelty:''' Предложен способ классификации and анализа сложных движений (Развитие: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.)
| |
- | * '''Authors:''' Александра Малькова, Мария Владимирова, R. G. Neichev, Strizhov V.V.,
| |
- |
| |
- | === Task 2 (1) ===
| |
- | * '''Name:''' Сравнение нейросетевых and непрерывно-морфологических методов в задаче детекции текста (Text Detection).
| |
- | * '''Task''': Automatically Detect Text in Natural Images.
| |
- | * '''Data:''' синтетические сгенерированные данные + подготовленная выборка фотографий + [https://vision.cornell.edu/se3/coco-text-2/ COCO-Text dataset] + [http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81_Avito.ru-2014:_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BA%D0%BE%D0%BD%D1%82%D0%B0%D0%BA%D1%82%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F%D1%85 Конкурс Avito 2014].
| |
- | * '''References:''': [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf COCO benchmark], [https://vision.cornell.edu/se3/wp-content/uploads/2016/01/1601.07140v1.pdf One of a state-of-the-art architecture]
| |
- | * '''Basic algorithm:''' [https://github.com/eragonruan/text-detection-ctpn code] + морфологические методы, [http://www.machinelearning.ru/wiki/images/f/f1/Avito.ru-2014_Ulyanov_presentation.pdf Avito 2014 winner’s solution].
| |
- | * '''Solution:''' Предлагается сравнить работы нескольких state-of-the-art алгоритмов, которым нужна обширная обучающая выборка, с морфологическими методы, требующие небольшого числа данных. Предлагается определить границы применимости тех или иных методов.
| |
- | * '''Novelty:''' предложить алгоритм, основанный на использовании как нейросетевых, так and морфологических методов (решение задачи word detection).
| |
- | * '''Authors:''' И. Н. Жариков.
| |
- | * '''Expert''': Л. М. Местецкий (морфологические методы).
| |
- |
| |
- | === Task 3 (1-2) ===
| |
- | * '''Name:''' Распознавание текста на основе скелетного представления толстых линий and сверточных сетей
| |
- | * '''Task''': Требуется построить две CNN, одна распознает растровое представление изображения, другая векторное. (Развитие: порождение толстых линий нейросетями)
| |
- | * '''Data:''' Шрифты в растровом представлении.
| |
- | * '''References:''': Список работ [http://www.machinelearning.ru/wiki/images/a/a2/Morozov2017Synthesis_of_medicines.pdf], в частности arXiv:1611.03199 и
| |
- | * '''Basic algorithm''': Сверточная сеть для растрового изображения.
| |
- | * '''Solution:''' Требуется предложить способ свертывания графовых структур, позволяющий породить информативное описание скелета толстой линии.
| |
- | * '''Novelty:''' Предложен способ повышения качества распознавания толстых линий за счет нового способа порождения их описаний.
| |
- | * '''Authors:''' Л. М. Местецкий, И. А. Рейер, Strizhov V.V.
| |
- |
| |
- | === Task 4 (1-2) ===
| |
- | * '''Name:''' Создание ранжирующих моделей для систем информационного поиска. Алгоритм прогнозирования структуры локально-оптимальных моделей
| |
- | * '''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
| |
- | * '''Data:'''
| |
- | ** Коллекция текстовых документов TREC (!)
| |
- | ** Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
| |
- | * '''References:''':
| |
- | ** (!) Kulunchakov A.S., Strijov V.V. Generation of simple structured Information Retrieval functions by genetic algorithm without stagnation // [http://strijov.com/papers/Kulunchakov2014RankingBySimpleFun.pdf Expert Systems with Applications, 2017, 85 : 221—230.]
| |
- | ** А. А. Варфоломеева Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw]
| |
- | ** Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
| |
- | * '''Basic algorithm:''' Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
| |
- | * '''Solution:''' Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
| |
- | * '''Authors:''' Кулунчаков Андрей, Strizhov V.V.
| |
- |
| |
- | === Task 5 (1) ===
| |
- | * '''Name:''' Определение параметров нейросети, подлежащих оптимизации.
| |
- | * '''Task''': Рассматривается Task оптимизации нейросети. Требуется разделить параметры модели на две группы:
| |
- | ** а) Параметры модели, подлежащие оптимизации
| |
- | ** б) Параметры модели, оптимизация которых завершилась. Дальнейшая оптимизация данных параметров не даст улучшения качества модели.
| |
- | Предлагается рассматривать оптимизацию параметров как стохастический процесс. Основываясь на истории процесса найдем те параметры, чья оптимизация больше не требуется.
| |
- | * '''Data:''' Выборка рукописных цифр MNIST
| |
- | * '''Basic algorithm''': Случайный выбор параметров.
| |
- | * '''References:''':
| |
- | ** [https://arxiv.org/pdf/1704.04289.pdf] SGD как стохастический процесс.
| |
- | ** [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.704.7138&rep=rep1&type=pdf] Вариационный вывод в нейросетях.
| |
- | * '''Novelty:''' полученный алгоритм позволит существенно снизить вычислительную стоимость оптимизации нейросетей. Возможным дальнейшим развитием метода является получение оценок на параметры сети, полученной из исходной операциями расширения, сжатия, добавления and удаления слоев.
| |
- | * '''Authors:''' Бахтеев Олег, Strizhov V.V.
| |
- |
| |
- | === Task 6 (1) ===
| |
- | * '''Name:''' Предсказание графовой структуры нейросетевой модели.
| |
- | * '''Task''': Рассматривается Task нахождения устойчивой (и не избыточной по параметрам) структуры сверточной нейросети. Предлагается предсказывать структуру нейросети с использованием doubly-recurrent нейросетей. В качестве обучающей выборки предлагается использовать структуры моделей, показавших хорошее качество на подвыборках небольшой мощности.
| |
- | * '''Data:''' Выборки MNIST, CIFAR-10
| |
- | * '''Basic algorithm''': случайный поиск. Возможно сравнение с работами по обучению с подкреплением.
| |
- | * '''References:''':
| |
- | ** [https://pdfs.semanticscholar.org/e7bd/0e7a7ee6b0904d5de6e76e095a6a3b88dd12.pdf] doubly-recurrent нейросети.
| |
- | ** [https://arxiv.org/pdf/1707.07012] Схожий подход с использованием обучения с подкреплением.
| |
- | * '''Authors:''' Бахтеев Олег, Strizhov V.V.
| |
- |
| |
- | === Task 7 (1) ===
| |
- | * '''Name:''' Style Change Detection.
| |
- | * '''Task''': Дана коллекция документов, требуется определить, написан ли каждый документ одним автором, или несколькими (http://pan.webis.de/clef18/pan18-web/author-identification.html).
| |
- | * '''Data:''' PAN 2018 (http://pan.webis.de/clef18/pan18-web/author-identification.html)
| |
- | PAN 2017 (http://pan.webis.de/clef17/pan17-web/author-identification.html)
| |
- | PAN 2016 (http://pan.webis.de/clef16/pan16-web/author-identification.html)
| |
- | * '''References:''':
| |
- | 1. Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks (https://arxiv.org/pdf/1701.06547.pdf)
| |
- | 2. Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter and Dan Jurafsky. Adversarial Learning for Neural Dialogue Generation(https://arxiv.org/pdf/1701.06547.pdf)
| |
- | 3. M. Kuznetsov, A. Motrenko, R. Kuznetsova, V. Strijov. Methods for Intrinsic Plagiarism Detection and Author Diarization (https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf)
| |
- | 4. K. Safin, R. Kuznetsova. Style Breach Detection with Neural Sentence Embeddings (https://pdfs.semanticscholar.org/c70e/7f8fbc561520accda7eea2f9bbf254edb255.pdf)
| |
- | * '''Basic algorithm''': решение, описанное в [3, 4].
| |
- | * '''Solution:''' предлагается решать задачу, используя generative adversarial networks — генеративная модель порождает тексты в одном авторском стиле, дискриминативная модель — бинарный классификатор.
| |
- | * '''Novelty:''' предполагается, что решение этой задачи предлагаемым методом может дать прирост качества по сравнению с типичными методами решениями этой задачи, а также связанных с ней задач кластеризации авторов.
| |
- | * '''Authors:''' Рита Кузнецова (consultant), Strizhov V.V.
| |
- |
| |
- | === Task 8 (1) ===
| |
- | * '''Name:''' Получение оценок правдоподобия с использованием автокодировщиков
| |
- | * '''Task''': предполагается, что рассматриваемые объекты подчиняются гипотезе многообразия (manifold learning) — вектора высокий размерности сосредоточились вокруг некоторого подпространства меньшей размерности. Работы [1, 2] показывают, что некоторые модификации автокодировщиков ищут k-мерное многообразие в пространстве объектов, которое наиболее полно передает структуру данных. В работе [2] выводится оценка плотности вероятности данных с помощью автокодировщика. Требуется получить эту оценку на правдоподобие модели.
| |
- | * '''Data:''' предлагается провести эксперимент на коротких текстовых фрагментах Google ngrams (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html)
| |
- | * '''References:''':
| |
- | ## Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion (http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf).
| |
- | ## Guillaume Alain, Yoshua Bengio. What Regularized Auto-Encoders Learn from the Data Generating Distribution (https://arxiv.org/pdf/1211.4246.pdf)
| |
- | ## Hanna Kamyshanska, Roland Memisevic. The Potential Energy of an Autoencoder (https://www.iro.umontreal.ca/~memisevr/pubs/AEenergy.pdf)
| |
- | * '''Basic algorithm''':
| |
- | * '''Solution:''' в задаче предлагается обучить векторные представления для фраз (n-грамм) с использованием автокодировщика, с помощью теоремы 2 в работе [2] получить оценку на правдоподобие выборки и, с помощью этой оценки, вывести правдоподобие модели. С помощью полученных оценок можно также рассмотреть процесс сэмплирования.
| |
- | * '''Novelty:''' получение оценок правдоподобия данных and правдоподобия модели, порождение текстов с помощью полученных оценок.
| |
- | * '''Authors:''' Рита Кузнецова (consultant).
| |
- |
| |
- | === Task 9 (1) ===
| |
- | * '''Name:''' Предсказание свойств and типов атомов в молекулярных графах при помощи сверточных сетей.
| |
- | * '''Task''': Multilabel classification using convolutional neural networks (CNN) on graphs.
| |
- | Для предсказания взаимодействия молекул друг с другом зачастую необходимо правильно описать составляющие их атомы, поставив им в соответствие некоторые типы. Для маленьких молекул доступно не так много дескрипторов: координаты and химические элементы атомов, длины связей and величины углов между ними. Используя эти признаки, мы успешно предсказываем гибридизации атомов and типы связей. При таком подходе каждый атом рассматривается «по отдельности», информация о соседних атомах, необходимая для определения типа атома, практически не используется, and типы атомов определяются с помощью проверки большого числа условий. В то же время, молекулы представимы в виде трехмерных молекулярных графов, and было бы интересно использовать это для предсказания их типов методами машинного обучения, например, с помощью CNN.
| |
- | Необходимо предсказать типы вершин and рёбер молекулярных графов :
| |
- | ** тип атома (тип вершины графа, около 150 классов),
| |
- | ** гибридизацию атома (вспомогательный признак, тип вершины, 4 класса),
| |
- | ** тип связи (вспомогательный признак, тип ребра, 5 классов).
| |
- |
| |
- | Тип атома (вершины графа) основан на информации о его гибридизации and свойствах соседних с ним атомов. Поэтому в случае успешного решения задачи классификации можно провести кластеризацию для поиска других способов определения типов атомов.
| |
- |
| |
- | * '''Data:''' Около 15 тысяч молекул, представленных в виде молекулярных графов. Для каждой вершины (атома) известны 3D координаты and химический элемент. Дополнительно посчитаны длины связей, величины углов and двугранных углов между атомами (3D координаты графа), бинарные признаки, отражающие, входит ли атом в цикл and является ли он терминальным. Выборка размечена, однако в размеченных данных может содержаться ~5 % ошибок.
| |
- | Если данных будет недостаточно, возможно увеличение выборки (до 200 тысяч молекул), сопряженное с увеличением неточности в разметке.
| |
- |
| |
- | * '''References:''':
| |
- | ** [http://proceedings.mlr.press/v48/niepert16.pdf]
| |
- | ** [https://arxiv.org/pdf/1603.00856.pdf]
| |
- | ** [https://arxiv.org/pdf/1204.4539.pdf]
| |
- | * '''Basic algorithm:''' Предсказание гибридизаций and порядков связей с помощью мультиклассового нелинейного SVM с небольшим числом дескрипторов. https://hal.inria.fr/hal-01381010/document
| |
- | * '''Solution:''' Предлагаемое решение задачи and способы проведения исследования.
| |
- | Способы представления and визуализации данных and проведения анализа ошибок, анализа качества алгоритма.
| |
- | На первом этапе нужно будет определить операции на графах, необходимые для построения архитектуры сети. Далее нужно будет обучить сеть для мульти-классовой классификации типов вершин (и ребер) входного графа.
| |
- | Для оценки качества алгоритма предполагается оценивать точность с помощью кросс-валидации. Для конечной публикации (в профильном журнале) нужно будет сделать специфический тест на качество предсказаний: на основе предсказанных типов связи молекула записывается в виде строки (в формате SMILES) and сравнивается с образцом. В этом случае для каждой молекулы предсказание будет считаться верным, только если типы всех связей в ней были предсказаны без ошибок.
| |
- | * '''Novelty:''' Предложенные молекулярные графы обладают 3D структурой and внутренней иерархией, что делает их идеальным объектом применения CNN.
| |
- | * '''Authors:''' Sergei Grudinin, Maria Kadukova, Strizhov V.V..
| |
- |
| |
- | === Task 10 (1) ===
| |
- | * '''Name:''' Формулировка and решение задачи оптимизации, сочетающей классификацию and регрессию, для оценки энергии связывания белка and маленьких молекул. Описание задачи [https://www.overleaf.com/read/rjdnyyxpdkyj]
| |
- | * '''Task''':
| |
- | С точки зрения биоинформатики, Task заключается в оценке свободной энергии связывания белка с маленькой молекулой (лигандом): наилучший лиганд в своем наилучшем положении имеет \textbf{наименьшую свободную энергию} взаимодействия с белком. (Далее большой текст, см. файл по ссылке вверху.)
| |
- | * '''Data:'''
| |
- | ** Данные для бинарной классификации.
| |
- | Около 12,000 комплексов белков с лигандами: для каждого из них есть 1 нативная поза and 18 ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. В случае продолжения исследования and публикации в профильном журнале набор дескрипторов может быть расширен.
| |
- | Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
| |
- | ** Данные для регрессии.
| |
- | Для каждого из представленных комплексов известно значение величины, которую можно интерпретировать как энергию связывания.
| |
- | * '''References:''':
| |
- | ** SVM [http://cs229.stanford.edu/notes/cs229-notes3.pdf]
| |
- | ** Ridge Regression [http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression]
| |
- | ** [https://alex.smola.org/papers/2003/SmoSch03b.pdf] (секция 1)
| |
- | * '''Basic algorithm:''' [https://hal.inria.fr/hal-01591154/]
| |
- | В задаче классификации мы использовали алгоритм, похожий на линейный SVM, связь которого с оценкой энергии, выходящей за рамки задачи классификации, описана в указанной выше статье. В задаче регрессии можно использовать различные функции потерь.
| |
- | * '''Solution:''' Необходимо связать использованную ранее оптимизационную задачу с задачей регрессии and решить стандартными методами. Для проверки работы алгоритма будет использована кросс-валидация.
| |
- | Есть отдельный тестовый сет, состоящий из (1) 195 комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), (2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and (3) 65 белков, для которых нужно найти наиболее сильно связывающийся лиганд.
| |
- | * '''Novelty:''' В первую очередь, интерес представляет ''объединение задач классификации and регрессии'''.
| |
- | Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком. Использование описанной выше задачи классификации для предсказания энергии связывания приводит к недостаточно высокой корреляции предсказаний с экспериментальными значениями, в то время как использование одной лишь задачи регрессии приводит к переобучению.
| |
- | * '''Авторы''' Sergei Grudinin, Maria Kadukova, Strizhov V.V..
| |
- |
| |
- | =2017=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | !
| |
- | !
| |
- | |-
| |
- | |Гончаров Алексей (пример)
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук Андрей
| |
- | |BMF
| |
- | |AILSBRCVTDSWH>
| |
- | |
| |
- | |
| |
- | |-
| |
- | |[[Участник:Alvant|Алексеев Василий]]
| |
- | |Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017IntraTextCoherence/code code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017IntraTextCoherence/data/postnauka_original_reduced/postnauka_clean data]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017IntraTextCoherence/doc/Alekseev2017IntraTextCoherence.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Alekseev2017IntraTextCoherence/doc/Alekseev2017Presentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=6v2dNMJG4iA video]
| |
- | |Viktor Bulatov
| |
- | |Захаренков Антон
| |
- | |BMF
| |
- | |AILSB+RC+V+TDHW
| |
- | |
| |
- | |
| |
- | |-
| |
- | |[[Участник:Dmitriy_Anikeyev|Аникеев Дмитрий]]
| |
- | |Локальная аппроксимация временных рядов для построения прогностических метамоделей
| |
- | |[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Anikeyev_Penkin2017ClassifyingMetamodels/code/ code]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Anikeyev_Penkin2017ClassifyingMetamodels/paper/AnikeyevPenkin2017Splines.pdf paper]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Anikeyev_Penkin2017ClassifyingMetamodels/paper/Anikeev%20F-talk.pdf slides]
| |
- | |[[Участник:strijov|Strizhov V.V.]]
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Anikeyev2017ClassifyingMetamodels/paper/Review.pdf Смердов Антон]
| |
- | |BMF
| |
- | |AILS>B0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |[[Участник: Гасанов Эльнур|Гасанов Эльнур]]
| |
- | |Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ECoGAnalysis/Code code] [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ECoGAnalysis/Paper/Gasanov2017ECoGAnalysis.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Gasanov2017ECoGAnalysis/Paper/FTalk.pdf slides]
| |
- | |[[Участник:Anastasiya|Anastasia Motrenko]]
| |
- | |[[Участник: Ковалев_Дмитрий|Ковалев Дмитрий]]
| |
- | |BMF
| |
- | |AILSBRCVTDH0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Захаренков Антон
| |
- | |Massively multitask deep learning for drug discovery
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017MassivelyMultitaskNetworks/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017MassivelyMultitaskNetworks/doc/Zakharenkov2017MassivelyMultitaskNetworks.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Zakharenkov2017MassivelyMultitaskNetworks/doc/Zakharenkov2016Presentation.pdf slides]
| |
- | [https://youtu.be/l6M-CfpkZKQ video]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Алексеев Василий
| |
- | |BMF
| |
- | |AILSBRCVT>D>H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Ковалев Дмитрий
| |
- | |Unsupervised representation for molecules
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Kovalev2017MoleculesRepresentation/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Kovalev2017MoleculesRepresentation/doc/paper/Kovalev2017MoleculesRepresentation.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Kovalev2017MoleculesRepresentation/doc/slides/Kovalev2017MoleculesRepresentation.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |[[Участник: Гасанов Эльнур|Гасанов Эльнур]]
| |
- | |BMF
| |
- | |AILSBRCVT>D>H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Новицкий Василий
| |
- | |Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017Biosignal/doc/novitskiy.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017Biosignal/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Novitskiy2017Biosignal/slides/presentation.pdf slides]
| |
- | |[[Участник:Katrutsa|Александр Катруца]]
| |
- | |
| |
- | |B - F
| |
- | |AILS>B0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Селезнева Мария
| |
- | |Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Seleznova2017AggregationARTM/paper/Seleznova2017AggregationARTM.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Seleznova2017AggregationARTM/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Seleznova2017AggregationARTM/slides/FinalTalk.pdf slides]
| |
- | [https://www.youtube.com/watch?v=eKUJtfGGlTY video]
| |
- | |[[Участник:Iefimova|Ирина Ефимова]]
| |
- | |[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Seleznova2017AggregationARTM/feedback/Selezniova2017_Sholokhov-Feedback.rtf Шолохов Алексей]
| |
- | |BMF
| |
- | |A+IL+SBRCVTDHW
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Смердов Антон
| |
- | |Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Smerdov2017Paraphrase/doc/Smerdov2017Paraphrase.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Smerdov2017Paraphrase/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Smerdov2017Paraphrase/doc/Smerdov2017ParaphrasePresentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=dW_xv2IlhC4 video]
| |
- | |[[Участник:Oleg Bakhteev|Oleg Bakhteev]]
| |
- | |[[Участник:Dmitriy_Anikeyev|Дмитрий Аникеев]]
| |
- | |BMF
| |
- | |AIL+SB+RC>V+M-T>D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Уваров Никита
| |
- | |Оптимальный алгоритм для восстановления динамических моделей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017DynamicGraphicalModels/doc/Uvarov2017DynamicGraphicalModels.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017DynamicGraphicalModels/slides/Uvarov2017DynamicGraphicalModels.pdf slides]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Uvarov2017DynamicGraphicalModels/code/ code]
| |
- | [https://www.youtube.com/watch?v=79t61GB40nU video]
| |
- | |Yuri Maksimov
| |
- | |
| |
- | |BMF
| |
- | |AILS0B0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Усманова Карина
| |
- | |Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices)
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Usmanova2017MultipleManifoldLearning/doc/Usmanova2017MultipleManifoldLearning.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Usmanova2017MultipleManifoldLearning/slides/Usmanova2017PresentationAJD.pdf slides]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Usmanova2017MultipleManifoldLearning/code/ code]
| |
- | [https://www.youtube.com/watch?v=sqHLmSU-2iM video]
| |
- | |[[Участник:Mkarasikov|Михаил Карасиков]]
| |
- | |[[Участник:IShibaev|Иннокентий Шибаев]]
| |
- | |BMF
| |
- | |AILSBRC+VT+EDH>W
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Шибаев Иннокентий
| |
- | |Convex relaxations for multiple structure alignment (synchronization problem for SO(3))
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group474/Shibaev2017MultipleStructureAlignment/doc/Shibaev2017MultipleStructureAlignment.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group474/Shibaev2017MultipleStructureAlignment/doc/Shibaev2017MultipleStructureAlignment_Final.pdf slides]
| |
- | [https://nbviewer.jupyter.org/urls/svn.code.sf.net/p/mlalgorithms/code/Group474/Shibaev2017MultipleStructureAlignment/code/Shibaev2017MultipleStructureAlignment_different_algs.ipynb code]
| |
- | [https://youtu.be/qs1Rchb02C0 video]
| |
- | |[[Участник:Mkarasikov|Михаил Карасиков]]
| |
- | |Карина Усманова
| |
- | |BMF
| |
- | |AILS-BRCVT>D>H>W
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Шолохов Алексей
| |
- | |Помехоустойчивость методов информационного анализа ЭКГ-сигналов
| |
- | |
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017NoiseSustainability/doc/Sholokhov2017NoiseSustainability.pdf paper]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017NoiseSustainability/code/stage2_statistics_calculation.ipynb code]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017NoiseSustainability/slides/Sholokhov2017NiseSustainability_MidTalk.pdf slides]
| |
- | [https://www.youtube.com/watch?v=5BHIpUiY9VU video]
| |
- | |Влада Бунакова
| |
- | |[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Sholokhov2017NoiseSustainability/feedback/Sholokhov2017NoiseSustainability_SelezniovaFeedback.rtf Селезнева Мария]
| |
- | |BMF
| |
- | |AILSBRCVTDHW
| |
- | |
| |
- | |
| |
- | |-
| |
- | |}
| |
- |
| |
- |
| |
- | Академ или новые
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | !
| |
- | !
| |
- | |-
| |
- | |Кульков Александр
| |
- | |Адаптивные релаксации NP трудных задач через машинное обучение
| |
- | |[https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Kulkov2017AdaptiveRelaxations/doc/article.pdf paper]
| |
- | |Yuri Maksimov
| |
- | |
| |
- | |академ
| |
- | |A>I>L>B0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Калошин Павел <!--- , Болотин Пётр--->
| |
- | |Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
| |
- | |
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/paper/main.pdf paper]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/code code]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/KaloshinBolotin2017TransferLearning/data data]
| |
- | |[[Участник:khritankov|Anton Khritankov]]
| |
- | |
| |
- | | - MF
| |
- | |AIL-SBRC-VT+D>H>W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Малиновский Григорий
| |
- | |Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Malinovskiy2017CreditScoring/doc/paper.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group474/Malinovskiy2017CreditScoring/code/ code]
| |
- | |[[Участник:Aduenko|Alexander Aduenko]]
| |
- | |
| |
- | |академ B - -
| |
- | |AILS-B>R>C>V>T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Плетнев Никита
| |
- | |Детектирование внутреннего плагиата
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group474/Pletnev2017PlagiarismDetecting/Pletnev2017PlagiarismDetecting.pdf paper]
| |
- | |[[Участник:Rita_Kuznetsova|Рита Кузнецова]]
| |
- | |
| |
- | |академ - - -
| |
- | |A-I-L-S>B0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Гревцев Александр
| |
- | |Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN
| |
- | |
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Grevtsev2017Problem3/doc/Article.pdf paper]
| |
- | |Каринэ Абгарян
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Зайцев Никита
| |
- | |Автоматическая классификация научных статей по кристаллографии
| |
- | |
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Zaytsev2017ArticlesClassification/report/report.pdf paper]
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Zaytsev2017ArticlesClassification/README.txt readme]
| |
- | |Евгений Гаврилов
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Дилигул Александр
| |
- | |Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным and результатам квантово-механических расчетов
| |
- | |
| |
- | [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group474/Diligul2017Problem4/Doc/Article.pdf paper]
| |
- | |Каринэ Абгарян
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Дарья Фокина
| |
- | |Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов
| |
- | |
| |
- | |[[Участник:Fess10|Алексей Романов]]
| |
- | |
| |
- | |
| |
- | |AILSB0R0C0V0T0D0H0W0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |}
| |
- |
| |
- | === Task 1 ===
| |
- | * '''Name:''' Классификация видов деятельности человека по измерениям фитнес-браслетов.
| |
- | * '''Task''': По измерениям акселерометра and гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда and кластера восстановить вид деятельности.
| |
- | * '''Data:''' Временные ряды акселерометра WISDM ([[Временной ряд (библиотека примеров)]], раздел Accelerometry).
| |
- | * '''References:''':
| |
- | ** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
| |
- | ** Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
| |
- | ** Isachenko R.V., Strizhov V.V. Метрическое обучение в Taskх многоклассовой классификации временных рядов // Информатика and ее применения, 2016, 10(2) : 48-57. [[http://strijov.com/papers/Isachenko2016MetricsLearning.pdf URL]]
| |
- | ** Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [[http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf URL]]
| |
- | ** Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014TSsegmentation/JBHI/MotrenkoStrijov2014RV2.pdf?format=raw URL]]
| |
- | ** Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [[http://strijov.com/papers/Ignatov2015HumanActivity.pdf URL]]
| |
- | * '''Basic algorithm:''' Basic algorithm описан в работах [Карасиков, Стрижов: 2016] and [Кузнецов, Ивкин: 2014].
| |
- | * '''Solution:''' Найти оптимальный способ сегментации and оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
| |
- | * '''Novelty:''': Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
| |
- | * '''Authors:''' Strizhov V.V., М.П. Кузнецов, П.В. Левдик.
| |
- |
| |
- | === Task 2 ===
| |
- | * '''Name:''' Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
| |
- | * '''Task''': В рамках решения задачи декодирования сигналов ECoG решается Task классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки and является избыточным. Требуется предложить метод снижения размерности признакового пространства.
| |
- | * '''Data:''' Измерения положений пальцев при совершении простых жестов. [https://purl.stanford.edu/zk881ps0522 Описание экспериментов] [https://stacks.stanford.edu/file/druid:zk881ps0522/gestures.zip данные].
| |
- | * '''References:''':
| |
- | ** Макарчук Г.И., Zadayanchuk A.I. Strizhov V.V. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/doc/Makarchuk2016ECoGSignals.pdf pdf]
| |
- | ** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
| |
- | ** Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
| |
- | * '''Basic algorithm:''' PLS
| |
- | Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
| |
- | * '''Solution:''' Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
| |
- | * '''Novelty:''' Предложен новый метод восстановления движений на основе электрокортикограмм.
| |
- | * '''Authors:''' Strizhov V.V., А.П. Мотренко
| |
- |
| |
- | === Task 3 ===
| |
- | * '''Name:''' Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
| |
- | * '''Task''': Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Task состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
| |
- | * '''Data:''' Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
| |
- | * '''References:''': Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.
| |
- | Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905.
| |
- | Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
| |
- | * '''Basic algorithm:''' AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
| |
- | * '''Solution:''' Вычисление гессианов (C++ код у Сергея), изучение and запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
| |
- | * '''Novelty:''' При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
| |
- | * '''Authors:''' Грудинин Сергей, consultant: Карасиков Михаил / Максимов Юрий.
| |
- |
| |
- | === Task 4 ===
| |
- | * '''Name:''' Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
| |
- | * '''Task''': Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то Basic algorithm, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
| |
- | * '''Data:''' Структуры белков в PDB формате в различных состояниях and системах координат.
| |
- | * '''References:''':
| |
- | ** Multiple structural alignment:
| |
- | **# Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
| |
- | **# Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
| |
- | **# Diamond,R. (1992) Protein Sci., 1, 1279-1287.
| |
- | **# May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
| |
- | ** Synchronisation problem:
| |
- | **# O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
| |
- | **# L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
| |
- | **# Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
| |
- | **# Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
| |
- | **# Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
| |
- | ** Spectral relaxation for SO(2)
| |
- | **# A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
| |
- | ** Spectral relaxation for SO(3)
| |
- | **# M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
| |
- | **# A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
| |
- | * '''Basic algorithm:''' Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions
| |
- | Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569>
| |
- | DOI : 10.1002/jcc.23569
| |
- | * '''Solution:''' Два варианта постановки оптимизационных задач (через матрицы поворота and через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом and релаксациями (spectral relaxation, SDP).
| |
- | * '''Novelty:''' Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
| |
- | * '''Authors:''' Грудинин Сергей, consultant: Карасиков Михаил.
| |
- |
| |
- | === Task 5 ===
| |
- | * '''Name:''' Локальная аппроксимация временных рядов для построения прогностических метамоделей.
| |
- | * '''Task''': Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
| |
- | * '''Data:''' Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями and соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
| |
- | * '''References:''':
| |
- | ** Карасиков М.Е., Strizhov V.V. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика and ее применения, 2016. [[http://strijov.com/papers/Karasikov2016TSC.pdf URL]]
| |
- | ** Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение and анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [[http://jmlda.org/papers/doc/2015/no11/Ivkin2015TSclassification.pdf URL]]
| |
- | * '''Basic algorithm:''' [Карасиков 2016]
| |
- | * '''Solution:''' См. [[Media:Local_appr.pdf|описание задачи]].
| |
- | * '''Novelty:''' При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
| |
- | * '''Authors:''' Strizhov V.V.
| |
- |
| |
- | === Task 6 ===
| |
- | * '''Name:''' Выбор оптимальной модели рекуррентной сети в Taskх поиска парафраза
| |
- | * '''Task''': Задана выборка пар предложений с метками <<похожие>> and <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
| |
- | * '''Data:''' Предлагается рассмотреть две выборки: [https://www.microsoft.com/en-us/download/details.aspx?id=52398 Microsoft Paraphrase Corpus] (небольшой набор предложений) and [http://sitem.herts.ac.uk/aeru/ppdb/en/ PPDB] (набор коротких сегментов, не всегда корректная разметка)
| |
- | * '''References:''':
| |
- | ** [http://deeplearning.net/tutorial/lstm.html [1]] Пошаговое описание реализации рекуррентной сети LSTM
| |
- | ** [http://www.cs.toronto.edu/~graves/nips_2011.pdf [2]] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
| |
- | ** [3] [http://papers.nips.cc/paper/250-optimal-brain-damage.pdf Optimal Brain Damage]
| |
- | * '''Basic algorithm''': В качестве базового алгоритма могут выступать:
| |
- | *# Решение без прореживания
| |
- | *# Решение, описанное в [3]
| |
- | *# Otimal Brain Damage
| |
- | * '''Solution:''' Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
| |
- | * '''Novelty:''' Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
| |
- | * '''Authors:''' Oleg Bakhteev, consultant
| |
- |
| |
- | === Task 7 ===
| |
- | * '''Name:''' Детектирование внутреннего плагиата
| |
- | * '''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
| |
- | * '''Data:''' Предлагается рассмотреть корпус PAN-2011, PAN-2016
| |
- | * '''References:''':
| |
- | ** [http://deeplearning.net/tutorial/lstm.html [1]] Пошаговое описание реализации рекуррентной сети LSTM
| |
- | ** [https://arxiv.org/pdf/1608.04485.pdf [2]] Алгоритм кластеризации авторов
| |
- | ** [http://www.fit.vutbr.cz/imikolov/rnnlm/thesis.pdf [3]] Statistical Language Models Based on Neural Networks
| |
- | ** [https://pdfs.semanticscholar.org/1011/6d82a8438c78877a8a142be47c4ee8662138.pdf [4]] Methods for intrinsic plagiarism detection and author diarization
| |
- | * '''Basic algorithm''': В качестве базового алгоритма может выступать решение, описанное в [4].
| |
- | * '''Solution:''' Предлагается рассмотреть метод, описанный в [2] and строить стилевую функцию, основываясь на выходах нейронной сети.
| |
- | * '''Novelty:''' Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
| |
- | * '''Authors:''' Рита Кузнецова, consultant
| |
- |
| |
- | === Task 8 ===
| |
- | * '''Name:''' Адаптивные релаксации NP трудных задач через машинное обучение
| |
- | * '''Task''': Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым Taskм оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач and в классических Taskх комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. and последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
| |
- | Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов and более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных Taskх можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве and в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов.
| |
- | Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
| |
- | * '''References:''': Методы семплинга/машинного обучения:
| |
- | *# Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
| |
- | *# Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
| |
- | *# Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
| |
- | Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
| |
- | * '''Data:''' данные ieee + matpower содержащие описания энергетических сетей and режимов их функционирования.
| |
- | * '''Novelty:''' указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
| |
- | * '''Автор''': consultant: Yuri Maksimov, Expert: Михаил Чертков
| |
- |
| |
- | === Task 9 ===
| |
- | * '''Name:''' Оптимальный алгоритм для восстановления динамических моделей.
| |
- | * '''Task''': Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы and получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение and являются коррелироваными. Task состоит в разработке эффективного метода для восстановления динамической графической модели (графа and параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта Task важна с теоретической точки зрения and имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
| |
- | * '''Data:''' Симулированные динамические конфигурации спинов в кинетической модели Изинга.
| |
- | * '''References:''':
| |
- | *# Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
| |
- | *# Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
| |
- | *# Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
| |
- | *# Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
| |
- | *# Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
| |
- | * '''Basic algorithm:''' Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
| |
- | * '''Novelty:''' В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
| |
- | * '''Автор''': consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков
| |
- |
| |
- | === Task 10 ===
| |
- | * '''Name:''' Выбор интерпретируемых мультимоделей в Taskх кредитного скоринга
| |
- | * '''Task''': Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), and для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
| |
- | * '''Data:''' Предлагается рассмотреть пять выборок из репозиториев UCI and Kaggle, мощностью от 50000 объектов.
| |
- | * '''References:''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
| |
- | * '''Basic algorithm:''' Кластеризация and построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь Expertов.
| |
- | * '''Solution:''' Предлагается алгоритм выбора мультимодели (смеси моделей или смеси Expertов) and определения оптимального числа моделей.
| |
- | * '''Novelty:''' Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
| |
- | * '''Authors:''' А.А. Адуенко, Strizhov V.V..
| |
- |
| |
- | === Task 11 ===
| |
- | * '''Name:''' Выбор признаков в Taskх авторегрессионного прогнозирования биомедицинских сигналов.
| |
- | * '''Task''': Решается Task прогнозирования биомедицинских сигналов and сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так and независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
| |
- | * '''Data:''' Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
| |
- | * '''References:''': Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
| |
- | * '''Basic algorithm:''' PLS, алгоритм квадратичной оптимизации для выбора признаков.
| |
- | * '''Solution:''' построить матрицу плана с субоптимальным набором объектов and признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
| |
- | * '''Novelty:''' Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
| |
- | * '''Authors:''' А.М. Катруца, Strizhov V.V..
| |
- |
| |
- | === Task 12 ===
| |
- | * '''Name:''' Massively multitask deep learning for drug discovery
| |
- | * '''Task''': Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
| |
- | * '''Data:''' разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
| |
- | * '''References:''': https://arxiv.org/pdf/1502.02072
| |
- | * '''Basic algorithm:''' мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
| |
- | * '''Solution:''' Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу and предсказывает её биологическую активность против всех протеинов в выборке.
| |
- | * '''Novelty:''' Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
| |
- | * '''Authors:''' Expert -- Alexander Isaev, consultant -- Maria Popova
| |
- |
| |
- | === Task 13 ===
| |
- | * '''Name:''' Unsupervised representation for molecules
| |
- | * '''Task''': Разработать unsupervised метод для репрезентации молекул
| |
- | * '''Data:''' ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
| |
- | * '''References:''': https://www.cs.toronto.edu/~hinton/science.pdf
| |
- | * '''Basic algorithm:''' в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
| |
- | * '''Solution:''' использовать свёрточные или рекуррентные сети для построения автоэнкодера.
| |
- | * '''Novelty:''' построение end-to-end модели для получения информативных признаков
| |
- | * '''Authors:''' Expert -- Alexander Isaev, consultant -- Maria Popova
| |
- |
| |
- | === Task 14 ===
| |
- | * '''Name:''' Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
| |
- | * '''Task''': Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью Expertных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически and хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана and Мимно. Первая Task – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая Task – сравнить несколько новых методов измерения интерпретируемости and когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
| |
- | * '''Data:''' Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
| |
- | * '''References:''':
| |
- | *#''Vorontsov K. V.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]], 2017.
| |
- | *#''N.Aletras, M.Stevenson.'' Evaluating Topic Coherence Using Distributional Semantics, 2013.
| |
- | *#''D.Newman et al.'' Automatic evaluation of topic coherence, 2010
| |
- | *#''D.Mimno et al.'' Optimizing semantic coherence in topic models, 2011
| |
- | *#http://palmetto.aksw.org/palmetto-webapp/
| |
- | * '''Basic algorithm:''' Стандартные методы оценивания интерпретируемости and когерентности тем в тематических моделях.
| |
- | * '''Solution:''' Новый метод измерения интерпретируемости and когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости and когерентности, аналогичные [D.Newman, 2010].
| |
- | * '''Novelty:''' внутритекстовые меры интерпретируемости and когерентности ранее не предлагались.
| |
- | * '''Authors:''' Vorontsov K. V.. consultants: Viktor Bulatov, Анна Потапенко, Артём Попов.
| |
- |
| |
- | === Task 15 ===
| |
- | * '''Name:''' Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
| |
- | * '''Task''': Реализовать and сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
| |
- | * '''Data:''' Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
| |
- | * '''References:''':
| |
- | *#''Vorontsov K. V.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]], 2017.
| |
- | *#''Чиркова Н. А, Vorontsov K. V.'' [http://jmlda.org/papers/doc/2016/no2/Chirkova2016hARTM.pdf Аддитивная регуляризация мультимодальных иерархических тематических моделей] // Машинное обучение and анализ данных, 2016. T. 2. № 2.
| |
- | * '''Basic algorithm:''' Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
| |
- | * '''Solution:''' Построить тематическую модель с модальностями источников and выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
| |
- | * '''Novelty:''' Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
| |
- | * '''Authors:''' Vorontsov K. V.. consultants: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
| |
- |
| |
- | === Task 16 ===
| |
- | * '''Name:''' Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
| |
- | * '''Task''': Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность and поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC and MAP ранжирования диагнозов.
| |
- | * '''Data:''' Выборка электрокардиограмм с известными диагнозами.
| |
- | * '''References:''':
| |
- | *#''Успенский В.М.'' Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика and информация», 2008. - 116с
| |
- | *#[[Технология информационного анализа электрокардиосигналов]].
| |
- | * '''Basic algorithm:''' Методы классификации .
| |
- | * '''Solution:''' Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC and MAP (ранжирования диагнозов).
| |
- | * '''Novelty:''' До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
| |
- | * '''Authors:''' Vorontsov K. V.. consultants: Влада Целых.
| |
- |
| |
- | === Task Vorontsov +===
| |
- | * '''Title''': Dynamic hierarchical thematic model of the news flow.
| |
- | * '''Task''': Develop an algorithm for classifying topics in news flows into new and ongoing ones. Apply the obtained criteria for creating new topics at all levels of the topic model hierarchy when adding the next piece of data to the text collection (for example, all news for one day).
| |
- | * '''Data:''' Collection of news in Russian. A subsample of news classified into two classes: new and ongoing topics.
| |
- | * '''Literature''':
| |
- | *#''Vorontsov K.V.'' [[Media:voron17survey-artm.pdf|Review of probabilistic thematic models]], 2017.
| |
- | *#''Chirkova N. A, Vorontsov K. V.'' [http://jmlda.org/papers/doc/2016/no2/Chirkova2016hARTM.pdf Additive regularization of multimodal hierarchical topic models] // Machine Learning and Data Analysis , 2016. T. 2. No. 2.
| |
- | * '''Basic Algorithm''': An algorithm for constructing a thematic hierarchy in BigARTM, implemented by Nadezhda Chirkova. Known Topic Detection & Tracking algorithms.
| |
- | * '''Solution''': Using BigARTM, selecting regularizers and their parameters, using the topic selection regularizer. Building an algorithm for classifying topics into new and ongoing.
| |
- | * '''Novelty''': Additive regularization of topic models has not been applied to this problem before.
| |
- | * '''Authors''': KV Vorontsov. Consultants: Alexander Romanenko, Artyom Popov.
| |
- |
| |
- | === Task Antiplagiarism + ===
| |
- | * '''Name:''' Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
| |
- | * '''Task''': Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Task отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
| |
- | * '''Data:''' [http://pan.webis.de/clef11/pan11-web/plagiarism-detection.html PAN]
| |
- | * '''References:''':
| |
- | *#''Романов А.В., Хританков А.С.'' Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке [http://www.machinelearning.ru/wiki/images/c/c4/6.Romanov.pdf pdf]
| |
- | * '''Basic algorithm''': метод шинглов с построением обратного индекса.
| |
- | * '''Solution:''' Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) and последующий поиск ближайших объектов в многомерном метрическом пространстве.
| |
- | * '''Novelty:''' новый подход к решению задачи.
| |
- | * '''Authors:''' Алексей Романов (consultant)
| |
- |
| |
- | == Additional tasks ==
| |
- |
| |
- | === Task Vorontsov + ===
| |
- | * '''Name:''' Тематическое моделирование отрасли экономики по транзакционным данным банка.
| |
- | * '''Task''': Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Task сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений and найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
| |
- | * '''Data:''' выборка транзакций между фирмами, вида «покупатель, продавец, объём».
| |
- | * '''References:''':
| |
- | *# ''Vorontsov K. V.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]], 2017.
| |
- | * '''Basic algorithm:''' Стандартные методы неотрицательных матричных разложений.
| |
- | * '''Solution:''' Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
| |
- | * '''Novelty:''' тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
| |
- | * '''Authors:''' Vorontsov K. V.. consultants: Виктор Сафронов, Роза Айсина.
| |
- |
| |
- | === Task scoring + ===
| |
- | * '''Name:''' Порождение and выбор признаков при построении модели кредитного скоринга.
| |
- | * '''Task''': Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
| |
- | * '''Data:''' Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
| |
- | * '''References:''': Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
| |
- | * '''Basic algorithm:''' Алгоритм построения скоринговой модели, рекомендуемый SAS.
| |
- | * '''Solution:''' Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается Task выбора признаков как Task смешанной оптимизации.
| |
- | * '''Novelty:''' Предложена функция ошибки, при использовании который порождение and выбор признаков, а также оптимизация параметров модели выполняются совместно.
| |
- | * '''Authors:''' Т.В. Вознесенская, Strizhov V.V..
| |
- |
| |
- | === Task Popova + ===
| |
- | * '''Name:''' Representation of molecules in 3D
| |
- | * '''Task''': Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной and трансляционной инвариантности.
| |
- | * '''Data:''' Миллионы молекул, заданные 3D координатами
| |
- | * '''References:''': https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
| |
- | * '''Basic algorithm:''' low rank matrix/tensor factorization
| |
- | * '''Solution:''' Молекулы имеют различное число атомов, and поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
| |
- | * '''Novelty:''' существующие алгоритмы зависят от числа атомов в молекуле
| |
- | * '''Authors:''' Expert -- Alexander Isaev, consultant -- Maria Popova
| |
- |
| |
- | === Task Maksimov + ===
| |
- | * '''Name:''' Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY and Гейзенберга).
| |
- | * '''Task''': Task состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- and трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения and численные эксперименты.
| |
- | * '''Data:''' Симулированные конфигурации блочных спиновых моделей.
| |
- | * '''References:''':
| |
- | *# Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
| |
- | *# Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
| |
- | *# Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
| |
- | * '''Basic algorithm:''' Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
| |
- | * '''Novelty:''' Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
| |
- | * '''Автор''': consultants Андрей Лохов, Yuri Maksimov. Expert Михаил Чертков
| |
- |
| |
- | === Task Khritankova (Transfer Learning) ===
| |
- | * '''Name:''' Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
| |
- | * '''Task''':
| |
- | *# Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, and который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
| |
- | *# Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
| |
- | * '''Data:''' teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
| |
- | * '''References:''':Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.
| |
- | Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
| |
- | * '''Basic algorithm:''' SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
| |
- | * '''Solution:''' Взять Basic algorithm, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда and применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) and предложить доработку для повышения устойчивости (robustness).
| |
- | * '''Novelty:''' Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
| |
- | * '''Authors:''' Хританков
| |
- |
| |
- |
| |
- | === Task INRIA-МТФИ + ===
| |
- | * '''Name:''' Оценка энергии связывания белка and маленьких молекул.
| |
- | * '''Task''': Моделирование связывания белка and маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка and лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, and несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков and лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков and лигандов, для нативных поз которых нужно предсказать энергию связывания, and 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
| |
- | * '''Data:''' Около 10000 комплексов: для каждого из них есть 1 нативная поза and 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка and лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением and использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
| |
- | * '''References:''': PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
| |
- | * '''Basic algorithm:''' Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
| |
- | * '''Solution:''' Необходимо свести использованную ранее задачу SVM к задаче регрессии and решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так and несколько других тестовых сетов с аналогичными Taskми, но другими данными.
| |
- | * '''Novelty:''' Правильная оценка качества связывания белка and лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.
| |
- | Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения and оптимизации интерес представляет объединение задач классификации and регрессии.
| |
- | * '''Добавление''' Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) and несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но and вычислительная сложность предсказания.
| |
- | * '''Authors:''' Sergei Grudinin, Maria Kadukova
| |
- |
| |
- | === Task Strizhov and Kulunchakov + ===
| |
- | * '''Name:''' Creation of delay-operators for multiscale forecasting by means of symbolic regression
| |
- | * '''Task''': Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
| |
- | * '''Data:''' Any data from the domain of multiscalse forecating of time series. See the [[Media:Kulunchakov2016MultiscaleForecast.pdf|full version]] of this introduction.
| |
- | * '''References:''': to be handed by V.V.Strijov
| |
- | * '''Basic algorithm:''' to be handed by V.V.Strijov
| |
- | * '''Solution:''' Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
| |
- | * '''Novelty:''' to be handed by V.V.Strijov
| |
- | * '''Authors:''' supervisor: V.V.Strijov, consultant: A.S. Kulunchakov
| |
- |
| |
- |
| |
- | =2016=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | ! Grade
| |
- | ! Magazine
| |
- | |-
| |
- | |Гончаров Алексей (пример)
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук Андрей
| |
- | |BMF
| |
- | |AILSBRCVTDSWH>
| |
- | |10
| |
- | |ИИП
| |
- | |-
| |
- | |Баяндина Анастасия
| |
- | |Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Bayandina2016TopicModeling/doc/Bayandina2016TopicModeling.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Bayandina2016TopicModeling/doc/Bayandina2016TopicModelingPresentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=7IbYWWO_evY video]
| |
- | |Анна Потапенко
| |
- | |Олег Городницкий
| |
- | |BF
| |
- | |AILSB++RCVTDEWHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Белозерова Анастасия
| |
- | |Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/code code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/doc/Belozerova2016LogicLinearClassificator.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Belozerova2016LogicLinearClassificator/doc/Belozerova2016Presentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=3XhaIN1bgDI video]
| |
- | |Влада Целых
| |
- | |Малыгин Виталий
| |
- | |BF
| |
- | |AILSB+RC+VTD>E0WH>S
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Владимирова Мария
| |
- | |Бэггинг нейронных сетей в задаче предсказания биологической активности клеточных рецепторов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Vladimirova2016BaggingNN/code code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Vladimirova2016BaggingNN/doc/Vladimirova2016BaggingNN.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Vladimirova2016BaggingNN/doc/Vladimirova2016Presentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=pPumIZ81KU4 vido]
| |
- | |Maria Popova
| |
- | |Володин Сергей
| |
- | |BMF
| |
- | |AILSBRCVTD>E>WHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Володин Сергей
| |
- | |Вероятностный подход для задачи предсказания биологической активности ядерных рецепторов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Volodin2016ProbabilisticReceptorPrediction/code code] [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Volodin2016ProbabilisticReceptorPrediction/doc/Volodin2016ProbabilisticReceptorPrediction.pdf paper] [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Volodin2016ProbabilisticReceptorPrediction/doc/Volodin2016ProbabilisticReceptorPredictionSlides.pdf slides]
| |
- | [https://www.youtube.com/watch?v=TsQ8v778d0s video], [http://itas2016.iitp.ru/pdf/1570303389.pdf itis]
| |
- | |Maria Popova
| |
- | |Мария Владимирова
| |
- | |BMF
| |
- | |AILSBRCVTDEWHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Городницкий Олег
| |
- | |Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group374/Gorodnitskii2016AdaptiveApproximation/code code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Gorodnitskii2016AdaptiveApproximation/doc/Gorodnitskii2016AdaptiveApproximation2.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Gorodnitskii2016AdaptiveApproximation/doc/Gorodnitskii2016NNMF.pdf slides], [http://itas2016.iitp.ru/pdf/1570303466.pdf itis]
| |
- | |Михаил Трофимов
| |
- | |Анастасия Баяндина
| |
- | |M
| |
- | |A++I++L++S+B+R+C++VTDE+WH
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Иванычев Сергей
| |
- | |Синергия алгоритмов классификации (SVM Multimodelling)
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ivanychev2016SVM_Multimodelling/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ivanychev2016SVM_Multimodelling/doc/Ivanychev2016SVM_Multimodelling.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ivanychev2016SVM_Multimodelling/doc/Ivanychev2016SVM_Slides.pdf slides]
| |
- | |Alexander Aduenko
| |
- | |
| |
- | |BM
| |
- | |A+I+L++S+BRCVTDEW+H
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Ковалева Валерия
| |
- | |Регулярная структура редких макромолекулярных кластеров
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Kovaleva2016Spectra/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Kovaleva2016Spectra/doc/Kovaleva2016Spectra.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Kovaleva2016Spectra/doc/Kovaleva2016Spectra_slides.pdf slides]
| |
- | [https://www.youtube.com/watch?v=JaeyrqJr1KU video], [http://itas2016.iitp.ru/pdf/1570303499.pdf itis]
| |
- | |Ольга Вальба, Yuri Maksimov
| |
- | |Дмитрий Федоряка
| |
- | |BM
| |
- | |A+IL+SBRCVTD0E0WH
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Макарчук Глеб
| |
- | |Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/doc/Makarchuk2016ECoGSignals.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Makarchuk2016ECoGSignals/doc/Makarchuk2016ECoGSignalsPresentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=xQvszwD9JAE video]
| |
- | |Andrey Zadayanchuk
| |
- | |
| |
- | |BF
| |
- | |AI+L+S+BRС>V>T+D>E0WH>S
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Малыгин Виталий
| |
- | |Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков в задаче медицинской диагностики методом В. М. Успенского
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group374/Malygin2016FeatureSelection/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Malygin2016FeatureSelection/doc/Malygin2016FeatureSelection.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Malygin2016FeatureSelection/doc/Malygin2016FSPresentation.pdf slides]
| |
- | |Шаура Ишкина
| |
- | |Белозёрова Анастасия
| |
- | |B
| |
- | |AILSBRCVTDEWH
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Молибог Игорь
| |
- | |Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
| |
- | |
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Molybog2016DimReduction/doc/MolybogMotrenkoStrijov2017DimRed.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Molybog2016DimReduction/doc doc],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Molybog2016DimReduction/doc/Molybog2016DimReduction_Presentation.pdf slides], [http://itas2016.iitp.ru/pdf/1570303407.pdf itis]
| |
- | |Anastasia Motrenko
| |
- | |Сафин Камиль
| |
- | |BMF
| |
- | |AILSBRCVTDEWHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Погодин Роман
| |
- | |Определение положения белков по электронной карте
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Pogodin2016ProteinsFitting/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Pogodin2016ProteinsFitting/doc/Pogodin2016ProteinsFitting.pdf paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Pogodin2016ProteinsFitting/doc/Pogodin2016ProteinsFittingPresentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=0DskvHR4waE video], [http://itas2016.iitp.ru/pdf/1570303519.pdf itis]
| |
- | |Александр Катруца
| |
- | |Андрей Рязанов
| |
- | |BMF
| |
- | |AILSBRСVTDEWHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Рязанов Андрей
| |
- | |Восстановление первичной структуры белка по геометрии его главной цепи
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Ryazanov2016InverseFolding/ folder]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Ryazanov2016InverseFolding/doc/Ryazanov2016InverseFolding.pdf paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Ryazanov2016InverseFolding/doc/Ryazanov2016InverseFoldingPresentation.pdf slides]
| |
- | [https://www.youtube.com/watch?v=ZGx14xat2Jg video], [http://itas2016.iitp.ru/pdf/1570303468.pdf itis]
| |
- | |Михаил Карасиков
| |
- | |Роман Погодин
| |
- | |BMF
| |
- | |AIL+SBRC++VTD+EWHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Сафин Камиль
| |
- | |Определение заимствований в тексте без указания источника
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Safin2016IntrinsicPlagiarism/code code], [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Safin2016IntrinsicPlagiarism/doc/Safin2016IntrinsicPlagiarism.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Safin2016IntrinsicPlagiarism/doc/Safin2016Presentation1.pdf slides]
| |
- | [https://www.youtube.com/watch?v=lHYH1f5kYXU video]
| |
- | |Михаил Кузнецов
| |
- | |Молибог Игорь
| |
- | |BMF
| |
- | |AIL+SBRC>V>T>D>E0WHS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Федоряка Дмитрий
| |
- | |Смеси моделей векторной авторегрессии в задаче прогнозирования временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group374/Fedoriaka2016TimeSeriesPrediction/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Fedoriaka2016TimeSeriesPrediction/doc/Fedoriaka2016TSPPresentation.pdf slides],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group374/Fedoriaka2016TimeSeriesPrediction/doc/Fedoriaka2016TimeSeriesPrediction.pdf paper]
| |
- | |Radoslav Neichev
| |
- | |Ковалева Валерия
| |
- | |BM
| |
- | |AILSBRCV-T>D0E0WH>
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Цветкова Ольга
| |
- | |Построение скоринговых моделей в системе SAS
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Tsvetkova2016ScoringCards/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Tsvetkova2016ScoringCards/doc/ScoringCards.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Tsvetkova2016ScoringCards/doc/presentation.pdf slides]
| |
- | |Раиса Джамтырова
| |
- | |Чигринский Виктор
| |
- | |BF
| |
- | |A+I+L+S+B+R+C+V0T0D0E0WH>S
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Чигринский Виктор
| |
- | |Аппроксимация границ радужки глаза
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group374/Chigrinskiy2016ApproximationOfIrisBoundaries/code code] [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Chigrinskiy2016ApproximationOfIrisBoundaries/doc/Chigrinskiy2016ApproximationOfIrisBoundaries.pdf paper]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group374/Chigrinskiy2016ApproximationOfIrisBoundaries/doc/Chigrinskiy2016ApproximationOfIrisBoundariesSlides.pdf slides]
| |
- | [https://www.youtube.com/watch?v=3kuNMYhVBw4 video]
| |
- | |Юрий Ефимов
| |
- | |
| |
- | |B
| |
- | |AI+L+SBRCV+TDEHFS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |}
| |
- | === Task 1 ===
| |
- | * '''Data:''' Синергия алгоритмов классификации. Данные из репозитория UCI, чтобы можно было сравнивать напрямую с другими работами, в частности работами Вапника.
| |
- | * '''References:''': существуют разные подходы к комбинированию SVM: например, bagging (http://www.ecse.rpiscrews.us/~cvrl/FaceProject/Homepage/Publication/ICPR04_final_cameraready_v4.pdf), также пробуют and boosting (http://www.researchgate.net/profile/Hong-Mo_Je/publication/3974309_Pattern_classification_using_support_vector_machine_ensemble/links/09e415091bdc559051000000.pdf).
| |
- | * '''Basic algorithm:''' Описан в постановке задачи
| |
- | * '''Solution:''' модификация базового алгоритма, или просто сам Basic algorithm. Главное - сравнить с другими методами and сделать выводы, в частности о связи наличия улучшения в качестве and разнообразия множеств опорных объектов, построенных разными SVM ами.
| |
- | * '''Novelty:''' известно (например, из лекций Константина Вячеславовича), что строить короткие композиции из сильных классификаторов (например, SVM) с помощью бустинга не получается (хотя все же пробуют (см. литературу)). Поэтому предлагается вместо линейной комбинации строить нелинейную. Предполагается, что такая композиция может дать прирост качества по сравнению с одиночным SVM.
| |
- | * '''consultant''': Alexander Aduenko
| |
- |
| |
- | === Task 2 ===
| |
- | * '''Name:''' Темпоральная тематическая модель коллекции пресс-релизов.
| |
- | * '''Task''': Разработка методов анализа тематической структуры большой текстовой коллекции and её динамики во времени. Проблемой является оценка качества построенной структуры. Требуется реализовать критерии устойчивости and полноты темпоральной тематической модели с использованием ручного отбора найденных тем по их интерпретируемости, различности and событийности.
| |
- | * '''Data:''' Коллекция пресс-релизов внешнеполитических ведомств ряда стран за 10 лет, на английском языке.
| |
- | * '''References:''':
| |
- | *# Дойков Н.В. [[Media:2015_417_DoykovNV.pdf|Адаптивная регуляризация вероятностных тематических моделей]]. ВКР бакалавра, ВМК МГУ. 2015.
| |
- | * '''Basic algorithm:''' Классический LDA Д.Блэя c post-hoc анализом времени.
| |
- | * '''Solution:''' Реализация аддитивно регуляризованной тематической модели с помощью библиотеки [[BigARTM]]. Построение серий тематических моделей. Оценивание их интерпретируемости, устойчивости and полноты.
| |
- | * '''Novelty:''' Критерии устойчивости and полноты тематических моделей являются новыми.
| |
- | * '''consultant''': Никита Дойков, '''автор задачи''' Vorontsov K. V..
| |
- |
| |
- | === Task 3 ===
| |
- | * '''Name:''' Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов.
| |
- | * '''Task''': Имеются логические классификаторы, основанные на выявлении диагностических эталонов для каждого заболевания and построенные Expertом в полуручном режиме. Для этих классификаторов определены оценки активностей заболеваний, которые уже много лет используются в диагностической системе and удовлетворяют пользователей-врачей. Мы строим линейные классификаторы, которые обучаются полностью автоматически and по качеству классификации опережают логические. Однако прямой перенос методики оценивания активности на линейные классификаторы оказался невозможен. Требуется построить линейную модель активности, настроив её на воспроизведение известных оценок активности логического классификатора.
| |
- | * '''Data:''' Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
| |
- | * '''References:''': выдадим :)
| |
- | * '''Basic algorithm:''' Линейный классификатор.
| |
- | * '''Solution:''' Методы линейной регрессии, линейной классификации, отбора признаков.
| |
- | * '''Novelty:''' Task согласования двух моделей различной природы может рассматриваться как обучение с привилегированной информацией (learning with privileged information) — перспективное направление, предложенное классиком машинного обучения В.Н.Вапником несколько лет назад.
| |
- | * '''consultant''': Влада Целых, '''автор задачи''' Vorontsov K. V..
| |
- |
| |
- | === Task 4 ===
| |
- | * '''Name:''' Тематическая модель классификации для диагностики заболеваний по электрокардиограмме.
| |
- | * '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании ЭКГ в символьную строку and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Линейный классификатор строит один диагностический эталон для каждого заболевания. В системе скрининговой диагностики «Скринфакс» сейчас используется четыре эталона для каждого заболевания, построенных в полуручном режиме. Требуется полностью автоматизировать процесс построения диагностических эталонов and определять их оптимальное количество для каждого заболевания. Для этого предполагается доработать тематическую модель классификации С.Цыгановой, выполнить новую реализацию под [[BigARTM]], расширить вычислительные эксперименты, улучшить качество классификации.
| |
- | * '''Data:''' Выборка более 10 тысяч электрокардиограмм с диагнозами по 32 заболеваниям.
| |
- | * '''References:''': выдадим :)
| |
- | * '''Basic algorithm:''' Модели классификации В.Целых, тематическая модель С.Цыгановой.
| |
- | * '''Solution:''' Тематическая модель, реализованная с помощью библиотеки [[BigARTM]].
| |
- | * '''Novelty:''' Тематические модели ранее не применялись для классификации дискретизированных биомедицинских сигналов.
| |
- | * '''consultant''': Светлана Цыганова, '''автор задачи''' Vorontsov K. V..
| |
- |
| |
- | === Task 5 ===
| |
- | * '''Name:''' Тематические модели дистрибутивной семантики для выделения этнорелевантных тем в социальных сетях.
| |
- | * '''Task''': Тематическое моделирование текстовых коллекций социальных медиа сталкивается с проблемой сверх-коротких документов. Не всегда ясно, где проводить границы между документами (возможные варианты: отдельный пост, стена пользователя, все сообщения данного пользователя, все сообщения за данный день в данном регионе, and т.д.). Тематические модели дают интерпретируемые векторные представления слов and документов, но их качество зависит от распределения длин документов. Модель word2vec независима от длин документов, так как учитывает лишь локальные контексты слов, но координаты векторных представлений не допускают тематическую интерпретацию. Задачей проекта является построение гибридной модели, объединяющей достоинства and свободной от недостатков обеих моделей.
| |
- | * '''Data:''' Коллекции социальных сетей ЖЖ and ВК.
| |
- | * '''References:''': выдадим :)
| |
- | * '''Basic algorithm:''' Тематические модели, ранее построенные на этих данных.
| |
- | * '''Solution:''' Реализация регуляризатора дистрибутивной семантики, аналогичного языковой модели vord2vec, в библиотеке [[BigARTM]].
| |
- | * '''Novelty:''' Пока в литературе нет языковых моделей, объединяющих основные преимущества вероятностных тематических моделей and модели word2vec.
| |
- | * '''consultant''': Анна Потапенко, по техническим вопросам Murat Apishev, '''автор задачи''' Vorontsov K. V..
| |
- |
| |
- | === Task 7 ===
| |
- | * '''Name:''' определение положения белков по электронной карте
| |
- | * '''Task''': неформально --- есть наборы экспериментально определённых карт расположения белков в комплексах, часть из них известна в высоком разрешении, необходимо восстановить всю карту в высоком разрешении; формально --- есть матрицы and вектора энергий соответствующие каждой карте белкового комплекса, нужно определить какой набор белков минимизирует квадратичную форму, образованую матрицей and вектором.
| |
- | * '''Data:''' экспериментальные данные с сайта http://www.emdatabank.org/ будуь преобразованы в матрицы в вектора энергий. Понимание биофизической природы не обязательно.
| |
- | * '''References:''': статьи по методам решения задач квадратичного программирования and различным релаксациям
| |
- | * '''Basic algorithm:''' методы квадратичного программирования с различными релаксациями
| |
- | * '''Solution:''' минимизация суммарной энергии белкового комплекса
| |
- | * '''Novelty:''' применение методов квадратичного программирования and исследование их точности в Taskх восстановления электронных карт
| |
- | * '''consultant''': Александр Катруца, автор задачи: Sergei Grudinin.
| |
- | * '''Желательные навыки''': понимание and интерес к методам оптимизации, работа с пакетом CVX
| |
- |
| |
- | === Task 8 ===
| |
- | * '''Name:''' Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
| |
- | * '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
| |
- | * '''Data:''' Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
| |
- | * '''References:''':
| |
- | **Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
| |
- | **Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
| |
- | **Oleg BakhteevЮ., Popova M.S., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
| |
- | **LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
| |
- | **Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
| |
- | * '''Basic algorithm:''' Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
| |
- | * '''Solution:''' Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
| |
- | * '''Novelty:''' Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
| |
- | * '''consultant''': Oleg Bakhteev
| |
- |
| |
- | === Task 9 ===
| |
- | * '''Name:''' восстановление первичной структуры белка по геометрии его главной цепи
| |
- | * '''Task''': на основе главной цепи белка, то есть по сути его геометрии, надо восстановить первичную структуру белка, то есть какой последовательности аминокислот соотвествует заданная геометрия главной цепи. Предлагается это делать на основе минимизации суммарной энергии белка, выраженной квадратичной формой скорее всего не положительно определённой.
| |
- | * '''Data:''' на выбор studentа: собранные матрицы энергий для различных белков на основе их описаний в формате PDB или сами PDB-файлы; в последнем случае необходимо будет собрать матрицы для дальнейшей работы
| |
- | * '''References:''': статьи по методам решения задач квадратичного программирования and различным релаксациям
| |
- | * '''Basic algorithm:''' методы квадратичного программирования с различными релаксациями
| |
- | * '''Solution:''' минимизация суммарной энергии белка
| |
- | * '''Novelty:''' применение методов квадратичного программирования and исследование их точности
| |
- | * '''consultant''': Михаил Карасиков, автор задачи: Sergei Grudinin.
| |
- | * '''Желательные навыки''': понимание and интерес к методам оптимизации, работа с пакетом CVX
| |
- |
| |
- | === Task 10 ===
| |
- | * '''Name:''' Multi-task learning подход для задачи предсказания биологической активности ядерных рецепторов
| |
- | * '''Task''': В задаче необходимо построить multi-task модель, предсказывающую взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
| |
- | * '''Data:''' описание 8500+ протеинов and метки для 12 рецепторов
| |
- | * '''References:''': будет отправлена studentу
| |
- | * '''Basic algorithm:''' multi-task lasso регрессия из библиотеки python scikit-learn
| |
- | * '''Solution:''' обобщение линейной регрересси на случай multi-task в вероятностной интерпретации
| |
- | * '''Novelty:''' Multi-task learning подход является новаторским в области drug design
| |
- | * '''consultant''': Maria Popova
| |
- | * '''Желательные навыки''': понимание and интерес к теории вероятности, готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению Python
| |
- |
| |
- | === Task 11 ===
| |
- | * '''Name:''' Бэггинг нейронных сетей в задаче предсказания биологической активности ядерных рецепторов.
| |
- | * '''Task''': В задаче необходимо реализовать бэггинг (bootstrap aggregating) для двухслойной нейронной сети. Такая модель будет являться мультитасковой and предсказывать взаимодействие двух типов молекул: рецепторов and протеинов. Решение этой задачи необходимо для разработки новых лекарств (drug design).
| |
- | * '''Data:''' описание 8500+ протеинов and метки для 12 рецепторов
| |
- | * '''References:''': будет отправлена studentу
| |
- | * '''Basic algorithm:''' двухслойная нейронная сеть
| |
- | * '''Solution:''' Композиция базовых классификаторов бэггинг
| |
- | * '''Novelty:''' Такой подход является новаторским в области drug design
| |
- | * '''consultant''': Maria Popova
| |
- |
| |
- | ===Task 12 ===
| |
- | * '''Name:''' Смеси моделей в векторной авторегрессии в задаче прогнозирования (больших) временных рядов.
| |
- | * '''Task''': Имеется набор временных рядов длины T, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо предсказать следующие t показаний датчиков. Практическая значимость: перед поломкой состояние устройства меняется, предсказание "аномального" поведения поможет своевременно принять меры and избежать поломки или минимизировать потери.
| |
- | * '''Data:''' Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
| |
- | * '''References:''': Ключевые слова: mixture models, boosting, Adaboost, векторная авторегрессия.
| |
- | **Александр Цыплаков. Введение в прогнозирование в классических моделях временных рядов. [http://quantile.ru/01/01-AT.pdf]
| |
- | **Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
| |
- | **Christopher M. Bishop. Pattern Recognition and Machine Learning. Страница 667
| |
- | * '''Basic algorithm''': Бустинг, алгоритм Adaboost.
| |
- | * '''Solution:''' Использовать для построения проноза смесь нескольких линейных моделей вместо одной сложной.
| |
- | * '''Novelty:''' Доработано пространство параметров для смеси моделей в векторной авторегрессии.
| |
- | * '''consultant''': Radoslav Neichev
| |
- |
| |
- | ===Task 13 ===
| |
- | * '''Name:''' Отбор мультикоррелирующих признаков в задаче векторной авторегрессии.
| |
- | * '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Показания датчиков коррелируют между собой. Необходимо отобрать оптимальный набор признаков для решения задачи прогнозирования.
| |
- | * '''Data:''' Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
| |
- | * '''References:''': Ключевые слова: bootstrap aggreagation, метод Белсли, векторная авторегрессия.
| |
- | **Нейчев Р.Г., Катруца А.М., Strizhov V.V. Выбор оптимального набора признаков из мультикоррелирующего множества в задаче прогнозирования[http://strijov.com/papers/Neychev2015FeatureSelection.pdf]
| |
- | * '''Basic algorithm''': метод Белсли для одномерной авторегрессии (см. статью из списка литературы).
| |
- | * '''Solution:''' Применить метод Белсли для обнаружения коррелирующих признаков.
| |
- | * '''Novelty:''' Метод Белсли применяется для векторной авторегрессии.
| |
- | * '''consultant''': Radoslav Neichev
| |
- |
| |
- | ===Task 14 ===
| |
- | * '''Name:''' Порождение признаков в задаче прогнозирования.
| |
- | * '''Task''': Имеется набор временных рядов, содержащих показания различных датчиков, отражающих состояние устройства. Необходимо расширить пространство признаков с помощью нелинейных параметрический порождающих функций.
| |
- | * '''Data:''' Многомерные временные ряды с показаниями различных датчиков серверов (загрузка ЦП, памяти, температура)
| |
- | * '''References:''': Ключевые слова: криволинейная регрессия, порождение признаков, нелинейная регрессия, аппроксимация временных рядов.
| |
- | **М.П. Кузнецов, Strizhov V.V., М.М. Медведникова. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах.[http://strijov.com/papers/Kuznetsov2012Curvilinear.pdf]
| |
- | * '''Basic algorithm''': Непараметрические порождающие функициии.
| |
- | * '''Solution:''' Применить к признакам квазилинейные and нелинейные преобразования зависящие от параметра.
| |
- | * '''Novelty:''' Предложен новый набор признаков для решения авторегрессионных задач.
| |
- | * '''consultant''': Roman Isachenko
| |
- |
| |
- | ===Task 15 ===
| |
- | * '''Name:''' Преобразования временных рядов для декодирование движения руки с помощью ECoG сигналов (electrocorticographic signals) у обезьян.
| |
- | * '''Task''': Имеется набор временных рядов, записи ECoG сигналов. Необходимо выделить признаки с помощью преобразований временных рядов (например, оконного преобразования Фурье).
| |
- | * '''Data:''' Многомерные временные ряды с показаниями ECOG and данные о движении обезьян [http://neurotycho.org/food-tracking-task]
| |
- | * '''References:''': Ключевые слова: выделение признаков, преобразования временных рядов, ECoG signal processing
| |
- | **Zenas C. Chao, Yasuo Nagasaka and Naotaka Fujii. Long-term asynchronous decoding of arm motion using electrocorticographic signals in monkeys[http://journal.frontiersin.org/article/10.3389/fneng.2010.00003/full]
| |
- | * '''Basic algorithm''': Вейвлет-преобразование (англ. Wavelet transform)
| |
- | * '''Solution:''' Выделение признаков из ECoG различными методами.
| |
- | * '''Novelty:''' Анализ оптимальности Вейвлет-преобразования в Taskх обработки ECoG сигналов
| |
- | * '''consultant''': Задаянчук Андрей
| |
- |
| |
- | ===Task 16 ===
| |
- | * '''Name:''' Адаптивный нелинейный метод восстановления матрицы по частичным наблюдениям
| |
- | * '''Task''': Пусть есть неизвестная (возможно многомерная) матрица A, позиция элемента в ней описывается целочисленным вектором p. Известны значения матрицы на некотором подмножестве ее элементов. Требуется найти параметризацию and параметры такие, что на некотором некотором подмножестве элементов минимизируется квадратичное отклонение. Более подробное описание по ссылке [https://www.dropbox.com/s/6xkk3xuzaa4y472/AdaptiveNonlinearMC.pdf?dl=0]
| |
- | * '''Data:''' модельные данные, Netflix Prize Data Set, MovieLens 20M Dataset, Criteo Display Advertising Challenge Dataset
| |
- | * '''References:''':
| |
- | **"ACCAMS: Additive Co-Clustering to Approximate Matrices Succinctly" (Beutel, Amr Ahmed, Smola)
| |
- | **"Non-linear Matrix Factorization with Gaussian Processes" (Neil D. Lawrence)
| |
- | **"Low-rank matrix completion using alternating minimization" (Prateek Jain, Praneeth Netrapalli, Sujay Sanghavi)
| |
- | * '''Basic algorithm''': Низкоранговое приближение
| |
- | * '''Solution:''' and параметры, and параметризацию искать из данных.
| |
- | * '''Novelty:''' Обобщение работ в данной области; предложена новая модель, эфективность которой предлагается проверить
| |
- | * '''consultant''': Михаил Трофимов
| |
- | * '''Желательные навыки''': python
| |
- |
| |
- | ===Task 17 ===
| |
- | * '''Name:''' Построение скоринговых моделей в системе SAS (либо MATLAB).
| |
- | * '''Task''': Описать основные этапы построения скоринговых моделей. На этапе подготовки данных решается Task фильтрации выборов (удаления шумовых объектов). Так как выборка содержит значительное число признаков, не коррелирующих с платежеспособностью, необходимо решать задачу отбора признаков. Кроме того, в силу неоднородности данных (например, по регионам) предлагается строить смесь моделей, в которой каждая модель описывает свое подмножество выборки. При этом различным компонентам смеси могут соответствовать разные наборы признаков.
| |
- | * '''Data:''' Кредитная Story/анкеты потенциальных заемщиков [http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/], [http://archive.ics.uci.edu/ml/datasets/Statlog+%28Australian+Credit+Approval%29/].
| |
- | * '''References:''':
| |
- | ** Хосмер, Лемешов. Логистическая регрессия (англ.)
| |
- | ** Siddiqi. Constructing scorecards
| |
- | ** [http://svn.code.sf.net/p/mlalgorithms/code/Scoring Материалы по построению скоринговых карт]
| |
- | * '''Basic algorithm''': Логистическая регрессия
| |
- | * '''Solution:''' Смесь моделей
| |
- | * '''Novelty:''' Описан способ построения скоринговых карт, в котором в задачу оптимизации включены как порождение признаков, так and мультимоделирование.
| |
- | * '''consultant''': Раиса Джамтырова
| |
- | * '''Желательные навыки''': SAS
| |
- |
| |
- | ===Task 18 ===
| |
- | * '''Name:''' Аппроксимация границ радужки глаза.
| |
- | * '''Task''': По изображению человеческого глаза определить окружности, аппроксимирующие внутреннюю and внешнюю границу радужки.
| |
- | * '''Data:''' Растровые монохромные изображения, типичный размер 640*480 пикселей (однако, возможны and другие размеры)
| |
- | [http://www.bath.ac.uk/elec-eng/research/sipg/irisweb/], [http://www.cb-sr.ia.ac.cn/IrisDatabase.htm].
| |
- | * '''References:''':
| |
- | ** К.А.Ганькин, А.Н.Гнеушев, И.А.Матвеев Сегментация изображения радужки глаза, основанная на приближенных методах с последующими уточнениями // Известия РАН. Теория and системы управления, 2014, № 2, с. 78–92.
| |
- | ** Duda, R. O. Use of the Hough transformation to detect lines and curves in pictures / R. O. Duda, P. E. Hart // Communications of the ACM. 1972. Vol. 15, no. 1. Pp.
| |
- | * '''Basic algorithm''': Ефимов Юрий. Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов, 2015.
| |
- | * '''Solution:''' См. [[Media:Iris_circle_problem.pdf | Iris_circle_problem.pdf]]
| |
- | * '''Novelty:''' Предложен быстрый беспереборный алгоритм аппроксимации границ с помощью линейных мультимоделей.
| |
- | * '''consultant''': Юрий Ефимов (автор Стрижов, Expert Матвеев)
| |
- |
| |
- | === Task 19 ===
| |
- | * '''Name:''' Аппроксимация комбинаторных оценок переобучения для отбора признаков в задаче медицинской диагностики.
| |
- | * '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В. М. Успенскому применяется для диагностики заболеваний внутренних органов по электрокардиограмме. Линейный наивный байесовский классификатор с отбором признаков хорошо зарекомендовал себя в этой задаче. Однако для отбора признаков до сих пор использовались только очень простые жадные стратегии. Предлагается использовать более интенсивные переборные стратегии, чтобы найти лучшие and более короткие диагностические наборы признаков. Однако чем интенсивнее перебор, тем выше вероятность переобучения. Для сокращения переобучения предлагается использовать комбинаторные оценки переобучения пороговых решающих правил. Для эффективного вычисления этих оценок предлагается использовать суррогатное моделирование.
| |
- | * '''Data:''' Выборки векторов признаковых описаний ЭКГ, полученные с помощью системы скрининговой диагностики «Скринфакс». Будут выданы.
| |
- | * '''References:''':
| |
- | ** ''Успенский В. М.'' Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика and информатика, 2008. – 116 с.
| |
- | ** ''Vorontsov K. V.'' [[Media:Voron-2011-tnop.pdf|Теория надёжности обучения по прецедентам]]. Курс лекций ВМК МГУ and МФТИ. 2011.
| |
- | ** ''Ишкина Ш. Х.'' Комбинаторные оценки обобщающей способности как критерии отбора признаков в синдромном алгоритме. - Тезисы 58-научной конференции МФТИ. URL: http://conf58.mipt.ru/static/reports_pdf/755.pdf
| |
- | ** MVR Composer http://www.machinelearning.ru/wiki/index.php?title=MVR_Composer
| |
- | * '''Basic algorithm:''' линейный наивный байесовский классификатор с отбором признаков.
| |
- | * '''Solution:''' Для оценивания переобучения используются точные комбинаторные формулы. Для аппроксимации (суррогатного моделирования) этих формул используется MVR Composer. Для отбора признаков используются эвристические полужадные алгоритмы комбинаторной оптимизации.
| |
- | * '''Novelty:''' Ранее для отбора признаков комбинаторные оценки переобучения не применялись. Данный метод позволяет сокращать диагностические наборы признаков and улучшать качество классификации.
| |
- | * '''consultant''': Ишкина Шаура, Кулунчаков Андрей (MVR Composer), '''автор задачи''': Vorontsov K. V.
| |
- |
| |
- | === Task 20 ===
| |
- | * '''Name:''' Модель порождения объектов в задаче прогнозирования временных рядов
| |
- | *'''Task''': Построить модель порождения объектов для задачи прогнозирования, которая будет создавать качественную выборку для последующего решения задачи прогнозирования.
| |
- | * '''Data:''' Временные ряды потребления электроэнергии, временные ряды акселерометра мобильного телефона
| |
- | * '''References:''':
| |
- | **Keogh E. J., Pazzani M. J. Scaling up dynamic time warping to massive datasets
| |
- | **Salvador S., Chan P. Fastdtw: Toward accurate dynamic time warping in linear time and space
| |
- | **Kuznetsov M.P., Ivkin N.P. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию
| |
- | **Карасиков М. Е. Классификация временных рядов в пространстве параметров порождающих моделей [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Karasikov2015TimeSeriesClassification/doc/Karasikov2015TimeSeriesClassification.pdf?format=raw]
| |
- | * '''Basic algorithm:''' Различные эвристики
| |
- | * '''Постановка задачи''': Формулировка and подробное описание задачи приведено по ссылке [https://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group274/Goncharov2016Essays/Goncharov2016Consult.pdf?format=raw]
| |
- | * '''Novelty:''' рассмотрение модели порождения данных в подобной задаче
| |
- | * '''consultant''': Гончаров Алексей
| |
- |
| |
- | === Task 21 ===
| |
- | * '''Name:''' Алгоритм прогнозирования структуры локально-оптимальных моделей
| |
- | *'''Task''': Требуется спрогнозировать временной ряд с помощью некоторой параметрической суперпозицией алгебраических функций. Предлагается не стоить прогностическую модель, а спрогнозировать ее, то есть предсказать структуру аппроксимирующей суперпозиции. Вводится класс рассматриваемых суперпозиций, and на множестве таких структурных описаний проводится поиск локально-оптимальной модели для рассматриваемой задачи. Task состоит в 1) поиске подходящего структурного описания модели 2) описания алгоритма поиска той структуры, которая будет соответствовать оптимальной модели 3) описания алгоритма обратного построения модели по ее структурному описанию. В качестве уже имеющегося примера ответа на вопросы 1-3, смотри работы А. А. Варфоломеевой.
| |
- | * '''Data:''' Набор временных рядов, который подразумевает восстановление функциональных зависимостей. Предлагается сначала использовать синтетические данные или сразу применить алгоритм к прогнозированию временных рядов 1) потребления электроэнергии 2) физической активности с последующим анализом получающихся структур.
| |
- | * '''References:''':
| |
- | **A. A. Varfolomeeva Выбор признаков при разметке библиографических списков методами структурного обучения, 2013, [http://www.machinelearning.ru/wiki/images/f/f2/Varfolomeeva2013Diploma.pdf?format=raw]
| |
- | **Bin Cao, Ying Li and Jianwei Yin Measuring Similarity between Graphs Based on the Levenshtein Distance, 2012, [http://naturalspublishing.com/files/published/92cn7jm44d8wt1.pdf?format=raw]
| |
- | * '''Basic algorithm:''' Конкретно к предлагаемой проблеме базового алгоритма нет. Предлагается попробовать повторить эксперимент А. А. Варфоломеевой для другого структурного описания, чтобы понять, что происходит.
| |
- | * '''Solution:''' Суперпозиция алгебраических функций задает ордерево, на вершинах которого заданы метки соответствующих алгебраических функций или переменных. Поэтому структурным описанием такой суперпозиции может являться ее DFS-code. Это строка, состоящая из меток вершин, записанных в порядке обхода дерева поиском в глубину. Зная арности соответствующих алгебраических функций, можем любой такой DFS-code восстановить за O(n) and получить обратно суперпозицию функций. На множестве подобных строковых описаний предлагается искать то строковое описание, которое будет соответствовать оптимальной модели.
| |
- | * '''consultant''': Кулунчаков Андрей
| |
- |
| |
- | === Task 22 ===
| |
- | * '''Name:''' Определение заимствований в тексте без указания источника
| |
- | *'''Task''': Решается Task выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, and в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором and содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
| |
- | * '''Data:''' Коллекция конкурса PAN-2011.
| |
- | * '''References:''':
| |
- | *# Oberreuter, G., L’Huillier, G., Rıos, S. A., & Velásquez, J. D. (2011). Approaches for intrinsic and external plagiarism detection. Proceedings of the PAN.
| |
- | * '''Basic algorithm, решение''': На текущий момент реализован базовый метод выявления зависимостей, основанный на анализе частотностей слов and символьных n-грамм в предложении. Для каждого текста формируется словарь, в котором каждому слову (n-грамме) поставлено в соответствие значение его встречаемости в тексте. На основе значений встречаемости формируется признаковое описание каждого сегмента-предложения. Выполняется классификация сегментов текста на основе Expertной разметки заимствований. Качество базового алгоритма составляет 0.29 по F1-мере (Pladget 0.21) на коллекции PAN-2011, в то время как качество лучшего алгоритма, принимавшего участие в соревновании 2011 года [Oberreuter], составляет 0.32 по F1-мере (Pladget 0.32). Предлагается реализовать этот алгоритм and сравнить его с базовым методом.
| |
- | * '''consultant''': [[Участник:mikethehuman|Михаил Кузнецов]]
| |
- |
| |
- | === Task 23 ===
| |
- | * '''Name:''' Использование методов снижения размерности при построении признакового пространства в задаче обнаружения внутреннего плагиата
| |
- | *'''Task''': Для более эффективного решения задачи обнаружения внутреннего плагиата использовать методы снижения размерности, сохраняющие расстояние между объектами. Требуется доработать метод tSNE [2], включив в модель информацию о разметке данных and возможность добавления ранее не рассмотренных объектов в пространство сниженной размерности. Подробнее см. [1]
| |
- | * '''Data:''' Коллекция конкурса PAN-2011.
| |
- | * '''References:''':
| |
- | *# [[Media:Problem_statement_dim_reduce.pdf| Problem_statement_dim_reduce.pdf]]
| |
- | *# Laurens van der Maaten. Visualizing Data using t-SNE Journal of Machine Learning Research, 9 (2008) 2579-2605.
| |
- | *# Julian Brooke and Graeme Hirst. Paragraph Clustering for Intrinsic Plagiarism Detection using a Stylistic Vector-Space Model with Extrinsic Features, 2012.
| |
- | * '''Базовой алгоритм, решение''': См. [1]
| |
- | * '''consultant''': Мотренко Анастасия
| |
- |
| |
- | === Task 26 ===
| |
- | * '''Name:''' Построение отображений с минимальной деформацией для сравнения изображений с эталоном.
| |
- | * '''Task''': Применить вариационный метод построения квазиизометрических отображений для решения классической задачи геометрической морфологии and регистрации изображений - построения двумерной или трехмерной деформации для сравнения с эталоном.
| |
- | * '''Data:''' Изображения в формате bmp. На первом этапе можно задавать простые тела посредством ч/б раскраски декартовой решетки.
| |
- | * '''References:''':
| |
- | *# Michael I. Miller, Alain Trouve, Laurent Younes. ON THE METRICS AND EULER-LAGRANGE EQUATIONS OF COMPUTATIONAL ANATOMY. Annu. Rev. Biomed. Eng. 2002. 4:375–405
| |
- | *# Beg MF, Miller MI, Trouve A, Younes L. Computing large deformation metric mappings via geodesics flows of diffeomorphisms. International Journal of Computer Vision. 2005; V.61(2):139-157.
| |
- | *# Trouve A. An approach of pattern recognition through infinite dimensional group action. Research report LMENS-95-9. 1995.
| |
- | *# Garanzha VA. Maximum norm optimization of quasi-isometric mappings. Num. Linear Algebra Appl. 2002; V.9(6-7):493--510.
| |
- | *# Garanzha V.A., Kudryavtseva L.N., Utyzhnikov S.V. Untangling and optimization of spatial meshes // Journal of Computational and Applied Mathematics. -- 2014. -- October. -- V. 269 -- P. 24--41.
| |
- | * '''Basic algorithm:''' Использовать вариационный метод построения отображений, который ранее был предложен для построения пространственных отображений с заданным отображением границы [4], [5], в случае, когда задается мера близости функций, описывающих геометрические тела, например, как среднеквадратичная мера близости функций яркости.
| |
- | * '''Solution:''' Для существующего кода, который реализует вариационный метод построения двумерных отображений с минимальным искажением, необходимо дописать модуль, реализующий добавку к функционалу, являющуюся мерой близости геометрических тел. Это включает вычисление самого функционала, его градиента, and поправки к предобусловливателю.
| |
- | * '''Novelty:''' Сравнить полученный метод с методом геодезического потока диффеоморфизмов, предложенного в работах Алэна Труве (см. ссылки [1]-[3]). Оценить качество приближения and быстродействие полученного алгоритма.
| |
- | * '''consultant''': Владимир Анатольевич Гаранжа (ВЦ РАН).
| |
- |
| |
- | === Task 27 ===
| |
- | * '''Name:''' Кросс-язычный тематический поиск научных публикаций.
| |
- | * '''Task''': Содание прототипа поискового сервиса, который принимает в качестве запроса текст научной статьи на русском языке and выдаёт в качестве результата поиска тематически близкие статьи на английском языке из коллекции arXiv.org.
| |
- | * '''Data:''' Коллекция текстов arXiv.org, двуязычная коллекция текстов Википедии.
| |
- | * '''References:''': выдадим.
| |
- | * '''Basic algorithm:''' Тематическая модель, построенная по объединённой коллекции англоязычного arXiv and двуязычной англо-русской Википедии.
| |
- | * '''Solution:''' Построение регуляризованной тематической модели средствами библиотеки [[BigARTM]]. Применение стандартных средств построения инвертированных индексов.
| |
- | * '''Novelty:''' Такого сервиса в русскоязычном интернете пока нет.
| |
- | * '''consultant''': Марина Суворова.
| |
- |
| |
- | === Task 28 ===
| |
- | * '''Name:''' Поиск резонансных частот в растворах полимеров.
| |
- | * '''Task''': Математически Task сводиться к поиску спектральной плотности случайных графов в окрестности точки перколяции.
| |
- | * '''Data:''' Симуляционные данные (графы Эрдеша-Реньи в окрестности точки перколяции).
| |
- | * '''References:''': Nazarov L. I. et al. A statistical model of intra-chromosome contact maps //Soft matter. – 2015. – Т. 11. – №. 5. – С. 1019-1025.
| |
- | * '''Basic algorithm:''' Монте-Карло.
| |
- | * '''Novelty:''' В настоящее известен алгоритм оценка спектральной плотности линейных цепочек, вопрос с оценкой спектральной плотности ансамблей деревьев открытый.
| |
- | * '''consultant''': Ольга Вальба, Yuri Maksimov, '''Автор задачи''': Нечаев Сергей.
| |
- |
| |
- | =YEAR=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! Report
| |
- | ! Letters
| |
- | ! Grade
| |
- | ! Magazine
| |
- | |-
| |
- | |Гончаров Алексей (пример)
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf?format=raw slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук Андрей
| |
- | |BMF
| |
- | |AILSBRCVTDSW
| |
- | |10
| |
- | |ИИП
| |
- | |-
| |
- | |Ахтямов Павел
| |
- | |Отбор мультикоррелирующих признаков в задаче векторной авторегрессии
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Akhtyamov2016FeatureSelectionVAR/code/ code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Akhtyamov2016FeatureSelectionVAR/doc/Akhtyamov2016FeatureSelectionVAR.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Akhtyamov2016FeatureSelectionVAR/doc/Akhtyamov2016PresentationFeatureSelectionVAR.pdf?format=raw slides]
| |
- | |[[Участник:Neychev|Radoslav Neichev]]
| |
- | |Медведева Анна
| |
- | |BF
| |
- | |AI+LSB++R+CVTDEH
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Батаев Владислав
| |
- | |Тематическая модель классификации для диагностики заболеваний по электрокардиограмме
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Bataev2016CardiogramARTM/code/ code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Bataev2016CardiogramARTM/doc/Bataev2016CardiogramARTM.pdf?format=raw paper]
| |
- | |Светлана Цыганова
| |
- | |
| |
- | |B
| |
- | |AIL-S++B>R>C0V0T0D0E0W0H>
| |
- | |>26.05 (7)
| |
- | |
| |
- | |-
| |
- | |Иванов Илья
| |
- | |Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/code/ code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/Ivanov2016Covariance.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Ivanov2016Covariance/doc/presentation/Ivanov2016Covariance_presentation.pdf?format=raw slides]
| |
- | |Oleg Bakhteev
| |
- | |
| |
- | |BF
| |
- | |A+ILS+B+R++C+VT+DEW0H
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Медведева Анна
| |
- | |Модель порождения объектов в задаче прогнозирования временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Medvedeva2016GenerationModelTS/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Medvedeva2016GenerationModelTS/doc/Medvedeva2016ObjectGenerationTS.pdf?format=raw paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Medvedeva2016GenerationModelTS/doc/presentation/Medvedeva2016ObjectGeneration_presentation.pdf?format=raw slides]
| |
- | |Гончаров Алексей
| |
- | |Ахтямов Павел
| |
- | |BF
| |
- | |AILS-BRCVTD0EWS
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Персиянов Дмитрий
| |
- | |Темпоральная тематическая модель коллекции пресс-релизов
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Persiyanov2016TemporalModelARTM/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Persiyanov2016TemporalModelARTM/doc/Persiyanov2016TemporalModelARTM.pdf?format=raw paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Persiyanov2016TemporalModelARTM/doc/PersiyanovPresentationTemporalModelARTM.pdf?format=raw slides]
| |
- | |Никита Дойков
| |
- | |
| |
- | |BF
| |
- | |A+I+L+S++B+R+C+V+T0DEW0H
| |
- | |10
| |
- | |
| |
- | |-
| |
- | |Семененко Денис
| |
- | |Алгоритм прогнозирования структуры локально-оптимальных моделей
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Semenenko2016StructureLearning/code/ code]
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Semenenko2016StructureLearning/doc/Semenenko2016StructureLearning.pdf?format=raw paper]
| |
- | |Кулунчаков Андрей
| |
- | |
| |
- | |B
| |
- | |AI+L+SB0R0C0V0T0D0E0W0H0
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Софиенко Александр
| |
- | |Согласование логических and линейных моделей классификации в информационном анализе электрокардиосигналов
| |
- | ||[https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/code/ code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Sofienko2016LinearClassificationVAR/doc/Sofienko2016LinearClassification.pdf?format=raw paper]
| |
- | |Влада Целых
| |
- | |
| |
- | |B
| |
- | |A-I-L-S-C0V0T0D0E0W0H>
| |
- | |>26.05
| |
- | |
| |
- | |-
| |
- | |Яронская Любовь
| |
- | |Sparse Regularized Regression on Protein Complex Data
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Yaronskaya2016SparseRegression/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Yaronskaya2016SparseRegression/doc/yaronskayaRegressionOnProtein.pdf?format=raw paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Yaronskaya2016SparseRegression/slides/YaronskayaPresentation.pdf?format=raw slides]
| |
- | |Александр Катруца
| |
- | |
| |
- | |
| |
- | |A-I-L-SB-R-CVT--D-EW0H>
| |
- | |>26.05
| |
- | |
| |
- | |-
| |
- | |Аксенов Сергей
| |
- | |Кросс-язычный тематический поиск научных публикаций.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Aksenov2016CrosslangARTM/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Aksenov2016CrosslangARTM/doc/Aksenov_CrossLang.pdf?format=raw paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Aksenov2016CrosslangARTM/slides/Aksenov.pdf?format=raw slides]
| |
- | |Марина Суворова
| |
- | |
| |
- | |
| |
- | |AILS0B0R0C0V0T0D0E0W0H>
| |
- | |>26.05 (7)
| |
- | |
| |
- | |-
| |
- | |Хисматуллин Тимур
| |
- | |Анализ and классификация интерфейса комплекса ДНК-белок
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/code/ code]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/paper/Khismatullin2016ProteinDNA.pdf?format=raw paper]
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/GroupYAD16/Khismatullin2016ProteinDNA/slides/Khismatullin2016ProteinDNA.pdf?format=raw slides]
| |
- | |Владимир Гаранжа
| |
- | |
| |
- | |F
| |
- | |AILSBRCVT>H>
| |
- | |>26.05 (7)
| |
- | |
| |
- | |}
| |
- |
| |
- | === Task 6 ===
| |
- | * '''Name:''' Sparse Regularized Regression on Protein Complex Data
| |
- | * '''Task''': найти лучшую модель регрессии на данных связывания белковых комплексов
| |
- | * '''Data:''' признаковое описание белковых комплексов and константы связывания для них
| |
- | * '''References:''': статьи по регрессии and сравнению методов на схожих данных
| |
- | * '''Basic algorithm:''' регуляризованная линейная регрессия (Lasso, Ridge, ..), SVR, kernel methods, etc.
| |
- | * '''Solution:''' сравнение различных алгоритмов регрессии на данных, выбор оптимальной модели and оптимизация параметров
| |
- | * '''Novelty:''' получение лучшей модели регрессии для данных связывания белковых комплексов
| |
- | * '''consultant''': Александр Катруца, автор задачи: Sergei Grudinin.
| |
- | * '''Желательные навыки''': готовность быстро разобраться в различных подходах к регрессии, знание или готовность к освоению С++ на среднем уровне (для более полного исследования нужно будет попробовать библиотеки на С++)
| |
- |
| |
- | === Task 8 ===
| |
- | * '''Name:''' Классификация физической активности: исследование изменения пространства параметров при дообучении and модификации моделей глубокого обучения
| |
- | * '''Task''': Дана модель классификации по выборке временных сегментов, записанных с акселерометра мобильного телефона. Модель представляет собой многослойную нейросеть. Требуется 1) исследовать дисперсию and матрицу ковариаций параметров нейросети при различных расписаниях оптимизации (т.е. при различных подходах к поэтапному обучению). 2) на основе полученной матрицы ковариаций параметров предложить эффективный способ модификации модели глубокого обучении.
| |
- | * '''Data:''' Выборка WISDM http://www.cis.fordham.edu/wisdm/dataset.php.
| |
- | * '''References:''':
| |
- | **Zadayanchuk A.I., Popova M.S., Strizhov V.V. Выбор оптимальной модели классификации физической активности по измерениям акселерометра http://strijov.com/papers/Zadayanchuk2015OptimalNN4.pdf
| |
- | **Попова М. С., Strizhov V.V. Построение сетей глубокого обучения для классификации временных рядов - http://strijov.com/papers/PopovaStrijov2015DeepLearning.pdf
| |
- | **Oleg BakhteevЮ., Popova M.S., Strizhov V.V. Системы and средства глубокого обучения в Taskх классификации
| |
- | **LeCun Y. Optimal Brain Damage - yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
| |
- | **Работы по пред-обучению (pre-training) and дообучению (fine-tuning)
| |
- | * '''Basic algorithm:''' Базовая модель описана в статье "Построение сетей глубокого обучения для классификации временных рядов". Алгоритм можно реализовать как с помощью библиотеки PyLearn или keras (другие библиотеки and языки программирования также допустимы).
| |
- | * '''Solution:''' Анализ матрицы ковариаций, построение add-del метода на основе полученных данных.
| |
- | * '''Novelty:''' Методика исследования ковариационной матрицы большой размерности, а также полученный алгоритм модификации модели важны and будут использоваться в дальнейшем при анализе моделей глубокого обучения.
| |
- | * '''consultant''': Oleg Bakhteev
| |
- |
| |
- | === Task 25 ===
| |
- | * '''Name:''' Устойчивость дискретизации электрокардиосигналов относительно частотной фильтрации.
| |
- | * '''Task''': [[Технология информационного анализа электрокардиосигналов]] по В.М.Успенскому основана на преобразовании электрокардиограммы в символьную строку (кодограмму) and выделении информативных наборов слов — диагностических эталонов каждого заболевания. Проблема в том, что для дискретизации необходимо достаточно точно определять амплитуду R-пиков. На амплитуду может влиять частотная фильтрация сигнала, которая производится электрокардиографом на аппаратном или программном уровне. Task заключается в том, чтобы оценить, насколько сильно различные частотные фильтры (например, фильтр 50.4Гц, подавляющий воздействие электрической сети, высокочастотный фильтр) могут влиять на частоты слов в кодограмме and на качество классификации.
| |
- | * '''Data:''' электрокардиограммы в формате KDM.
| |
- | * '''References:''': выдадим :)
| |
- | * '''Basic algorithm:''' Линейный классификатор.
| |
- | * '''Solution:''' Прямое and обратное преобразование Фурье, алгоритм детекции R-пиков на электрокардиограмме, алгоритм определения амплитуды R-пиков.
| |
- | * '''Novelty:''' Исследование устойчивости кодограмм по отношению к частотной фильтрации с различными параметрами ранее не проводилось в информационном анализе электрокардиосигналов.
| |
- | * '''consultant''': Виктор Сафронов (Научный центр им. В.И.Кулакова)
| |
- |
| |
- | =2015=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! DZ-1
| |
- | ! DZ-2 (Problem number)
| |
- | ! Letters
| |
- | ! Sum
| |
- | ! Grade
| |
- | |-
| |
- | |Бернштейн Юлия
| |
- | |Методы определения характеристик фибринолиза по последовательности изображений крови in vitro
| |
- |
| |
- | |Матвеев И. А.
| |
- | |Соломатин
| |
- | |1
| |
- | |3 (8)
| |
- | |AILSBRCVTDE
| |
- | |11
| |
- | |10
| |
- | |-
| |
- | |Бочкарев Артем
| |
- | |Структурное обучение при порождении моделей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/] (no code), [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/doc/Bochakrev2015StructuredLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/doc/presentation.pdf?format=raw slides]
| |
- | |[[Участник:Varf_Ann|Варфоломеева Анна]], [[Участник:Oleg_Bakhteev|Бахтеев Олег]]
| |
- | |Исаченко
| |
- | |2
| |
- | |2 (7)
| |
- | |A+I++LS+BRCVT+DS
| |
- | |9.25
| |
- | |10
| |
- | |Гончаров Алексей
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf?format=raw slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук
| |
- | |1.5
| |
- | |1 (4)
| |
- | |AILSBRCVTDSW
| |
- | |12
| |
- | |10
| |
- | |-
| |
- | |Двинских Дарина
| |
- | |Повышение качества прогнозирования с использованием групп товаров
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/doc/DvinskikhDemandForecasting.pdf paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/doc/Dvinskikh.Presentation.pdf slides]
| |
- | |Каневский Д. Ю.
| |
- | |Смирнов
| |
- | |0.5
| |
- | |3 (7)
| |
- | |AILSBRCVTDEHS
| |
- | |14
| |
- | |10
| |
- | |-
| |
- | |Ефимов Юрий
| |
- | |Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/15_presentation.pdf?format=raw slides]
| |
- | |Матвеев И. А.
| |
- | |Нейчев
| |
- | |
| |
- | |
| |
- | |AILSBRCVTDEW
| |
- | |12
| |
- | |10
| |
- | |-
| |
- | |Жариков Илья
| |
- | |Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
| |
- | |Ишкина Шаура
| |
- | |Бочкарев
| |
- | |3.5
| |
- | |3 (5)
| |
- | |AIL+SBRCVTDEHSW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Задаянчук Андрей
| |
- | |Выбор оптимальной модели классификации физической активности
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/doc/Zadayanchuk2015OptimalNN.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/doc/Zadayanchuk2015OptimalNNpresentation.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Гончаров
| |
- | |2
| |
- | |0 (17)
| |
- | |AI-LSB+RCVTD
| |
- | |10
| |
- | |10
| |
- | |-
| |
- | |Златов Александр
| |
- | |Построение иерархической модели крупной конференции
| |
- | ||[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/doc/ConferenceModel.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/doc/Zlatov2015ConferenceModelPresentation.pdf?format=raw slides]
| |
- | |Арсентий Кузьмин
| |
- | |Двинских
| |
- | |1.5
| |
- | |3 (14)
| |
- | |AI+L+SBRC++V+TDESW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Isachenko Roman
| |
- | |Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
| |
- | |[[Участник:Katrutsa|Катруца Александр]]
| |
- | |Жариков
| |
- | |3.5
| |
- | |3 (14)
| |
- | |A-I+L+S-BR+CVTDEHSW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Нейчев Радослав
| |
- | |Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/doc/Neychev2015FeatureSelection.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/doc/Neychev2015FSPresentation.pdf?format=raw slides]
| |
- | |[[Участник:Katrutsa|Катруца Александр]]
| |
- | |Ефимов
| |
- | |1
| |
- | |3 (9)
| |
- | |AI-L-SBRCVTDEHSW
| |
- | |13.5
| |
- | |10
| |
- | |-
| |
- | |Подкопаев Александр
| |
- | |Прогнозирование четвертичных структур белков
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/doc/Podkopaev2015ProteinStructures.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/doc/Podkopaev2015ProteinStructuresPresentation.pdf?format=raw slides]
| |
- | |Ю. В. Максимов
| |
- | |Решетова
| |
- | |3.5
| |
- | |3 (11)
| |
- | |AILS+B+RCVTDEHS
| |
- | |13.5
| |
- | |10
| |
- | |-
| |
- | |Решетова Дарья
| |
- | |Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/doc/Reshetova2015MulticlussClussification.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/doc/presentation.pdf?format=raw slides]
| |
- | |Максимов Юрий
| |
- | |Камзолов
| |
- | |2.5
| |
- | |3 (10)
| |
- | |AIL++SB+RCVT++DEHS-
| |
- | |14
| |
- | |10
| |
- | |-
| |
- | |Смирнов Евгений
| |
- | |Тематическая модель интересов постоянных пользователей мобильного приложения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/Code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/doc/Smirnov2015TopicModeling.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/doc/Smirnov2015Presentation.pdf?format=raw slides]
| |
- | |Виктор Сафронов
| |
- | |Златов
| |
- | |1
| |
- | |1 (4)
| |
- | |AILSBRCVTWDE
| |
- | |11.25
| |
- | |10
| |
- | |-
| |
- | |Соломатин Иван
| |
- | |Определение области затенения радужки классификатором локальных текстурных признаков
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/doc/article.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/doc/Solomatin.EESLocalisation.Presentation.pdf?format=raw slides]
| |
- | |Матвеев И. А.
| |
- | |Бернштейн
| |
- | |
| |
- | |3 (9)
| |
- | |AILSBRCVTDE
| |
- | |11
| |
- | |10
| |
- | |-
| |
- | |Черных Владимир
| |
- | |Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/doc/SteninaChernykh2015ArimaHistForecast.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/doc/presentation/Chernykh2015Presentation.pdf?format=raw slides]
| |
- | |[[Участник:Medvmasha|Стенина Мария]]
| |
- | |Шишковец
| |
- | |3.5
| |
- | |3 (4)
| |
- | |A+I+LSBRCVT+DE++H++
| |
- | |13.75
| |
- | |10
| |
- | |-
| |
- | |Шишковец Светлана
| |
- | |Регуляризация линейного наивного байесовского классификатора.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/doc/Shishkovets2015NaivBayes.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/doc/Shishkovets_Presentation.pdf?format=raw slides]
| |
- | |[[Участник:Uskov Mikhail|Михаил Усков]], [[Участник:Vokov|Константин Воронцов]]
| |
- | |Черных
| |
- | |3.5
| |
- | |2 (9)
| |
- | |A+I+L+SBR+CV+TD+E+H+S
| |
- | |15
| |
- | |10
| |
- | |-
| |
- | |Камзолов Дмитрий
| |
- | |Новые алгоритмы для задачи ранжирования веб-страниц
| |
- | |—
| |
- | |Александр Гасников, Yuri Maksimov
| |
- | |Подкопаев
| |
- | |
| |
- | |
| |
- | |AILSB+RCVT+DEHS--
| |
- | |13
| |
- | |8
| |
- | |-
| |
- | |Сухарева Анжелика
| |
- | |Классификация научных текстов по отраслям знаний
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/doc/Sukhareva2015TextClassification.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/doc/Sukhareva_Presentation.pdf?format=raw slides]
| |
- | | [[Участник:Sidious|Сергей Царьков]]
| |
- | |
| |
- | |0.5
| |
- | |
| |
- | |AILSBRCVTDEH
| |
- | |
| |
- | |9
| |
- | |-
| |
- | |}
| |
- |
| |
- | === Task 1 ===
| |
- | * '''Name:''' Повышение качества прогнозирования спроса с использованием групп товаров
| |
- | * '''Task:'''
| |
- | Дано:
| |
- | *# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
| |
- | *# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
| |
- | *# Функция потерь, по которой измеряется качество прогнозов: MAPE.
| |
- | *# Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).
| |
- |
| |
- | Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
| |
- | Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
| |
- | Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
| |
- | Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
| |
- | * '''Data:'''
| |
- | *# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
| |
- | * '''References:'''
| |
- | *# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
| |
- | *# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
| |
- | *# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
| |
- | *# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
| |
- | * '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
| |
- | *# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
| |
- | *# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
| |
- | *# Сезонность оценивается по кластерам, исходя из методики [3], [4].
| |
- | * '''Solution:''' Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
| |
- | * '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
| |
- | * '''consultant:''' Каневский Д.Ю.
| |
- |
| |
- | === Task 2 ===
| |
- | * '''Name:''' Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
| |
- | * '''Task:''' Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
| |
- | * '''Data:''' таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
| |
- | * '''References:'''
| |
- | ** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
| |
- | ** http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
| |
- | ** http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
| |
- | ** http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
| |
- | ** http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
| |
- | ** http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
| |
- | ** [https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0] - википедия: Расстояние Махаланобиса
| |
- | ** http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
| |
- | * '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
| |
- | * '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
| |
- | * '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
| |
- | * '''consultant:''' Oleg Bakhteev.
| |
- |
| |
- | === Task 3 ===
| |
- | * '''Name:''' Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
| |
- | * '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
| |
- | * '''Data:''' Синтетические данные and тесты.
| |
- | * '''References:''':
| |
- | ** Зайцев А.А., Strizhov V.V., Tokmakova A.A. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
| |
- | ** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
| |
- | ** Aduenko A. A. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
| |
- | ** Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
| |
- | * '''Basic algorithm:''' Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
| |
- | * '''Solution:'''
| |
- | * '''Novelty:''' Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
| |
- | * '''consultant:''' Alexander Aduenko.
| |
- |
| |
- | === Task 4 ===
| |
- | * '''Name:''' Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
| |
- | * '''Task''': постановка задачи из [http://www.swissquant.net/files/pdf/Robust%20Calculation%20and%20Parameter%20Estimation%20of%20the%20Hourly%20Price%20Forward%20Curve.pdf] формула (32)
| |
- | * '''Data:''' временные ряды с ценами на электроэнергию.
| |
- | * '''References:''':
| |
- | ** Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
| |
- | **Основные статьи:
| |
- | *# [http://scl.hanyang.ac.kr/scl/database/papers/PESGM/PESGM2014/files/PESGM2014-000294.PDF] - исследование влияния цен в одной стране на цену в другой and как это учесть при прогнозировании.
| |
- | *# [http://www.eeh.ee.ethz.ch/uploads/tx_ethpublications/hildmann_EEM_2013.pdf] - обзор терминов and процессов, всплывающих в прогнозировании HPFC + мотивация
| |
- | *# [http://www1.vwa.unisg.ch/RePEc/usg/sfwpfi/WPF-1311.pdf] - тоже про прогнозирование цен, но тут про спотовые цены
| |
- | * '''Basic algorithm:'''
| |
- | *# LAD-Lasso estimation из [http://www.swissquant.net/files/pdf/Robust%20Calculation%20and%20Parameter%20Estimation%20of%20the%20Hourly%20Price%20Forward%20Curve.pdf]
| |
- | *# Статья Сандуляну про модификацию Add-Del: [http://strijov.com/papers/SanduleanuStrijov2011FeatureSelection_Preprint.pdf].
| |
- | * '''Solution:''' применить в качестве метода отбора признаков модифицрованный метод Add-Del.
| |
- | * '''Novelty:''' сравнение базвого and предложенного методов, анализ свойств предложенного метода.
| |
- | * '''consultant:''' Александр Катруца.
| |
- |
| |
- | === Task 5 ===
| |
- | * '''Name:''' Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
| |
- | * '''Task''': Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики and [https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%B1%D1%80%D0%B8%D0%BD%D0%BE%D0%BB%D0%B8%D0%B7|фибринолиза]. Требуется разработать алгоритм поиска координат отрезка and угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза and примерах, где данный процесс отсутствует.
| |
- | * '''Data:''' Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
| |
- | * '''References:'''
| |
- | ** Описание прикладной задачи and техническое задание: по запросу.
| |
- | * '''Basic algorithm:''' Преобразование Хафа [https://www.cs.sfu.ca/~hamarneh/ecopy/compvis1999_hough.pdf|pdf], обсуждается.
| |
- | * '''consultant:''' И.А. Матвеев
| |
- |
| |
- | === Task 6 ===
| |
- | * '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
| |
- | * '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
| |
- | Нужно исследовать эту формулировку and предложить алгоритм решения. Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
| |
- | Thus, the optimal packing problem can be formulated as
| |
- | <tex>
| |
- | \begin{align}
| |
- | x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\
| |
- | \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
| |
- | && x_{i}^{k}\geq0\;\forall i,k
| |
- | \end{align}
| |
- | </tex>
| |
- | * '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
| |
- | * '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
| |
- | * '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
| |
- | * '''Basic algorithm:''' Хочется попробовать выпуклые релаксации.
| |
- | * '''Novelty:''' Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
| |
- | * '''consultant:''' Ю.В. Максимов
| |
- |
| |
- | === Task 7 ===
| |
- | * '''Name:''' Метрическое обучение and снижение размерности пространства в Taskх классификации временных рядов
| |
- | * '''Task''': постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
| |
- | * '''Data:''' временные ряды цен на электроэнергию
| |
- | * '''References:''':
| |
- | *# [http://perso.telecom-paristech.fr/~abellet/papers/aistats15.pdf] - базовая статья
| |
- | *# [http://arxiv.org/pdf/1306.6709.pdf] - отличный обзор методов Metric Learning
| |
- | *# [http://www.cs.cmu.edu/~liuy/frame_survey_v2.pdf] - ещё обзор
| |
- | * '''Basic algorithm:''' алгоритм Франка-Вольфа (условного градиентного спуска)
| |
- | * '''Solution:''' применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
| |
- | * '''Novelty:''' применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
| |
- | * '''consultant:''' Александр Катруца
| |
- |
| |
- | === Task 8 ===
| |
- | * '''Name:''' Структурное обучение при порождении моделей
| |
- | * '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
| |
- | * '''Data:''' Подколлекции TREC.
| |
- | * Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
| |
- | * '''References:'''
| |
- | ** Jaakkola T. Scaled structured prediction.
| |
- | ** [http://www.youtube.com/watch?v=LbsBguCUFEc|Лекция Tommi Jaakkola “Scaling structured prediction”]
| |
- | ** ''Найти все работы учеников TJ по данной тематике.''
| |
- | ** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
| |
- | * '''Basic algorithm:''' Парантапа, BM25 - модели для сравнения.
| |
- | * '''Solution:''' Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
| |
- | * '''Novelty:''' Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
| |
- | * * '''consultant:''' Анна Варфоломеева, Oleg Bakhteev
| |
- |
| |
- | === Task 9 ===
| |
- | * '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
| |
- | * '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
| |
- | * '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
| |
- | * '''References:'''
| |
- | *# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
| |
- | *# [[Технология информационного анализа электрокардиосигналов]]
| |
- | *# Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
| |
- | *# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
| |
- | *# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
| |
- | *# Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
| |
- | *# Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
| |
- | *# Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
| |
- | *# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
| |
- | * '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
| |
- | * '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
| |
- | * '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
| |
- | * '''consultant:''' Ишкина Шаура
| |
- |
| |
- | === Task 10 ===
| |
- | * '''Name:''' Simplification of the IR models structure
| |
- | * '''Task''': To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
| |
- | * '''Data:''' TREC collections.
| |
- | * '''References:'''
| |
- | ** P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
| |
- | ** [https://www.dropbox.com/s/yw7xczcnm8fbymk/StructureSimplification.pdf?dl=0| Problem statement]
| |
- | * '''Basic algorithm:''' Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
| |
- | * '''Solution:''' The optimal functions for the linear combination can be found by the greedy algorithm.
| |
- | * '''Novelty:''' A new ranking function of simple structure competitive with traditional ones.
| |
- | * '''consultant:''' Mikhail Kuznetsov.
| |
- |
| |
- | === Task 11 ===
| |
- | * '''Name:''' Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
| |
- | * '''Task''': Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее and др.
| |
- | * '''Data:''' Данные о грузовых железнодорожных перевозках (РЖД)
| |
- | * '''References:''':
| |
- | **Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
| |
- | ** Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
| |
- | * '''Basic algorithm:''' ARMA, Hist.
| |
- | * '''Solution:''' В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд and сезонность.
| |
- | * '''Novelty:''' Разработан and обоснован метод определения выполнения условия локальной стационарности временного ряда.
| |
- | * '''consultant:''' Стенина Мария
| |
- |
| |
- | === Task 12 ===
| |
- | * '''Name:''' Обучение метрик в Taskх полного and частичного обучения
| |
- | * '''Task:''' состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
| |
- | * '''Data:''' Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
| |
- | * '''References:''' Список литературы and описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
| |
- | * '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
| |
- | * '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
| |
- | * '''consultant:''' Ю.В. Максимов
| |
- |
| |
- | === Task 13 ===
| |
- | * '''Name:''' Построение иерархической тематической модели крупной конференции
| |
- | * '''Task''': Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:
| |
- | # Классификация тезисов новой конференции.
| |
- | # Прогнозирование изменений структуры конференции.
| |
- |
| |
- | * '''Data:''' Тезисы and экспертные модели конференций EURO 2010, 2012, 2013.
| |
- | * '''References:''': Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group974/KuzminAduenkoStrijov2013AdoptiveTextClustering/doc/TextClustering_english_5.pdf?format=raw текст статьи]
| |
- | * '''Basic algorithm:'''
| |
- | * '''Solution:''' Для решения подзадач
| |
- | # предлагается объединить экспертные модели конференций прошлых лет в одну, and для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
| |
- | # исследовать изменения в структуре конференций из года в год and определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов Experts создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.
| |
- |
| |
- | * '''Novelty:''' Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
| |
- | * '''consultant:''' Арсентий Кузьмин
| |
- |
| |
- | === Task 14 ===
| |
- | * '''Name:''' Регуляризация линейного наивного байесовского классификатора.
| |
- | * '''Task''': Построение линейного классификатора является одной из классических and самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, and сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном and том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
| |
- | * '''Data:''' Один из трёх наборов данных, по выбору: классификация текстов на научные and ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных and здоровых.
| |
- | * '''References:''':
| |
- | *# ''Larsen'' (2005) Generalized Naive Bayes Classifiers.
| |
- | *# ''Abraham, Simha, Iyengar'' (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
| |
- | *# ''Lutu'' (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
| |
- | *# ''Zaidi, Carman, Cerquides, Webb'' (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
| |
- | *# + спросить у [[Участник:Vokov|Vorontsov K. V.а]].
| |
- | * '''Basic algorithm:''' любые готовые реализации LNB and SVM. Плюс наивный отбор признаков для LNB.
| |
- | * '''Solution:''' Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые and зависимости Hold-out AUC от номера итерации.
| |
- | * '''Novelty:''' Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
| |
- | * '''consultant:''' Михаил Усков. '''Гиперconsultant:''' [[Участник:Vokov|Vorontsov K. V.]].
| |
- |
| |
- | === Task 15 ===
| |
- | * '''Name:''' Тематическая модель интересов постоянных пользователей мобильного приложения.
| |
- | * '''Task''': Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
| |
- | * '''Data:''' Для каждого пользователя имеются списки добавленных and откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
| |
- | * '''References:''':
| |
- | *# ''Vorontsov K. V., Potapenko A. A.'' [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
| |
- | *# + попросить у Vorontsov K. V.а
| |
- | * '''Basic algorithm:''' Алгоритм случайного отбора слов.
| |
- | * '''Solution:''' Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
| |
- | * '''Novelty:''' Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками and дизлайками.
| |
- | * '''consultant:''' Виктор Сафронов. '''Гиперconsultant:''' [[Участник:Vokov|Vorontsov K. V.]].
| |
- |
| |
- | =2015=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! Reviewer
| |
- | ! DZ-1
| |
- | ! DZ-2 (Problem number)
| |
- | ! Letters
| |
- | ! Sum
| |
- | ! Grade
| |
- | |-
| |
- | |Бернштейн Юлия
| |
- | |Методы определения характеристик фибринолиза по последовательности изображений крови in vitro
| |
- |
| |
- | |Матвеев И. А.
| |
- | |Соломатин
| |
- | |1
| |
- | |3 (8)
| |
- | |AILSBRCVTDE
| |
- | |11
| |
- | |10
| |
- | |-
| |
- | |Бочкарев Артем
| |
- | |Структурное обучение при порождении моделей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/] (no code), [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/doc/Bochakrev2015StructuredLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Bochkarev2015StructuredLearning/doc/presentation.pdf?format=raw slides]
| |
- | |[[Участник:Varf_Ann|Варфоломеева Анна]], [[Участник:Oleg_Bakhteev|Бахтеев Олег]]
| |
- | |Исаченко
| |
- | |2
| |
- | |2 (7)
| |
- | |A+I++LS+BRCVT+DS
| |
- | |9.25
| |
- | |10
| |
- | |-
| |
- | |Гончаров Алексей
| |
- | |Метрическая классификация временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/Goncharov2015MetricClassification.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015MetricClassification/doc/GoncharovAlexey2015PresentationMetricClassification.pdf?format=raw slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Задаянчук
| |
- | |1.5
| |
- | |1 (4)
| |
- | |AILSBRCVTDSW
| |
- | |12
| |
- | |10
| |
- | |-
| |
- | |Двинских Дарина
| |
- | |Повышение качества прогнозирования с использованием групп товаров
| |
- | |[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/doc/DvinskikhDemandForecasting.pdf paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Dvinskikh2015DemandForecasting/doc/Dvinskikh.Presentation.pdf slides]
| |
- | |Каневский Д. Ю.
| |
- | |Смирнов
| |
- | |0.5
| |
- | |3 (7)
| |
- | |AILSBRCVTDEHS
| |
- | |14
| |
- | |10
| |
- | |-
| |
- | |Ефимов Юрий
| |
- | |Поиск внешней and внутренней границ радужки на изображении глаза методом парных градиентов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/Efimov2015IrisBorderRecognition.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Efimov2015IrisBorderRecognition/doc/15_presentation.pdf?format=raw slides]
| |
- | |Матвеев И. А.
| |
- | |Нейчев
| |
- | |
| |
- | |
| |
- | |AILSBRCVTDEW
| |
- | |12
| |
- | |10
| |
- | |-
| |
- | |Жариков Илья
| |
- | |Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015ECGVerification.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zharikov2015ECGVerification/doc/Zharikov2015Presentation.pdf?format=raw slides]
| |
- | |Ишкина Шаура
| |
- | |Бочкарев
| |
- | |3.5
| |
- | |3 (5)
| |
- | |AIL+SBRCVTDEHSW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Задаянчук Андрей
| |
- | |Выбор оптимальной модели классификации физической активности
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/doc/Zadayanchuk2015OptimalNN.pdf paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015OptimalNN/doc/Zadayanchuk2015OptimalNNpresentation.pdf slides]
| |
- | |[[Участник:Mpopova|Maria Popova]]
| |
- | |Гончаров
| |
- | |2
| |
- | |0 (17)
| |
- | |AI-LSB+RCVTD
| |
- | |10
| |
- | |10
| |
- | |-
| |
- | |Златов Александр
| |
- | |Построение иерархической модели крупной конференции
| |
- | ||[https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/doc/ConferenceModel.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Zlatov2015ConferenceModel/doc/Zlatov2015ConferenceModelPresentation.pdf?format=raw slides]
| |
- | |Арсентий Кузьмин
| |
- | |Двинских
| |
- | |1.5
| |
- | |3 (14)
| |
- | |AI+L+SBRC++V+TDESW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Isachenko Roman
| |
- | |Метрическое обучение and снижение размерности пространства в Taskх кластеризации временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MetricLearning.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Isachenko2015MetricLearning/doc/Isachenko2015MLPresentation.pdf?format=raw slides]
| |
- | |[[Участник:Katrutsa|Катруца Александр]]
| |
- | |Жариков
| |
- | |3.5
| |
- | |3 (14)
| |
- | |A-I+L+S-BR+CVTDEHSW
| |
- | |14.25
| |
- | |10
| |
- | |-
| |
- | |Нейчев Радослав
| |
- | |Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/doc/Neychev2015FeatureSelection.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/doc/Neychev2015FSPresentation.pdf?format=raw slides]
| |
- | |[[Участник:Katrutsa|Катруца Александр]]
| |
- | |Ефимов
| |
- | |1
| |
- | |3 (9)
| |
- | |AI-L-SBRCVTDEHSW
| |
- | |13.5
| |
- | |10
| |
- | |-
| |
- | |Подкопаев Александр
| |
- | |Прогнозирование четвертичных структур белков
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/doc/Podkopaev2015ProteinStructures.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Podkopaev2015ProteinStructures/doc/Podkopaev2015ProteinStructuresPresentation.pdf?format=raw slides]
| |
- | |Ю. В. Максимов
| |
- | |Решетова
| |
- | |3.5
| |
- | |3 (11)
| |
- | |AILS+B+RCVTDEHS
| |
- | |13.5
| |
- | |10
| |
- | |-
| |
- | |Решетова Дарья
| |
- | |Методы многоклассовой классификации с улучшенными оценками сходимости в Taskх частичного обучения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/code code],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/doc/Reshetova2015MulticlussClussification.pdf?format=raw paper],
| |
- | [https://svn.code.sf.net/p/mlalgorithms/code/Group274/Reshetova2015MetricLearning/doc/presentation.pdf?format=raw slides]
| |
- | |Максимов Юрий
| |
- | |Камзолов
| |
- | |2.5
| |
- | |3 (10)
| |
- | |AIL++SB+RCVT++DEHS-
| |
- | |14
| |
- | |10
| |
- | |-
| |
- | |Смирнов Евгений
| |
- | |Тематическая модель интересов постоянных пользователей мобильного приложения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/Code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/doc/Smirnov2015TopicModeling.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Smirnov2015TopicModeling/doc/Smirnov2015Presentation.pdf?format=raw slides]
| |
- | |Виктор Сафронов
| |
- | |Златов
| |
- | |1
| |
- | |1 (4)
| |
- | |AILSBRCVTWDE
| |
- | |11.25
| |
- | |10
| |
- | |-
| |
- | |Соломатин Иван
| |
- | |Определение области затенения радужки классификатором локальных текстурных признаков
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/code code], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/doc/article.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Solomatin2015EESLocalization/doc/Solomatin.EESLocalisation.Presentation.pdf?format=raw slides]
| |
- | |Матвеев И. А.
| |
- | |Бернштейн
| |
- | |
| |
- | |3 (9)
| |
- | |AILSBRCVTDE
| |
- | |11
| |
- | |10
| |
- | |-
| |
- | |Черных Владимир
| |
- | |Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/doc/SteninaChernykh2015ArimaHistForecast.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/doc/presentation/Chernykh2015Presentation.pdf?format=raw slides]
| |
- | |[[Участник:Medvmasha|Стенина Мария]]
| |
- | |Шишковец
| |
- | |3.5
| |
- | |3 (4)
| |
- | |A+I+LSBRCVT+DE++H++
| |
- | |13.75
| |
- | |10
| |
- | |-
| |
- | |Шишковец Светлана
| |
- | |Регуляризация линейного наивного байесовского классификатора.
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/doc/Shishkovets2015NaivBayes.pdf?format=raw paper], [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Shishkovets2015NaivBayes/doc/Shishkovets_Presentation.pdf?format=raw slides]
| |
- | |[[Участник:Uskov Mikhail|Михаил Усков]], [[Участник:Vokov|Константин Воронцов]]
| |
- | |Черных
| |
- | |3.5
| |
- | |2 (9)
| |
- | |A+I+L+SBR+CV+TD+E+H+S
| |
- | |15
| |
- | |10
| |
- | |-
| |
- | |Камзолов Дмитрий
| |
- | |Новые алгоритмы для задачи ранжирования веб-страниц
| |
- | |—
| |
- | |Александр Гасников, Yuri Maksimov
| |
- | |Подкопаев
| |
- | |
| |
- | |
| |
- | |AILSB+RCVT+DEHS--
| |
- | |13
| |
- | |8
| |
- | |-
| |
- | |Сухарева Анжелика
| |
- | |Классификация научных текстов по отраслям знаний
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/code code],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/doc/Sukhareva2015TextClassification.pdf?format=raw paper],
| |
- | [http://svn.code.sf.net/p/mlalgorithms/code/Group274/Sukhareva2015TextClassification/doc/Sukhareva_Presentation.pdf?format=raw slides]
| |
- | | [[Участник:Sidious|Сергей Царьков]]
| |
- | |
| |
- | |0.5
| |
- | |
| |
- | |AILSBRCVTDEH
| |
- | |
| |
- | |9
| |
- | |-
| |
- | |}
| |
- |
| |
- |
| |
- | === Task 1 ===
| |
- | * '''Name:''' Повышение качества прогнозирования спроса с использованием групп товаров
| |
- | * '''Task:'''
| |
- | Дано:
| |
- | *# Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников and периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
| |
- | *# Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
| |
- | *# Функция потерь, по которой измеряется качество прогнозов: MAPE.
| |
- | *# Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).
| |
- |
| |
- | Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности.
| |
- | Замечание: возможны and другие варианты повышения качества прогнозирования за счёт работы с группами товаров.
| |
- | Task заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом.
| |
- | Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.
| |
- | * '''Data:'''
| |
- | *# Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
| |
- | * '''References:'''
| |
- | *# Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы and статистика, 2003.
| |
- | *# http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
| |
- | *# Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
| |
- | *# Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
| |
- | * '''Basic algorithm:''' Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
| |
- | *# Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
| |
- | *# Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
| |
- | *# Сезонность оценивается по кластерам, исходя из методики [3], [4].
| |
- | * '''Solution:''' Требуется реализовать объединение модели сезонности [3] and модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] and [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников and маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
| |
- | * '''Novelty:''' Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
| |
- | * '''consultant:''' Каневский Д.Ю.
| |
- |
| |
- | === Task 2 ===
| |
- | * '''Name:''' Исследование связи онкологических заболеваний and экологической ситуации по пространственно-временной выборке
| |
- | * '''Task:''' Дана матрица с оценками экологической обстановки and данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами and тенденцию изменения параметров на протяжении временного ряда.
| |
- | * '''Data:''' таблица с данными об экологической ситуации and количестве онкологических заболеваний в Ростовской области.
| |
- | * '''References:'''
| |
- | ** http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
| |
- | ** http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
| |
- | ** http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
| |
- | ** http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
| |
- | ** http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
| |
- | ** http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
| |
- | ** [https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9C%D0%B0%D1%85%D0%B0%D0%BB%D0%B0%D0%BD%D0%BE%D0%B1%D0%B8%D1%81%D0%B0] - википедия: Расстояние Махаланобиса
| |
- | ** http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
| |
- | * '''Basic algorithm:''' Сравнений с базовым алгоритмом проводить не предполагается
| |
- | * '''Solution:''' Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
| |
- | * '''Novelty:''' В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами and динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
| |
- | * '''consultant:''' Oleg Bakhteev.
| |
- |
| |
- | === Task 3 ===
| |
- | * '''Name:''' Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
| |
- | * '''Task''': Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами and т.д.)
| |
- | * '''Data:''' Синтетические данные and тесты.
| |
- | * '''References:''':
| |
- | ** Зайцев А.А., Strizhov V.V., Tokmakova A.A. [http://strijov.com/papers/ZaytsevStrijovTokmakova2012Likelihood_Preprint.pdf Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия] // Информационные технологии, 2013, 2 — 11-15.
| |
- | ** Kuznetsov M.P., Tokmakova A.A., Strijov V.V. [http://strijov.com/papers/HyperOptimizationEng.pdf Analytic and stochastic methods of structure parameter estimation] // Preprint, 2015.
| |
- | ** Aduenko A. A. Презентация по Evidence, 2015. [[Медиа:aduenko_presentation_russian.pdf|aduenko_presentation_russian.pdf]]
| |
- | ** Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
| |
- | * '''Basic algorithm:''' Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
| |
- | * '''Solution:'''
| |
- | * '''Novelty:''' Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
| |
- | * '''consultant:''' Alexander Aduenko.
| |
- |
| |
- | === Task 6 ===
| |
- | * '''Name:''' Прогнозирование четвертичных структур белков: нивелирование
| |
- | * '''Task:''' Task заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.
| |
- | Нужно исследовать эту формулировку and предложить алгоритм решения.
| |
- |
| |
- | Suppose we have <tex>N</tex> proteins in an assembly, such that each protein <tex>i</tex> can be located in one of <tex>P</tex> positions <tex>x_{p}^{i}</tex>. <tex>N</tex> is ~ 10, <tex>P</tex> ~ 100. To each two vectors <tex>x_{i}^{p}</tex> and <tex>x_{j}^{q}</tex>, we can assign an energy function <tex>q_{0}</tex>, which is the overlap integral in the simplest approximation. Each protein position also has an associated score <tex>b_{0}</tex>.
| |
- | Thus, the optimal packing problem can be formulated as
| |
- |
| |
- | <tex>
| |
- | \begin{align}
| |
- | x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\
| |
- | \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\
| |
- | && x_{i}^{k}\geq0\;\forall i,k
| |
- | \end{align}
| |
- | </tex>
| |
- |
| |
- | * '''Data:''' Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий and интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, [http://nano-d.inrialpes.fr/software/hermitefit/ HermiteFit]. Данные генерируются за ~ 1 минуту, модификация кода and подготовка данных займет ~ 1 неделю.
| |
- | * '''References:''' Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
| |
- | * '''Замечания по коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
| |
- | * '''Basic algorithm:''' Хочется попробовать выпуклые релаксации.
| |
- | * '''Novelty:''' Выпуклые релаксации не применялись ранее в таких Taskх на данных белков
| |
- | * '''consultant:''' Ю.В. Максимов
| |
- |
| |
- | === Task 8 ===
| |
- | * '''Name:''' Структурное обучение при порождении моделей
| |
- | * '''Task''': Решается Task поиска ранжирующей функции в Taskх информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных and параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
| |
- | * '''Data:''' Подколлекции TREC.
| |
- | * Описание коллекции данных, используемых для оценки функций, and процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
| |
- | * '''References:'''
| |
- | ** Jaakkola T. Scaled structured prediction.
| |
- | ** [http://www.youtube.com/watch?v=LbsBguCUFEc|Лекция Tommi Jaakkola “Scaling structured prediction”]
| |
- | ** ''Найти все работы учеников TJ по данной тематике.''
| |
- | ** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
| |
- | * '''Basic algorithm:''' Парантапа, BM25 - модели для сравнения.
| |
- | * '''Solution:''' Предлагается кластеризовать коллекцию and породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
| |
- | * '''Novelty:''' Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
| |
- | * * '''consultant:''' Анна Варфоломеева, Oleg Bakhteev
| |
- |
| |
- | === Task 9 ===
| |
- | * '''Name:''' Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» and оценка качества электрокардиограмм.
| |
- | * '''Task:''' Решается Task проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних and тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается Task автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
| |
- | * '''Data:''' Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, and прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков and оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
| |
- | * '''References:'''
| |
- | *# Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
| |
- | *# [[Технология информационного анализа электрокардиосигналов]]
| |
- | *# Успенский В.М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика and информатика, 2008. 116с.
| |
- | *# Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
| |
- | *# Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
| |
- | *# Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
| |
- | *# Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
| |
- | *# Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
| |
- | *# Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
| |
- | * '''Basic algorithm:''' Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
| |
- | * '''Solution:''' Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов and R-амплитуд and выявленных кодовых последовательностей (вычисляются по амплитудам and интервалам) для каждого заболевания. Здесь возникает Task обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает Task оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
| |
- | * '''Novelty:''' Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, and в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии and некоторые другие признаки [7].
| |
- | * '''consultant:''' Ишкина Шаура
| |
- |
| |
- | === Task 12 ===
| |
- | * '''Name:''' Обучение метрик в Taskх полного and частичного обучения
| |
- | * '''Task:''' состоит в программной реализации комплекса методов выпуклой and DC-оптимизации для задачи выбора оптимальной метрики в Taskх распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
| |
- | * '''Data:''' Birds and Fungus коллекции ImageNet с извлеченными Deep features(предоставляется consultantом). Первичные тесты можно проводить на данных представленных [http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html здесь]
| |
- | * '''References:''' Список литературы and описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
| |
- | * '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
| |
- | * '''Basic algorithm:''' 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
| |
- | * '''consultant:''' Ю.В. Максимов
| |
- |
| |
- | == Plans for next year: ==
| |
- | # Expand the matlab test and give it along with the trial programming as the first task.
| |
- | =2014=
| |
- |
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Author
| |
- | ! Topic
| |
- | ! Link
| |
- | ! Consultant
| |
- | ! DZ-1
| |
- | ! Letters
| |
- | ! Sum
| |
- | ! Grade
| |
- | |-
| |
- | |[[Участник:rgazizullina|Газизуллина Римма]]
| |
- | |Прогнозирование объемов железнодорожных грузоперевозок по парам веток
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/], [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Gazizullina2014RailwayForecasting/doc/Gazizullina2014RailwayForecasting.pdf?format=raw pdf]
| |
- | |[[Участник:Medvmasha|Стенина Мария]]
| |
- | |<tex>\frac{15}{15}+\frac{10}{16}</tex>
| |
- | |[MF]TAI+L+SBR+CV+T>DEH(J)
| |
- | |16
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Agrinchuk|Гринчук Алексей]]
| |
- | |Выбор оптимальных структур прогностических моделей методами структурного обучения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014StructuredPrediction/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Grinchuk2014StructuredPrediction/doc/Grinchuk2014StructuredPrediction.pdf?format=raw pdf]
| |
- | |Варфоломеева Анна
| |
- | |<tex>\frac{7}{15}+\frac{2}{16}</tex>
| |
- | |[F]TA+I+LSBR+СV+T+D+E(F)
| |
- | |14,5
| |
- | |9
| |
- | |-
| |
- | |[[Участник:Aguschin|Гущин Александр]]
| |
- | |Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Guschin2014FeaturesGeneration/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Guschin2014FeaturesGeneration/doc/Guschin2014DocumentRetrieval.pdf?format=raw pdf]
| |
- | |[[Участник:Mikethehuman|Кузнецов Михаил]]
| |
- | |<tex>\frac{5}{15}+\frac{2}{16}</tex>
| |
- | |[F]TAI+L+SBRCVTDEHS(F)
| |
- | |15,5
| |
- | |9
| |
- | |-
| |
- | |[[Участник:Iefimova|Ефимова Ирина]]
| |
- | |Дифференциальная диагностика заболеваний по электрокардиограмме
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Efimova2014DiagnosticsOfDiseases/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Efimova2014DiagnosticsOfDiseases/doc/Efimova2014DiagnosticsOfDiseases.pdf?format=raw pdf]
| |
- | |[[Участник:Celyh|Целых Влада]]
| |
- | |<tex>\frac{15}{15}+\frac{12}{16}</tex>
| |
- | |[MF]T+A+I+L+SB++R+CV+TDE+H(J ed)
| |
- | |17,25
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Azhukov|Жуков Андрей]]
| |
- | |Построение рейтингов вузов: панельный анализ and оценка устойчивости
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Zhukov2014UniversityRanking/doc/Zhukov2014UniversityRanking.pdf?format=raw pdf]
| |
- | |[[Участник:Mikethehuman|Кузнецов Михаил]]
| |
- | |<tex>\frac{8}{15}+0</tex>
| |
- | |[F]TAIL+SBRCVTDEHS(F)
| |
- | |15,25
| |
- | |9
| |
- | |-
| |
- | |[[Участник:Aignatov|Игнатов Андрей]]
| |
- | |Обучение многообразий для прогнозирования наборов квазипериодических временных рядов
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Ignatov2014ManifoldsTraining/doc/Ignatov2014ManifoldsTraining.pdf?format=raw pdf]
| |
- | |Ивкин Никита
| |
- | |<tex>0+\frac{7}{16}</tex>
| |
- | |[MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed)
| |
- | |18
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Mkarasikov|Карасиков Михаил]]
| |
- | |Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014MulticlassClassification/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Karasikov2014MulticlassClassification/doc/Karasikov2014MulticlassClassification.pdf?format=raw pdf]
| |
- | |Ю.В. Максимов
| |
- | |<tex>0+0</tex>
| |
- | |[MF]TAI+L+SBRC+V+TDESH(J)
| |
- | |15
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Кулунчаков|Кулунчаков Андрей]]
| |
- | |Обнаружение изоморфных структур существенно нелинейных прогностических моделей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/doc/Kulunchakov2014IsomorphicStructures.pdf?format=raw pdf]
| |
- | |Сологуб Роман, [[Участник:Mikethehuman|Кузнецов Михаил]]
| |
- | |<tex>\frac{10}{15}+\frac{14}{16}</tex>
| |
- | |[F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed)
| |
- | |17
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Alipatova|Липатова Анна]]
| |
- | |Обнаружение закономерностей в наборе временных рядов методами структурного обучения
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Lipatova2014StructureLearning/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Lipatova2014StructureLearning/doc/Lipatova2014StructureLearning.pdf?format=raw pdf]
| |
- | |А. П. Мотренко
| |
- | |<tex>\frac{8}{15}+\frac{6}{16}</tex>
| |
- | |[MF]TA+I+LSBR-CVTDE (J when ed)
| |
- | |14,25
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Nmakarova|Макарова Анастасия]]
| |
- | |Использование нелинейного прогнозирования при поиске зависимостей между временными рядами
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DynamicTS/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Makarova2014DynamicTS/doc/Makarova2014DynamicTS.pdf?format=raw pdf]
| |
- | |Мотренко Анастасия
| |
- | |<tex>0+0</tex>
| |
- | |[F]TAI-LSB+R-CVTD>E>(F)
| |
- | |12,75
| |
- | |9
| |
- | |-
| |
- | |[[Участник:Aplavin|Плавин Александр]]
| |
- | |Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Plavin2014TopicsNumberOptimization/doc/Plavin2014TopicsNumberOptimization.pdf?format=raw pdf]
| |
- | |[[Участник:AnyaP|Потапенко Анна]]
| |
- | |<tex>\frac{13}{15}+\frac{14}{16}</tex>
| |
- | |[F]T+A+I+L+S+BR++CVTD+>>(?)
| |
- | |14
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Mpopova|Попова Мария]]
| |
- | |Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Popova2014OptimalModelSelection/doc/Popova2014OptimalModelSelection.pdf?format=raw pdf]
| |
- | |[[Участник:Aleksandra.Tokmakova|Токмакова Александра]]
| |
- | |<tex>\frac{11}{15}+\frac{6}{16}</tex>
| |
- | |[MF]T+AI+L++SB++R+CV+TD+(JV ed)
| |
- | |15,25
| |
- | |10
| |
- | |-
| |
- | |[[Участник:Mshvets|Швец Михаил]]
| |
- | |Интерпретация мультимоделей при обработке социологических данных
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shvets2014MultimodelInterpretation/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shvets2014MultimodelInterpretation/doc/Shvets2014MultimodelInterpretation.pdf?format=raw pdf]
| |
- | |[[Участник:Aduenko|Адуенко Александр]]
| |
- | |<tex>\frac{11}{15}+\frac{4}{16}</tex>
| |
- | |[M+F]T+A+I+L+S+B+R+CVTD+E(F)
| |
- | |16,25
| |
- | |9
| |
- | |-
| |
- | |[[Участник:Mshinkevich|Шинкевич Михаил]]
| |
- | |Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели
| |
- | |[http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group174/Shinkevich2014RegularizatorsCombination/], [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Shinkevich2014RegularizatorsCombination/doc/Shinkevich2014RegularizatorsCombination.pdf?format=raw pdf]
| |
- | | Дударенко Марина
| |
- | |<tex>\frac{15}{15}+\frac{9}{16}</tex>
| |
- | |[MF]T+AIL+S+BR+CV+T+D+E+H(J ed)
| |
- | |17
| |
- | |10
| |
- | |-
| |
- | |}
| |
- |
| |
- | ===1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания===
| |
- |
| |
- | '''consultant:''' А.А. Потапенко
| |
- |
| |
- | '''Task:''' Вероятностная тематическая модель описывает вероятности появления слов <tex>w\in W</tex> в документах <tex>d\in D</tex> через латентные темы <tex>t\in T</tex>:
| |
- |
| |
- | <tex> p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}. </tex>
| |
- |
| |
- | Требуется проверить гипотезу, что,
| |
- | накладывая ограничения на матрицу <tex>\Theta</tex> с помощью регуляризатора строкового разреживания,
| |
- | возможно определить оптимальное число тем.
| |
- |
| |
- | '''Data:''' Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.
| |
- |
| |
- | '''References:'''
| |
- | * [[Медиа:Task-PTM-Potapenko.pdf| Описание задачи and предлагаемые пути решения]]
| |
- | * Vorontsov K. V. Аддитивная регуляризация тематических моделей коллекций текстовых доку-
| |
- | ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
| |
- | * Vorontsov K. V. Вероятностное тематическое моделирование. — 2014.
| |
- | http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
| |
- | * Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the
| |
- | American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.
| |
- |
| |
- | '''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
| |
- |
| |
- | '''Novelty:''' Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, and при этом сложна как для понимания, так and для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость and простоту. Task оптимизации числа тем ещё не рассматривалась в рамках ARTM.
| |
- |
| |
- | ===2. Дифференциальная диагностика заболеваний по электрокардиограмме===
| |
- |
| |
- | '''consultant:''' В.Р. Целых
| |
- |
| |
- | '''Task:''' Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого and второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.
| |
- |
| |
- | '''Data:''' Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.
| |
- |
| |
- | '''References:'''
| |
- | * Vorontsov K. V. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
| |
- | * Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
| |
- | * Успенский В. М. Информационная функция сердца. Теория and практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика and информация», 2008. — 116 с.
| |
- | '''Basic algorithm:''' Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.
| |
- |
| |
- | '''Novelty:''' Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации and исследована его обобщающая способность.
| |
- |
| |
- | ===3. Влияние регуляризаторов разреживания, сглаживания and декорреляции на устойчивость вероятностной тематической модели===
| |
- |
| |
- | '''consultant:''' М.A. Дударенко
| |
- |
| |
- | '''Task:'''Вероятностная тематическая модель описывает вероятности появления слов <tex>w\in W</tex> в документах <tex>d\in D</tex> через латентные темы <tex>t\in T</tex>:
| |
- |
| |
- | <tex> p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.</tex>
| |
- |
| |
- | Представление матрицы <tex>\|p(w|d)\|_{W\times D}</tex>
| |
- | в виде произведения двух матриц меньшего размера <tex>{\Phi=\|\phi_{wt}\|_{W\times T}}</tex> and <tex>{\Theta=\|\theta_{dt}\|_{T\times D}}</tex> не единственно:
| |
- | <tex>\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'</tex>
| |
- | для некоторых невырожденных <tex>S</tex>.
| |
- | Требуется проверить гипотезу, что, накладывая ограничения на матрицы <tex>\Phi, \Theta</tex> с помощью регуляризаторов,
| |
- | возможно повысить устойчивость их восстановления.
| |
- |
| |
- | '''Data:''' Коллекция документов задаётся частотами слов. Поскольку для
| |
- | решения задачи необходимо знать «истинные» матрицы <tex>\Phi, \Theta,</tex> эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем and наличия фоновых тем.
| |
- |
| |
- | '''References:'''
| |
- | * Vorontsov K. V. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
| |
- | * Vorontsov K. V. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.
| |
- |
| |
- | '''Basic algorithm:''' Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.
| |
- |
| |
- | '''Novelty:''' Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости and интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.
| |
- |
| |
- | ===4. Построение рейтингов вузов: панельный анализ and оценка устойчивости===
| |
- |
| |
- | '''consultant:''' М.П. Кузнецов
| |
- |
| |
- | '''Task:''' Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза and целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.
| |
- |
| |
- | '''Data:''' Данные по ста ведущим мировым университетам за восемь лет.
| |
- |
| |
- | '''References:'''
| |
- | * Strizhov V.V. Уточнение Expertных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
| |
- | * Strizhov V.V. Уточнение Expertных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
| |
- | * Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
| |
- | * ''Черновик статьи POF по запросу.''
| |
- | '''Basic algorithm:''' Методика построения рейтинга RUR and один из избыточно устойчивых алгоритмов для ранговых шкал.
| |
- |
| |
- | '''Novelty:''' Введено понятие интерпретируемости изменения позиции рейтинга. Решена Task выбора and оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная Task управления: как изменить показатели вуза, чтобы достичь заданной цели.
| |
- |
| |
- | ===5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения===
| |
- |
| |
- | '''consultant:''' А.П. Мотренко
| |
- |
| |
- | '''Task:''' Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность Expertных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей and найти структуру, наиболее согласованную с мнением Expertа.
| |
- |
| |
- | '''References:'''
| |
- | * R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
| |
- | * J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
| |
- | * J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
| |
- | * Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
| |
- | * Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
| |
- | '''Basic algorithm:''' моделирование структурных уравнений, SEM
| |
- |
| |
- | '''Novelty:''' Предложен метод оценки достоверности Expertных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры and оценкой достоверности высказывания.
| |
- |
| |
- | ===18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами===
| |
- |
| |
- | '''consultant:''' А.П. Мотренко
| |
- |
| |
- | '''Task:''' (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда and исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных and выявлению связей между ними; описать границы применимости базового алгоритма and предложить новые варианты выявляемых структурных связей.
| |
- | Data: Синтетические данные, исторические биржевые цены на основные инструменты and данные по железнодорожным грузоперевозкам.
| |
- |
| |
- | '''References:'''
| |
- | * Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
| |
- | * Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
| |
- | * George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
| |
- | * Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение and анализ данных. 2013. T. 1, № 5. C. 505-518.
| |
- | * Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. 2012. T. 1, № 4. C. 448-465.
| |
- | '''Basic algorithm:''' convergent cross mapping
| |
- |
| |
- | '''Novelty:''' Предложены различные структуры связей между временными рядами and метод проверки наличия связей
| |
- |
| |
- | ===6. Последовательное порождение существенно нелинейных моделей в Taskх ранжирования документов===
| |
- |
| |
- | '''consultant:''' М.П. Кузнецов
| |
- |
| |
- | '''Task:''' Предложить and протестировать на тестовых and реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).
| |
- |
| |
- | '''Data:''' Синтетические данные, данные по текстовым коллекциям LIG.
| |
- |
| |
- | '''References:'''
| |
- | * Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
| |
- | * Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
| |
- | * Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
| |
- | * Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
| |
- | * Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.
| |
- | '''Basic algorithm:''' Алгоритм полного перебора допустимых суперпозиций порождающих функций.
| |
- |
| |
- | '''Novelty:''' Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции and понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
| |
- |
| |
- | ===7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей===
| |
- |
| |
- | '''consultant:''' Р.А. Сологуб, М.П. Кузнецов
| |
- |
| |
- | '''Task:''' Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма and для алгоритма поэлементного сравнения отображений.
| |
- |
| |
- | '''Data:''' Данные по биржевым опционам: зависимость волатильности опциона от цены and времени его исполнения.
| |
- |
| |
- | '''References:'''
| |
- | * Рудой Г.И., Strizhov V.V. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика and её применения, 2013, 7(1) — 17-26.
| |
- | * Рудой Г.И., Strizhov V.V. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
| |
- | * Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
| |
- | * Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
| |
- | * Strizhov V.V., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.
| |
- | '''Basic algorithm:''' Алгоритм поэлементного сравнения отображений.
| |
- |
| |
- | '''Novelty:''' Предложен быстрый алгоритм упрощения суперпозиций and поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.
| |
- |
| |
- | ===8. Построение прогностических моделей как суперпозиций Expertно-заданных функций===
| |
- |
| |
- | '''consultant:''' Н.П. Ивкин
| |
- |
| |
- | '''Task:''' Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).
| |
- |
| |
- | '''Data:''' данные с акселерометра мобильного телефона.
| |
- |
| |
- | '''References:'''
| |
- | * Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
| |
- | * Хайкин С. Нейронные сети. Вильямс, 2006.
| |
- | '''Basic algorithm:''' нейронная сеть (вариант: нейронная сеть глубокого обучения).
| |
- |
| |
- | '''Novelty:''' Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций Expertно-заданных функций.
| |
- |
| |
- | Сравнение структурной and топологической сложности в Taskх классификации.
| |
- |
| |
- | ===9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов ===
| |
- |
| |
- | '''consultant:''' Н.П. Ивкин
| |
- |
| |
- | '''Task:''' Решается Task классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба and др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.
| |
- |
| |
- | '''Data:''' данные с акселерометра мобильного телефона.
| |
- |
| |
- | '''References:'''
| |
- | * Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011
| |
- | '''Basic algorithm:''' нейронная сеть
| |
- |
| |
- | '''Novelty:''' предложен способ классификации квазипериодических временных рядов на основе многообразий
| |
- |
| |
- | === 10. Интерпретация мультимоделей при обработке социологических данных ===
| |
- | '''consultant:''' А.А. Адуенко
| |
- |
| |
- | '''Task:''' Task кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так and категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей and градиентный бустинг.
| |
- |
| |
- | '''Data:''' данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).
| |
- |
| |
- | '''References:'''
| |
- | * смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
| |
- | * бустинг (лекция «Композиционные методы классификации and регрессии» Воронцова)
| |
- |
| |
- | '''Basic algorithm:''' бустинг.
| |
- |
| |
- | '''Novelty:''' Выявление and объяснение сходств and различий решений, полученных двумя указанными алгоритмами.
| |
- |
| |
- | === 11. Выбор оптимальных структур прогностических моделей методами структурного обучения ===
| |
- | '''consultant:''' А.А. Варфоломеева
| |
- |
| |
- | '''Task:''' Предлагается решать задачу прогнозирования в два этапа: сначала по Storyм построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.
| |
- |
| |
- | '''Data:''' синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.
| |
- |
| |
- | '''References:'''
| |
- | * Jaakkola T. Scaled structured prediction.
| |
- | * URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
| |
- | * ''Найти все работы учеников TJ по данной тематике.''
| |
- | * Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
| |
- |
| |
- | '''Basic algorithm:''' алгоритм метапрогнозирования, описанный в дипломной работе.
| |
- |
| |
- | '''Novelty:''' Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.
| |
- |
| |
- | ===12. Инварианты при прогнозировании квазипериодических рядов ===
| |
- | '''consultant:''' А.А. Кузьмин
| |
- |
| |
- | '''Task:''' Решается Task почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.
| |
- |
| |
- | '''Data:''' почасовые данные о ценах and объема потребления электроэнергии (вставить ссылку).
| |
- |
| |
- | '''References:'''
| |
- | * Сандуляну Л.Н., Strizhov V.V. Выбор признаков в авторегрессионных Taskх прогнозирования // Информационные технологии, 2012, 7 — 11-15.
| |
- | *''(взять из последней статьи Фадеева)''
| |
- |
| |
- | '''Basic algorithm:''' авторегрессионное прогнозирование, описанное в работе Сандуляну.
| |
- |
| |
- | '''Novelty:''' Предложен алгоритм совместной оценки параметров инвариантов and авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.
| |
- |
| |
- | === 13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток ===
| |
- | '''consultant:''' М.М. Стенина (Медведникова)
| |
- |
| |
- | '''Task:''' Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.
| |
- |
| |
- | '''Data:''' посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.
| |
- |
| |
- | '''References:'''
| |
- | *Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение and анализ данных. — 2012. — № 4.
| |
- |
| |
- | '''Basic algorithm:''' гистограммное прогнозирование, описанное в статье.
| |
- |
| |
- | '''Novelty:''' предлагается повысить качество прогноза путем разделения данных на меньшие части and прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.
| |
- |
| |
- | ===14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра ===
| |
- | '''consultant:''' А.А. Токмакова
| |
- |
| |
- | '''Task:''' Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую and точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.
| |
- |
| |
- | '''Data:''' Набор временных рядов измерений акселерометра.
| |
- |
| |
- | '''References:'''
| |
- | * Прореживание нейронных семей на сайте Machinelearning.ru.
| |
- | * Хайкин С. Нейронные сети. Вильямс, 2006.
| |
- | '''Basic algorithm:''' Optimal Brain Damage/Optimal Brain Surgery.
| |
- |
| |
- | '''Novelty:''' Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.
| |
- |
| |
- | === 15. Метапрогнозирование временных рядов ===
| |
- | '''consultant:''' А.С. Инякин, Н.П. Ивкин
| |
- |
| |
- | '''Task:''' Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Expertно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.
| |
- |
| |
- | '''Data:''' Библиотека квазипериодических and апериодических временных рядов
| |
- |
| |
- | '''References:'''
| |
- | * Kuznetsov M.P., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 104-112.
| |
- | * Фадеев И.В., Ivkin N.P., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение and анализ данных. 2011. T. 1, № 1. C. 92-103.
| |
- | '''Basic algorithm:''' Использовать алгоритм SAS/SPSS.
| |
- |
| |
- | '''Novelty:''' Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.
| |
- |
| |
- | === 16. Идентификация человека по изображению радужной оболочки глаза ===
| |
- | '''consultant:''' И.А. Матвеев
| |
- |
| |
- | '''Task:''' В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания and более того, использование данных с затенённых участков может порождать ложные признаки and снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.
| |
- |
| |
- | '''Data:''' растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны and другие размеры) and координаты центров and радиусы двух окружностей, аппроксимирующих зрачок and радужку.
| |
- |
| |
- | '''References:'''
| |
- | * [[Медиа:TaskIris.pdf |Описание задачи and предлагаемые пути решения]]
| |
- | * Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
| |
- | * Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
| |
- | * MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
| |
- | * Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
| |
- | * G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.
| |
- | '''Basic algorithm:''' метод, использующий скользящее окно and текстурные признаки [2006: Xu, Zhang, Ma].
| |
- |
| |
- | '''Novelty:''' построена маска открытой области радужки.
| |
- |
| |
- | === 17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач ===
| |
- | '''consultant:''' Ю.В. Максимов
| |
- |
| |
- | '''Task:''' Исследовать различные подходы к решению задач классификации с многими классами and сравнить их эффективность.
| |
- |
| |
- | '''Data:''' Данные с различным числом классов.
| |
- | 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных.
| |
- | 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/.
| |
- | 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc
| |
- |
| |
- | '''References:'''
| |
- | * [[Медиа:LearningEmbedding.pdf |Описание задачи and предлагаемые пути решения]]
| |
- | * Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
| |
- | * Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
| |
- | * Tax, Duin. Using two-class classifiers for multiclass classification. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf
| |
- | * Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101
| |
- | * Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classifiers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf
| |
- |
| |
- | '''Базовые алгоритмы:''' SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)
| |
- |
| |
- | == Домашнее задание-2: пробное программирование ==
| |
- | {|class="wikitable"
| |
- | ! Task
| |
- | ! Кто делает
| |
- | ! Номер
| |
- | |-
| |
- | |Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Требуется определить кластеры (регионы происхождения вин) and нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means and EM, and показать сравнение результатов кластеризации на графике.
| |
- | |Плавин
| |
- | | 1
| |
- | |-
| |
- | |Предложить способы визуализации наборов четырехмерных векторов, например для [http://archive.ics.uci.edu/ml/datasets/Iris Fisher's iris data].
| |
- | |Записать свою фамилию тут.
| |
- | | 2
| |
- | |-
| |
- | |Дан временной [http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption ряд], описывающий потребление электричества. Приблизить ряд несколькими [[Линейная регрессия (пример)| криволинейными моделями]] and нарисовать спрогнозированные and исходный ряды на одном графике.
| |
- | |Кулунчаков Андрей.
| |
- | | 3
| |
- | |-
| |
- | |Сгладить временной ряд [[Временной ряд (библиотека примеров)|Цены (объемы) на основные биржевые инструменты]] методом [[Экспоненциальное сглаживание| экспоненциального сглаживания]]. Нарисовать цветные графики сглаженных с различным <tex> \alpha </tex> рядов and исходного ряда.
| |
- | |Авдюхов
| |
- | | 4
| |
- | |-
| |
- | |Аппроксимация выборки замкнутой кривой [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Group874Essay/Group874Essay.pdf?format=raw]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно.
| |
- | | Газизуллина Римма
| |
- | | 5
| |
- | |-
| |
- | |Дан временной ряд с пропусками, например [http://archive.ics.uci.edu/ml/datasets/Gas+Sensor+Array+Drift+Dataset+at+Different+Concentrations]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки.
| |
- | |Игнатов Андрей
| |
- | | 6
| |
- | |-
| |
- | |Дана выборка [http://archive.ics.uci.edu/ml/datasets/Wine "Вина различных регионов"]. Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью [[Метод ближайших соседей| метода ближайшего соседа]]. Для каждой изобразить результат классификации в пространстве выбранных признаков.
| |
- | |Попова Мария
| |
- | | 7
| |
- | |-
| |
- | |Для различных видов зависимости <tex> y = f(x) + \epsilon </tex> (линейная, квадратичная, логарифмическая) построить [[Линейная регрессия (пример)| линейную регрессию]] and нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".
| |
- | |Ефимова Ирина
| |
- | | 8
| |
- | |-
| |
- | |Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.
| |
- | |Шинкевич Михаил
| |
- | | 9
| |
- | |-
| |
- | |Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки and их выпуклая оболочка – замкнутая ломаная линия.
| |
- | |Макарова Анастасия
| |
- | | 10
| |
- | |-
| |
- | |Дана выборка: [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера]. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.
| |
- | |Жуков Андрей
| |
- | | 11
| |
- | |-
| |
- | |Задан временной ряд – [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/TSForecasting/TimeSeries/Sources/tsEnergyConsumption.csv объемы почасового потребления электроэнергии] (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.
| |
- | |Карасиков Михаил
| |
- | | 12
| |
- | |-
| |
- | |Задано два одномерных [[Временной ряд (библиотека примеров) | временных ряда]] различной длины. Вычислить расстояние между рядами методом динамического выравнивания.
| |
- | |Гринчук Алексей
| |
- | | 13
| |
- | |-
| |
- | |Сгенерировать набор точек на плоскости. Выделить and визуализировать главные компоненты.
| |
- | | Липатова
| |
- | | 14
| |
- | |-
| |
- | |Аппроксимировать выборку [https://dmba.svn.sourceforge.net/svnroot/dmba/Data/WhiteBreadPrices.csv цены на хлеб] полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм.
| |
- | |Швец Михаил
| |
- | | 15
| |
- | |-
| |
- | |Разделить выборку [http://archive.ics.uci.edu/ml/datasets/Iris ирисы Фишера] на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами.
| |
- | | Гущин Александр
| |
- | | 16
| |
- | |-
| |
- | |'''И еще задания на выбор'''
| |
- | |
| |
- | |
| |
- | |-
| |
- | |Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).
| |
- | |
| |
- | |17
| |
- | |-
| |
- | |Сгладить временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]] скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.
| |
- | |Костюк
| |
- | |18
| |
- | |-
| |
- | |Дан временной ряд [[Временной ряд (библиотека примеров)|(см. библиотеку)]]. По его вариационному ряду построить гистограмму из <tex>n</tex> перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
| |
- | |Гиззатуллин Анвар
| |
- | |19
| |
- | |-
| |
- | |Показать разницу в скорости выполнения матричных операций and операций в цикле. Можно использовать в качестве примера [[Сингулярное разложение]] and другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).
| |
- | |
| |
- | |20
| |
- | |-
| |
- | |Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб [[Линейная регрессия (пример)|(данные)]].
| |
- | |
| |
- | |
| |
- | |-
| |
- | |}
| |
- |
| |
- | =2013=
| |
- |
| |
- | ==Моя первая публикация с кросс-рецензированием==
| |
- |
| |
- | == Задачи ==
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Task name
| |
- | ! Author
| |
- | ! Link
| |
- | !MAIPVTDCHSJ
| |
- | |-
| |
- | |Определение напечатанного изображения
| |
- | |Пушняков Алексей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Pushnyakov2013SpectrumImage/doc]
| |
- | |MAIPVTDCHSJ
| |
- | |-
| |
- | |Сравнение быстрых алгоритмов кластеризации
| |
- | |Катруца Александр
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Katrutsa2013RhoNets/Spring/doc]
| |
- | |MAIPVTDCHS
| |
- | |-
| |
- | |Векторная авторегрессия and управление макроэкономическими показателями
| |
- | |Кащеева Мария
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kashcheeva2013InverseVAR/doc]
| |
- | |MAIPVTDCHS
| |
- | |-
| |
- | |Разметка библиографических записей с помощью логических алгоритмов
| |
- | |Рыскина Мария
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Ryskina2013Txt2Bib/doc]
| |
- | |MAIPVTDCHS
| |
- | |-
| |
- | |Определение точной границы зрачка
| |
- | |Чинаев Николай
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Chinaev2013PupilBoundary/doc]
| |
- | |MAIPV.DCHS
| |
- | |-
| |
- | |Векторная авторегрессия and управление макроэкономическими показателями
| |
- | |Гринчук Олег
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Grinchuk2013InverseVAR/doc]
| |
- | |MAIPVTD.HS
| |
- | |-
| |
- | |Порождение нейронных сетей с Expertно-заданными функциями активации
| |
- | |Перекрестенко Дмитрий
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Perekrestenko2013DeepLearning/doc]
| |
- | |MAIPVTDСHS
| |
- | |-
| |
- | |Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей
| |
- | |Яшков Даниил
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Yashkov2013FeatureSelection/doc]
| |
- | |MAI.VTD.HS
| |
- | |-
| |
- | |Инвариантные преобразования в Taskх локального прогнозирования
| |
- | |Костин Александр
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Kostin2013Invariant4LocalForecast/doc]
| |
- | |MAI.VT.HS
| |
- | |-
| |
- | |Алгоритм генетического программирования для решения задачи прогнозирования
| |
- | |Воронов Сергей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Voronov2013GeneticProg/doc]
| |
- | |MAIPVTDC.S
| |
- | |-
| |
- | |Группировка номинальных переменных в Taskх банковского кредитного скоринга
| |
- | |Митяшов Андрей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Mityashov2013ScoringFeatureSelection/doc]
| |
- | |MAIPVTDCHS
| |
- | |-
| |
- | | Моделирование процесса обучения and забывания при оценке качества производства
| |
- | |Неклюдов Кирилл
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Neklyudov2013LearnForget/doc]
| |
- | |MAI..DC.S
| |
- | |-
| |
- | |Обзор алгоритмов упрощения алгебраических выражений
| |
- | |Шубин Андрей
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Shubin2013Simplify/doc]
| |
- | |MAIPVTD.S
| |
- | |-
| |
- | |Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
| |
- | |Ибраимова Айжан
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Ibraimova2013ScoringSelection/doc]
| |
- | |MAIP.TD..
| |
- | |-
| |
- | |Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов
| |
- | |Бырдин Александр
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Byrdin2013RedBook/doc]
| |
- | |MAI.TD.S
| |
- | |-
| |
- | |Визуализация матрицы парных расстояний в тематическом моделировании
| |
- | |Вдовина Евгения
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Vdovina2013DistanceVisualizing/doc]
| |
- | |MAI.TDC.S
| |
- | |-
| |
- | |Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов
| |
- | |Антипова Наташа
| |
- | |[http://svn.code.sf.net/p/mlalgorithms/code/Group074Spring2013/Antipova2013PlausibleExpert]
| |
- | |MAIP.T..S
| |
- | |}
| |
- |
| |
- | ===Task 2. Surname2013MassProduction (*eng)===
| |
- | *'''Название.''' Порождение and оптимизация логических описаний при построении производственных линий.
| |
- | *'''Проблема.''' Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм and протестировать его на синтетических данных.
| |
- | *'''Данные.''' Требуется создать.
| |
- | *'''References:.''' Нужен поиск (скорее всего немецких публикаций).
| |
- | *'''Предлагаемый алгоритм.''' Обсуждается.
| |
- | *'''Basic algorithm.''' Нет.
| |
- |
| |
- | ===Task 3. Surname2013LearnForget (eng)===
| |
- | *'''Название.''' Моделирование процесса обучения and забывания при оценке качества производства.
| |
- | *'''Проблема.''' Найти адекватную регрессионную модель, описывающую деятельность группы людей.
| |
- | *'''Данные.''' Данные по скорости and качеству сборки бумажных самолетиков.
| |
- | *'''References:.''' Нужно искать.
| |
- | *'''Предлагаемый алгоритм.''' Процедура анализа регрессионных остатков.
| |
- | *'''Basic algorithm.''' Регрессионная модель в прилагаемой статье.
| |
- |
| |
- | ===Task 4. Surname2013GeneticProg===
| |
- | *'''Название.''' Алгоритм генетического программирования для решения задачи прогнозирования.
| |
- | *'''Проблема.''' Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП and с нейронными сетями.
| |
- | *'''Данные.''' Тестовый набор задач, взять на UCI или на Полигоне.
| |
- | *'''References:.''' Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
| |
- | *'''Предлагаемый алгоритм.''' ГП.
| |
- | *'''Basic algorithm.''' ГП, нейронные сети.
| |
- |
| |
- | === Task 5. Surname2013Simplify===
| |
- | *'''Название.''' Обзор алгоритмов упрощения алгебраических выражений.
| |
- | *'''Проблема.''' Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
| |
- | *'''Данные.''' Собрать тестовую коллекцию выражений.
| |
- | *'''References:.''' Graph rewriting.
| |
- | *'''Предлагаемый алгоритм.''' Р/С, сравнение алгоритмов.
| |
- |
| |
- | ===Task 6. Surname2013RedListExplanation===
| |
- | *'''Название.''' Интерпретация Expertных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
| |
- | *'''Проблема.''' Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для Expertов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими Expertным данным and "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
| |
- | *'''Данные.''' экспертные оценки краснокнижных видов.
| |
- | *'''References:.''' References: по алгоритмам метрической классификации.
| |
- | *'''Предлагаемый алгоритм.''' Метод или алгоритм, который сообщает Expertу почему (sic!) объект не попал в предполагаемый Expertом класс.
| |
- |
| |
- | ===Task 7. Surname2013RedListClassification===
| |
- | *'''Название.''' Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
| |
- | *'''Проблема.''' Применить решающее дерево к Expertным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
| |
- | *'''Данные.''' экспертные оценки краснокнижных видов.
| |
- | *'''References:.''' Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.
| |
- |
| |
- | ===Task 11. Surname2013Invaraint4LocalForecast ===
| |
- | *'''Название.''' Инвариантные преобразования в Taskх локального прогнозирования.
| |
- | *'''Проблема.''' Совместить алгоритмы инвариантного преобразования времени and амплитуды прогнозируемых временных рядов.
| |
- | *'''Данные.''' Временные ряды измерения пульсовой волны.
| |
- | *'''References:.''' Найти, избежать тривиальных ссылок.
| |
- |
| |
- | ===Task 8. Surname2013PlausibleExpert===
| |
- | *'''Название.''' Алгоритм оценивания достоверности Expertных суждений о взаимосвязи временных рядов.
| |
- | *'''Проблема.''' Исследование взаимосвязи биржевых цен на основные инструменты and железнодорожных грузоперевозок.
| |
- | *'''Данные.''' Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
| |
- | *'''References:.''' Публикации по CCM.
| |
- | *'''Предлагаемый алгоритм.''' Модификации ССМ.
| |
- |
| |
- | === Task 9. Surname2013DeepLearning===
| |
- | *'''Название.''' Порождение нейронных сетей с Expertно-заданными функциями активации.
| |
- | *'''Проблема.''' Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления and цен на электроэнергию.
| |
- | *'''Данные.''' Посуточные данные за три года.
| |
- | *'''References:.''' Deep Learning.
| |
- | *'''Предлагаемый алгоритм.''' Построение нейронной сети and оценка ее параметров.
| |
- |
| |
- | ===Task 16. Surname2013ScoringSelection===
| |
- | *'''Название.''' Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии.
| |
- | *'''Проблема.''' С помощью генетического алгоритма найти информативные объекты and признаки.
| |
- | *'''Данные.''' Данные по потребительским кредитам.
| |
- | *'''References:.''' -
| |
- |
| |
- | ===Task 10. Surname2013ScoringFeatureSelection===
| |
- | *'''Название.''' Группировка номинальных переменных в Taskх банковского кредитного скоринга.
| |
- | *'''Проблема.''' Создать генетический алгоритм снижения размерности признакового пространства.
| |
- | *'''Данные.''' Исторические данные по кредитам наличностью.
| |
- | *'''References:.''' SAS, найти еще.
| |
- |
| |
- | ===Task 15. Surname2013InverseVAR===
| |
- | *'''Название.''' Векторная авторегрессия and управление макроэкономическими показателями.
| |
- | *'''Проблема.''' Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
| |
- | *'''Данные.''' Макроэкономические показатели России за последние 16 лет.
| |
- | *'''References:.''' Работы С.А. Айвазяна.
| |
- |
| |
- | ===Task 12. Surname2013DistanceVisualizing===
| |
- | *'''Название.''' Визуализация матрицы парных расстояний в тематическом моделировании.
| |
- | *'''Проблема.''' Отобразить тезисы конференции на плоскости с сохранением кластеров.
| |
- | *'''Данные.''' Тезисы конференции EURO.
| |
- | *'''References:.''' Зиновьев на ML, References: по теме.
| |
- | *'''Предлагаемый алгоритм.''' PCA.
| |
- | *'''Basic algorithm.''' Алгоритм с минимизацией энергетического критерия.
| |
- |
| |
- | ===Task 13. Surname2013RhoNets===
| |
- | *'''Название.''' Сравнение быстрых алгоритмов кластеризации.
| |
- | *'''Проблема.''' Сравнить алгоритм кластеризации с использованием $\rho$-сетей and быстрый алгоритм $k$-средних.
| |
- | *'''Данные.''' Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
| |
- | *'''References:.''' $k$-средних, $\varepsilon$-сети.
| |
- | *'''Предлагаемый алгоритм.''' $\rho$-сети.
| |
- | *'''Basic algorithm.''' $k$-средних.
| |
- |
| |
- | ===Task 17. Surname2013FeatureSelection===
| |
- | *'''Название.''' Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
| |
- | *'''Проблема.''' Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
| |
- | *'''Данные.''' Синтетические.
| |
- | *'''References:.''' Леонтьева/Стрижов, поискать современные обзоры.
| |
- |
| |
- | ===Task 1. Surname2013Txt2Bib===
| |
- | *'''Название.''' Разметка библиографических записей с помощью логических алгоритмов.
| |
- | *'''Проблема.''' Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений and выбран адекватный алгоритм.
| |
- | *'''Данные.''' В MLAlgorithms.
| |
- | *'''References:.''' Работа А. Ивановой and все, что есть по теме за последние два года.
| |
- | *'''Предлагаемый алгоритм.''' Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
| |
- | *'''Basic algorithm.''' Тупиковые покрытия.
| |
- |
| |
- | ===Task 14. Surname2013FindTheFormula (Risky)===
| |
- | *'''Название.''' Алгоритм поиска текстовых структур в документе.
| |
- | *'''Проблема.''' Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
| |
- | *'''Данные.''' Синтетические, коллекция MLAlgorithms.
| |
- | *'''References:.''' Надо искать. Поиск по химическим соединениям в WoK работает неплохо.
| |
- |
| |
- | ===Task 18. Surname2013ScannedImage (Image)===
| |
- | *'''Название.''' Определение типа бланка.
| |
- | *'''Проблема.''' Определить тип бланка по скану.
| |
- | *'''Данные.''' Набор изображений в TIF.
| |
- |
| |
- | ===Task 19. Surname2013SpectrumImage (Image)===
| |
- | *'''Название.''' Определение напечатанного изображения.
| |
- | *'''Проблема.''' Сделать спектральное преобразование изображения, исследовать спектр.
| |
- | *'''Данные.''' Набор изображений в JPG, отнесенных в два класса.
| |
- |
| |
- |
| |
- | {|class="wikitable"
| |
- | ! Task
| |
- | ! Кто делает
| |
- | |-
| |
- | |Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс and ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?
| |
- | |Митяшов Андрей
| |
- | |-
| |
- | |Дан пятиэлементный вектор. Нарисовать [http://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%86%D0%B0_%D0%A7%D0%B5%D1%80%D0%BD%D0%BE%D0%B2%D0%B0 лицо Чернова]. Что лучше - лицо Чернова или [https://www.google.com/search?q=%D0%9B%D0%B5%D0%BF%D0%B5%D1%81%D1%82%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B4%D0%B8%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0%3F&aq=f&oq=%D0%9B%D0%B5%D0%BF%D0%B5%D1%81%D1%82%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B4%D0%B8%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0%3F&aqs=chrome.0.57j0l3.7857&sourceid=chrome&ie=UTF-8 диаграмма]?
| |
- | |Неклюдов Кирилл
| |
- | |-
| |
- | |Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.
| |
- | |Рыскина Мария
| |
- | |-
| |
- | |Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p.
| |
- | |Шубин Андрей
| |
- | |-
| |
- | |Разобраться как работает web-соединение and regexp. Сделать поисковый запрос по теме and сверстать из нее запись BibTeX.
| |
- | |
| |
- | |-
| |
- | |Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?
| |
- | |Воронов Сергей
| |
- | |-
| |
- | |Повернуть and увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.
| |
- | |Антипова Наташа
| |
- | |-
| |
- | |Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица?
| |
- | |Вдовина Евгения
| |
- | |-
| |
- | |Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).
| |
- | |Гринчук Олег
| |
- | |-
| |
- | |Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.
| |
- | |Пушняков Алексей
| |
- | |-
| |
- | |Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.
| |
- | |Кащеева Мария
| |
- | |-
| |
- | |На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения.
| |
- | |Ибраимова Айжан
| |
- | |-
| |
- | |Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет.
| |
- | |Яшков Даниил
| |
- | |-
| |
- | |Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
| |
- | |
| |
- | |-
| |
- | |Создать несколько групп точек на плоскости and выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.
| |
- | |Перекрестенко Дмитрий
| |
- | |-
| |
- | |Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить and проиграть определенную ноту.
| |
- | |
| |
- | |-
| |
- | |Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно.
| |
- | |Бырдин Александр
| |
- | |-
| |
- | |Показать разницу в скорости выполнения матричных операций and операций в цикле. Показать эффективность параллельных вычислений (parfor and другие).
| |
- | |Катруца Александр
| |
- | |-
| |
- | |Предложить варианты визуализации четырехмерных векторов and пространств. Сравнить их со встроенной функцией.
| |
- | |
| |
- | |-
| |
- | |Сгладить временной ряд скользящим средним. Взять несколько окон разной длины and наложить результат на графике друг на друга.
| |
- | |Чинаев Николай
| |
- | |-
| |
- | |Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат.
| |
- | |Костин Александр
| |
- | |-
| |
- | |}
| |
- |
| |
- | =2012=
| |
- |
| |
- | ==Тематическое моделирование: публикация в журнале ВАК==
| |
- |
| |
- | {{tip|Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.}}
| |
- |
| |
- | == Список задач ==
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Task name
| |
- | ! Author
| |
- | ! Link to work
| |
- | ! Comments
| |
- | |-
| |
- | |Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации
| |
- | |Медведникова Мария
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Medvednikova2012CoIndicator]
| |
- | |Опубликовано
| |
- | |-
| |
- | |Иерархическая тематическая кластеризация тезисов and визуализация
| |
- | |Кузьмин Арсентий
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012ThematicClustering]
| |
- | |Опубликовано
| |
- | |-
| |
- | |Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
| |
- | |Адуенко Александр
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012CovSelection]
| |
- | |Опубликовано
| |
- | |-
| |
- | |Построение иерархических тематических моделей
| |
- | |Цыганова Светлана
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Tsyganova2012TopicIerarhy]
| |
- | |Опубликовано
| |
- | |-
| |
- | |Выбор признаков в Taskх структурной регрессии
| |
- | |Варфоломеева Анна
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Varfolomeeva2012StructureLearning]
| |
- | |Принято
| |
- | |-
| |
- | |Статистические критерии однородности and согласия для сильно разреженных дискретных распределений
| |
- | |Целых Влада
| |
- | |
| |
- | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Celyh2012SparceDistribution]
| |
- | |Опубликовано
| |
- | |-
| |
- | |Построение логических правил при разметке текстов
| |
- | |Иванова Алина
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012LogicStructure]
| |
- | |Принято
| |
- | |-
| |
- | |Проверка адекватности тематической модели
| |
- | |Степан Лобастов
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Lobastov2012LatentModels]
| |
- | |Редакция
| |
- | |-
| |
- | |}
| |
- |
| |
- |
| |
- | ===1. 2012CoRegression===
| |
- | *'''Name:''' Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
| |
- | *'''Тизер:''' Построение интегральной оценки эффективности научной деятельности.
| |
- | *'''Data:''' Синтетические. ПРНД сотрудников. Таблица авторы-журналы and число статей выбранных авторов в журналах.
| |
- | *'''References:''' [[Media:Voron-2008-11-10-cf.pdf|Vorontsov K. V. «Коллаборативная фильтрация»]].
| |
- | *'''Ключевые слова:''' индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
| |
- | *'''Предлагаемый алгоритм''' Совместная регрессия (придумать или найти готовую).
| |
- | *'''Basic algorithm:''' Вычисленный IF журналов and h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
| |
- | *'''Проблема:''' [[Media:Strijov2012SciRating.pdf|Описание в файле.]] Дополнительно: при создании рейтинга встает проблема разбиения множества авторов and журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).
| |
- |
| |
- | ===2. 2012ExpertRanking===
| |
- | *'''Name:''' Согласование ранговых Expertных оценок.
| |
- | *'''Тизер:''' Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
| |
- | *'''Data:''' Интернет-голосование за список книг, голосование без кооптации.
| |
- | *'''References:''' Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
| |
- | *'''Предлагаемый алгоритм:''' Нахождение пересечения конусов and оценка эффективной размерности пространства или другой алгоритм.
| |
- | *'''Basic algorithm:''' Медиана Кемени and другие алгоритмы.
| |
- | *'''Проблема:''' Требуется проиллюстрировать and изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг ''n'' выбранных кандидатов отличается от рейтинга ''n+k'' выбранных кандидатов, при единственном голосовании с выбором из ''N'' кандидатов. Возможно, требуется осветить парадокс Эрроу.
| |
- |
| |
- | ===3. 2012StructureRegression===
| |
- | *'''Name:''' Выбор признаков в Taskх структурной регрессии
| |
- | *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
| |
- | *'''Data:''' библиографические записи из BibTeX collection on CS.
| |
- | *'''References:''' работы Jaakkola and его команды, возможно, код.
| |
- | *'''Предлагаемый алгоритм:''' Структурная регрессия.
| |
- | *'''Basic algorithm:''' описан Валентином.
| |
- | *'''Требуется:''' сегментировать входной текст and поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.
| |
- |
| |
- | ===4. 2012LogicClassification===
| |
- | *'''Name:''' Построение логических правил при разметке текстов
| |
- | *'''Тизер:''' Алгоритм структурной регрессии для разметки библиографических списков, тезисов and других структурированных текстов.
| |
- | *'''Data:''' библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
| |
- | *'''References:''' работы Инякина, Чувилина, Кудинова.
| |
- | *'''Предлагаемый алгоритм:''' Решающие деревья, тупиковые покрытия.
| |
- | *'''Basic algorithm:''' описан Валентином.
| |
- | *'''Требуется:''' обучить модель, разметки текста, используя решающие правила над RegExp - строками.
| |
- |
| |
- | === 5. 2012RankClustering ===
| |
- | * '''Name:''' Ранговая кластеризация and алгоритмы динамического выравнивания.
| |
- | * '''Тизер:''' Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
| |
- | * '''Data:''' Испорченные and некорректные библиографические записи (базы студенческих рефератов). [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Более 1000 библиографических записей из статей/книг по анализу данных.]
| |
- | * '''References:''' [http://www.matbio.org/2012/Strijov2012(7_345).pdf Стрижов et al. «Метрическая кластеризация последовательностей»], работы по быстрой кластеризации k-Means.
| |
- | * '''Ключевые слова:''' DTW — модификации, k-Means.
| |
- | * '''Предлагаемый алгоритм:''' Алгоритм ранговой кластеризации.
| |
- | * '''Basic algorithm:''' k-Means and его высокопроизводительные вариации.
| |
- | * '''Проблема:''' Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать and учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.
| |
- |
| |
- | ===6. 2012ThematicClustering===
| |
- | *'''Name:''' Проверка адекватности тематической модели.
| |
- | *'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
| |
- | *'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
| |
- | *'''References:''' по кластеризации, and введению расстояний между текстами как мешками слов.
| |
- | *'''Ключевые слова:''' иерархическая кластеризация, метрики сходства текстов.
| |
- | *'''Предлагаемый алгоритм:''' алгоритм иерархической кластеризации k-means + классификация k-NN.
| |
- | *'''Basic algorithm:''' k-Means
| |
- | *'''Проблема:''' Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
| |
- |
| |
- | ===7. 2012ThematicHierarchy===
| |
- | *'''Name:''' Построение иерархических тематических моделей.
| |
- | *'''Тизер:''' Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
| |
- | *'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов.]
| |
- | *'''References:''' иерархические модели, [http://www.cs.princeton.edu/~mimno/topics.html topic modelling].
| |
- | *'''Ключевые слова:''' иерархическое тематическое моделирование.
| |
- | *'''Предлагаемый алгоритм:''' иерархические модели, оценка распределения по темам.
| |
- | *'''Basic algorithm:''' PLSA--LDA.
| |
- | *'''Проблема:''' Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.
| |
- |
| |
- | ===8. 2012ThematicVisualizing===
| |
- | *'''Name:''' Визуализация иерархических тематических моделей.
| |
- | *'''Тизер:''' На материалах конференции EURO.
| |
- | *'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012.]
| |
- | *'''References:''' многомерное шкалирование, кластеризация.
| |
- | *'''Ключевые слова:''' визуализация графов.
| |
- | *'''Предлагаемый алгоритм:'''
| |
- | *'''Basic algorithm:''' --
| |
- | *'''Проблема:''' Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
| |
- | ** корректировки названий тем/подтем конференции,
| |
- | ** переносе тезиса из одной темы в другую,
| |
- | ** адекватности соответствия модельной and фактический кластеризации.
| |
- |
| |
- | ===9. 2012CovSelection===
| |
- | *'''Name:''' Совместный выбор объектов and признаков в Taskх многоклассовой классификации.
| |
- | *'''Тизер:''' Ранжирование поисковых выдач Яндекса.
| |
- | *'''Data:''' Яндекс – математика.
| |
- | *'''References:''' Бишоп, Стрижов.
| |
- | *'''Ключевые слова:''' логистическая регрессия, выбор признаков, фильтрация объектов.
| |
- | *'''Предлагаемый алгоритм:''' Совместный выбор путем анализа ковариационных матриц.
| |
- | *'''Basic algorithm:''' SVM.
| |
- | *'''Проблема:''' Взять матрицу '''T''', с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что and данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.
| |
- |
| |
- | ===10. 2012ThematicMatching===
| |
- | *'''Name:''' Определение соответствия документа тематике на основе выделения ключевых фраз.
| |
- | *'''Тизер:''' Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
| |
- | *'''Data:''' Авторефераты диссертаций (SugarSync). [http://www.aspirantura.spb.ru/pasport/05.html Паспорта специальностей].
| |
- | *'''References:''' (Статья С. Царькова «Морфологические and статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
| |
- | *'''Ключевые слова:''' ключевые фразы, тематические модели, N-граммы, морфологические and статистические признаки.
| |
- | *'''Предлагаемый алгоритм:'''
| |
- | *'''Basic algorithm:''' C-Value and TF-IDF.
| |
- | *'''Проблема:''' Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
| |
- | *'''Проблема, еще раз:''' Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
| |
- | ** пополняем паспорт известной специальности новыми ключевыми словами, либо
| |
- | ** находим ближайший паспорт специальности.
| |
- | *'''Варианты решения:''' Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.
| |
- |
| |
- | ===11. 2012FeatureGen===
| |
- | *'''Name:''' Последовательное порождение and выбор признаков в задаче многоклассовой классификации
| |
- | *'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
| |
- | *'''Data:''' синтетические, интернет-коллекция.
| |
- | *'''References:''' Стрижов, Рудой.
| |
- | *'''Ключевые слова:''' порождение признаков, поиск изоморфных моделей.
| |
- | *'''Предлагаемый алгоритм:''' алгоритм последовательного порождения суперпозиций.
| |
- | *'''Basic algorithm:''' решающие деревья.
| |
- | *'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
| |
- |
| |
- | ===12. 2012TypeDetection===
| |
- | *'''Name:''' Методы извлечения признаков из текстовой информации
| |
- | *'''Тизер:''' Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
| |
- | *'''Data:''' синтетические, интернет-коллекция.
| |
- | *'''References:''' Найти.
| |
- | *'''Ключевые слова:''' иерархическая кластеризация, structural learning, метрики сходства текстов.
| |
- | *'''Предлагаемый алгоритм.'''
| |
- | *'''Basic algorithm.'''
| |
- | *'''Проблема:''' Требуется построить набор признаков, по которым можно классифицировать текст.
| |
- |
| |
- | ===Темы К.В. Воронцова===
| |
- | * '''2012SparceDistribution''' Статистические критерии однородности and согласия для сильно разреженных дискретных распределений (В.Ц.)
| |
- |
| |
- | === 2012LatentModels===
| |
- | *'''Name:''' Проверка адекватности тематической модели.
| |
- | *'''Тизер:''' Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
| |
- | *'''Data:''' [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Data2012TextMining Тексты тезисов конференции Евро-2012, 1862 тезиса.]
| |
- | *'''References:''' по латентным моделям.
| |
- | *'''Ключевые слова:''' мягкая кластеризация, латентные модели.
| |
- | *'''Предлагаемый алгоритм:''' hHDP.
| |
- | *'''Basic algorithm:''' HDP.
| |
- | *'''Проблема:''' Требуется построить тематическую модель методом кластеризации and проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется and относится к своей или к чужой теме.
| |
- |
| |
- | == Ссылки ==
| |
- | https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities
| |
- | В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.
| |
- |
| |
- | ==References:==
| |
- | https://www.sugarsync.com
| |
- | Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.
| |
- |
| |
- | ==Публикация работ==
| |
- | Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов and редактора учтены) >> Опубликовано (вышел номер).
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Task name
| |
- | ! Author
| |
- | ! Link to the journal
| |
- | ! The original text of the work
| |
- | ! Date of application
| |
- | ! State
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/aduenko_kuzmin_strijov.pdf Выбор признаков and оптимизация метрики при кластеризации коллекции документов]
| |
- | |Адуенко А.А., Кузьмин А.А., Strizhov V.V.
| |
- | |[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/KuzminAduenkoStrijov2012ThematicClustering/KuzminAduenkoStrijov2012Clustering.tex]
| |
- | |12.10.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/budnikov_strijov.pdf Оценивание вероятностей появления строк в коллекции документов]
| |
- | |Будников Е.А., Strizhov V.V.
| |
- | |[http://novtex.ru/IT/ Информационные технологии]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/BudnikovStrijov2012StringProbabilities/BudnikovStrijov2012StringProbabilities.docx]
| |
- | |24.09.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/kuzmin_strijov.pdf Проверка адекватности тематических моделей коллекции документов]
| |
- | |Кузьмин А.А., Strizhov V.V.
| |
- | |[http://novtex.ru/pi.html Программная инженерия]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Kuzmin2012ThematicClustering/ThematicClusteringAndVisualizing.tex]
| |
- | |17.12.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/aduenko_strijov2.pdf Алгоритм оптимального расположения названий коллекции документов]
| |
- | |Адуенко А.А., Strizhov V.V.
| |
- | |[http://novtex.ru/pi.html Программная инженерия]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizingII/AduenkoStrijov2012TextVisualizing.tex]
| |
- | |13.11.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/aduenko_strijov1.pdf Визуализация матрицы парных расстояний между документами]
| |
- | |Адуенко А.А., Strizhov V.V.
| |
- | |[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/AduenkoStrijov2012TextVisualizing/AduenkoStrijov2012TextVisualizing.tex]
| |
- | |29.10.2012
| |
- | |Подано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/medvednikova_strijov.pdf Построение интегрального индикатора качества научных публикаций методами ко-кластеризации]
| |
- | |Медведникова М.М., Strizhov V.V.
| |
- | |[http://publishing.tsu.tula.ru/EstestvNauki.html Известия ТулГу]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Medvednikova2012CoIndicator/doc/Medvednikova2012CoIndicator.tex]
| |
- | |15.11.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/aduenko_strijov3.pdf Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов]
| |
- | |Адуенко А.А., Strizhov V.V.
| |
- | | [http://ikt.psuti.ru/rules/ Инфокоммуникационные технологии]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Aduenko2012CovSelection/abstract_modified.tex]
| |
- | |18.12.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure/ivanova_aduenko_strijov.pdf Алгоритм построения логических правил при разметке текстов]
| |
- | |Иванова А.В., Адуенко А.А., Strizhov V.V.
| |
- | |[http://novtex.ru/pi.html Программная инженерия]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Ivanova2012LogicStructure]
| |
- | |24.01.2013
| |
- | |Принято
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/tsyganova_strijov.pdf Построение иерархических тематических моделей коллекции документов]
| |
- | |Цыганова С.В., Strizhov V.V.
| |
- | |[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
| |
- | |27.01.2013
| |
- | |Опубликовано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/varfolomeeva_strijov.pdf Выбор признаков при разметке библиографических списков методами структурного обучения]
| |
- | |Варфоломеева А.А., Strizhov V.V.
| |
- | |[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
| |
- | |27.01.2013
| |
- | |Отрецензировано
| |
- | |-
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/celyh_vorontsov.pdf Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании]
| |
- | |Целых В.Р., Воронцов К.В.
| |
- | |[http://jmlda.org Машинное обучение and анализ данных]
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Celyh2012SparceDistribution/doc/doc/CelyhVorontsov2013sparse.tex]
| |
- | |17.12.2012
| |
- | |Опубликовано
| |
- | |-
| |
- | |Проверка адекватности тематической модели
| |
- | |Степан Лобастов
| |
- | |
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Lobastov2012LatentModels/Doc/LatentModels.tex]
| |
- | |
| |
- | |Редакция
| |
- | |}
| |
- |
| |
- | == Список принятых к публикации работ ==
| |
- | * 1. Aduenko A. A., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
| |
- | * 2. Aduenko A. A., Кузьмин А. А., Стрижов В. В. Выбор признаков and оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
| |
- | * 3. Aduenko A. A., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
| |
- | * 4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
| |
- | * 5. Кузьмин А. А., Strizhov V.V. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
| |
- | * 6. Медведникова М. М., Strizhov V.V. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
| |
- | * 7. Aduenko A. A., Стрижов В. В. Совместный выбор объектов and признаков в Taskх многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
| |
- | * 8. Иванова А.В., Aduenko A. A., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
| |
- | * 9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
| |
- | * 10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
| |
- | * 11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений and их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.
| |
- | [[Категория:Учебные курсы]]
| |
- |
| |
- | ==Моя первая публикация с кросс-рецензированием==
| |
- |
| |
- | == Список задач ==
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Task name
| |
- | ! Author
| |
- | ! Reviewer
| |
- | ! Link to work
| |
- | ! Comments
| |
- | |-
| |
- | |CMARS: аппроксимация сплайнами
| |
- | |Влада Целых
| |
- | |Татьяна Шпакова
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Celyh2012CMARS/ Celyh2012CMARS]
| |
- | |[.]сaipvdstrj(10)
| |
- | |-
| |
- | |Алгоритмические основы построения банковских скоринговых карт
| |
- | |Alexander Aduenko
| |
- | |Алина Иванова
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Aduenko2012economics/ Aduenko2012economics]
| |
- | |[.]сaipvdstrj(10)
| |
- | |-
| |
- | |Использование метода главных компонент при построении интегральных индикаторов
| |
- | |Мария Медведникова
| |
- | |Светлана Цыганова
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Medvednikova2012PCA/ Medvednikova2012PCA]
| |
- | |[r]сaipvdstrj(10)
| |
- | |-
| |
- | |Многоуровневая классификация при обнаружении движения цен
| |
- | |Арсентий Кузьмин
| |
- | |Анна Варфоломеева
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Kuzmin2012TimeRows/ Kuzmin2012TimeRows]
| |
- | |[r]сaipvdstjr(10)
| |
- | |-
| |
- | |Локальные методы прогнозирования с выбором инвариантного преобразования
| |
- | |Светлана Цыганова
| |
- | |Мария Медведникова
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Tsyganova2012LocalForecast/ Tsyganova2012 LocalForecast]
| |
- | |[r]сaipvdstjr(10)
| |
- | |-
| |
- | |Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример)
| |
- | |Егор Клочков
| |
- | |Александр Шульга
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Klochkov2012Goods4Cast Klochkov2012Goods4Cast]
| |
- | |[r]сaipvdstj.(10)
| |
- | |-
| |
- | |Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии (пример)
| |
- | |Степан Лобастов
| |
- | |Егор Клочков
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Lobastov2012FOSelection/ Lobastov2012FOSelection]
| |
- | |[r]сaipvdstrj(10)
| |
- | |-
| |
- | |Локальные методы прогнозирования с выбором метрики
| |
- | |Анна Варфоломеева
| |
- | |Арсентий Кузьмин
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Varfolomeeva2012LocForecastMetrics/ Varfolomeeva2012 LocForecastMetrics]
| |
- | |[r]сaipvdstjr(10)
| |
- | |-
| |
- | |Полиномы Чебышева and прогнозирование временных рядов
| |
- | |Валерия Бочкарева
| |
- | |Степан Лобастов
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Bochkareva2012TimeSeriesPrediction Bochkareva2012TimeSeriesPrediction]
| |
- | |[.]сaipvdst-r(9)
| |
- | |-
| |
- | |Кластеризация and составление словаря аминокислотных последовательностей
| |
- | |Татьяна Шпакова
| |
- | |Влада Целых
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shpakova2012Clustering/ Shpakova2012Clustering]
| |
- | |[.]сaipvdst.(9)
| |
- | |-
| |
- | |Векторная авторегрессия and управление макроэкономическими показателями
| |
- | |Александр Шульга
| |
- | |
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Shulga2012VAR Shulga2012VAR]
| |
- | |[.]сaipvds..(9)
| |
- | |-
| |
- | |Аппроксимация эмпирических функций распределения
| |
- | |Алина Иванова
| |
- | |Alexander Aduenko
| |
- | |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group974/Ivanova2012ApproximateFunc/ Ivanova2012 ApproximateFunc]
| |
- | |[r]сaipvd..(9)
| |
- | |-
| |
- | |}
| |
- |
| |
- | == Аннотации ==
| |
- | === Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии ===
| |
- | Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [http://math.tntech.edu/machida/MSD/lecture7.pdf] and кредитном скроллинге. В реальных условиях число признаков обычно велико, and важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.
| |
- |
| |
- | Ключевые слова: logit model, feature selection, boosting.
| |
- |
| |
- | ===Использование метода главных компонент при построении интегральных индикаторов===
| |
- | В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.
| |
- |
| |
- | ''Ключевые слова'': интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.
| |
- |
| |
- | ===Аппроксимация эмпирических функций распределения===
| |
- | Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических Taskх обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.
| |
- |
| |
- | Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.
| |
- |
| |
- | ===Методы локального прогнозирования с выбором преобразования===
| |
- | Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.
| |
- |
| |
- | Ключевые слова: локальное прогнозирование, преобразование
| |
- |
| |
- | == Черновой список задач ==
| |
- | # Кластеризация and составление словаря аминокислотных последовательностей
| |
- | # Oblivious decision trees: алгоритм Яндекс для системы Полигон
| |
- | # Сравнительный анализ регрессионных остатков в SVN-регрессии
| |
- | # Алгоритмы нахождения гауссовских смесей
| |
- | # Прогноз квазипериодических многомерных временных рядов непараметрическими методами
| |
- | # Многоуровневая классификация при обнаружении движения цен
| |
- | # CMARS: аппроксимация сплайнами
| |
- | # Полиномы Чебышева and метод прогонки при прогнозировании временных рядов
| |
- | # Сравнение методов ARMA and FLS при ретроспективном прогнозировании
| |
- | # Локальные методы прогнозирования с выбором метрики
| |
- | # Локальные методы прогнозирования с выбором инвариантного преобразования
| |
- | # Алгоритмы переборного поиска наиболее информативных объектов and признаков в логистической регрессии
| |
- | # Векторная авторегрессия and управление макроэкономическими показателями
| |
- | # Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников
| |
- |
| |
- | == Ещё задачи ==
| |
- | # Анализ текста методами структурного обучения
| |
- | # Аппроксимация эмпирических функций распределения
| |
- | # Алгоритмические основы построения банковских скоринговых карт
| |
- | # Сингулярное разложение and поисковая машина
| |
- | # Сравнение алгоритмов многокритериальной оптимизации
| |
- | # Уточнение Expertных оценок на данных в ранговых шкалах (интервальные, конусы, веса Expertов, копулы)
| |
- | # Уточнение Expertных оценок при анализе работы механизма устойчивого развития энергетики
| |
- | # Визуализация пространства параметров регрессионных моделей
| |
- | # Восстановление регрессии методом главных компонент
| |
- | # Оценка гиперпараметров путем сэмплирования
| |
- | # Прореживание существенно нелинейных моделей с помощью гиперпараметров
| |
- | # Фактор Оккама для параметрических моделей с известной областью определения параметров
| |
- | # Создание алгоритмов последовательной модификации моделей
| |
- | # Порождение and выбор моделей классификации
| |
- |
| |
- | == and еще задачи ==
| |
- | * Функция расстояния между формулами and поиск.
| |
- | * Поиск объектов (техническая работа).
| |
- |
| |
- | == + ==
| |
- | * Авторегрессия
| |
- | * Векторная авторегрессия
| |
- | * Экспоненциальное сглаживание
| |
- | * Локальные методы, поиск метрики
| |
- | * Локальные методы с инвариантами, метрика фиксирована
| |
- | * ARIMA
| |
- | * Многомерная гусеница, выбор длины гусеницы
| |
- | * Многомерная гусеница, выбор рядов
| |
- | * Прогнозирование с использованием DTW
| |
- | * Скользящее среднее, выбор ядер
| |
- | * Скользящее среднее с забыванием истории
| |
- | * Скользящее среднее временных рядов с периодической составляющей
| |
- | * Прогнозирование нейронными сетями
| |
- | * Анализ качества прогноза
| |
- | * Метаописание временных рядов
| |
- | * Логическое прогнозирование
| |
- | * SVN – регрессия
| |
- | * Дискретное прогнозирование, музыка.
| |
- |
| |
- | == Составить ==
| |
- | * Список типичных типографических ошибок
| |
- | * Список ошибок BibTeX
| |
- |
| |
- | =2011=
| |
- |
| |
- | ==Публикация в журнале JMLDA==
| |
- |
| |
- | Перед выполнением заданий рекомендуются к прочтению
| |
- | * [[Численные методы обучения по прецедентам (практика, Strizhov V.V.)|Численные методы обучения по прецедентам]]
| |
- | * [[Отчет о выполнении исследовательского проекта (практика, Strizhov V.V.)|Отчет о выполнении исследовательского проекта]]
| |
- | * [[Автоматизация and стандартизация научных исследований (практика, Strizhov V.V.)|Автоматизация and стандартизация научных исследований]]
| |
- |
| |
- | == Задачи ==
| |
- | {|class="wikitable"
| |
- | |-
| |
- | ! Название задачи
| |
- | ! Работу выполняет
| |
- | ! Рецензент
| |
- | ! Ссылка на работу
| |
- | ! Комментарии
| |
- | |-
| |
- | | Устойчивость and сходимость оценок гиперпараметров линейных регрессионных моделей (пример)|Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых and коррелирующих признаков
| |
- | | Токмакова Александра
| |
- | | Мотренко Анастасия
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Tokmakova2011HyperPar Tokmakova2011HyperPar]
| |
- | |
| |
- | |-
| |
- | | Выбор моделей прогнозирования объемов потребления and цен электроэнергии (пример)|Выбор моделей прогнозирования цен на электроэнергию
| |
- | | Леонтьева Любовь
| |
- | | Гребенников Евгений
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Leonteva2011ElectricityConsumption Leonteva2011ElectricityConsumption]
| |
- | |
| |
- | |-
| |
- | | Многоклассовый прогноз вероятности наступления инфаркта and оценка необходимого объема выборки пациентов (пример)
| |
- | | Мотренко Анастасия
| |
- | | Токмакова Александра
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Motrenko2011HAPrediction Motrenko2011HAPrediction]
| |
- | |
| |
- | |-
| |
- | | Алгоритмы порождения существенно-нелинейных моделей
| |
- | | Георгий Рудой
| |
- | | Николай Балдин
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Rudoy2011Generation/ Rudoy2012Generation]
| |
- | |
| |
- | |-
| |
- | | Событийное моделирование and прогноз цен на сахар|Событийное моделирование and прогноз финансовых временных рядов
| |
- | | Александр Романенко
| |
- | | Егор Будников
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Romanenko2011Event/ Romanenko2011Event]
| |
- | |
| |
- | |-
| |
- | | Статистические модели естественных языков|Обзор некоторых статистических моделей естественного языка
| |
- | | Егор Будников
| |
- | | Александр Романенко
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Budnikov2011Statistical Budnikov2011Statistical]
| |
- | |
| |
- | |}
| |
- |
| |
- | ==Моя первая публикация в журнале JMLDA==
| |
- |
| |
- | Перед выполнением заданий рекомендуются к прочтению
| |
- | * [[Численные методы обучения по прецедентам (практика, Strizhov V.V.)|Численные методы обучения по прецедентам]]
| |
- | * [[Отчет о выполнении исследовательского проекта (практика, Strizhov V.V.)|Отчет о выполнении исследовательского проекта]]
| |
- | * [[Автоматизация and стандартизация научных исследований (практика, Strizhov V.V.)|Автоматизация and стандартизация научных исследований]]
| |
- |
| |
- | См. также
| |
- | * [[Временной ряд (библиотека примеров)]]
| |
- |
| |
- | == Задачи ==
| |
- | {| class="wikitable"
| |
- | |-
| |
- | ! Название задачи
| |
- | ! Работу выполняет
| |
- | ! Работу рецензирует
| |
- | ! Ссылка на работу
| |
- | ! Комментарии
| |
- | |-
| |
- | | Использование теста Гренджера при прогнозировании временных рядов
| |
- | | Anastasia Motrenko
| |
- | | Любовь Леонтьева
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Motrenko2011GrangerForc Motrenko2011GrangerForc]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | | Выбор функции активации при прогнозировании нейронными сетями
| |
- | | Георгий Рудой
| |
- | | Николай Балдин
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Rudoy2011NNForecasting Rudoy2011NNForecasting]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | | [[Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)]]
| |
- | | Любовь Леонтьева
| |
- | | Михаил Бурмистров
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Leonteva2011GaterpillarLearning Leonteva2011GaterpillarLearning]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | | [[Прогнозирование функциями дискретного аргумента (пример)]]
| |
- | | Егор Будников
| |
- | | Александр Романенко
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Budnikov2011DiscreteForecasting Budnikov2011DiscreteForecasting]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | | Исследование сходимости при прогнозировании нейронными сетями с обратной связью
| |
- | | [[Участник:nkgrin|Николай Балдин]]
| |
- | | Георгий Рудой
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Baldin2011FNNForecasting Baldin2011FNNForecasting]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | | Выравнивание временных рядов: прогнозирование с использованием DTW (пример)|Выравнивание временных рядов: прогнозирование с использованием DTW
| |
- | | Александр Романенко
| |
- | | Егор Будников
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Romanenko2011DTWForecasting Romanenko2011DTWForecasting]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | |[[Выделение периодической компоненты временного ряда (пример)]]
| |
- | | Александра Токмакова
| |
- | | Егор Будников
| |
- | | [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Group874/Tokmakova2011Periodic Tokmakova2011Periodic]
| |
- | | Опубл. в JMLDA
| |
- | |-
| |
- | |}
| |
- |
| |
- | ==Краткое описание задач==
| |
- |
| |
- | === Task 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров ===
| |
- | В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода
| |
- | состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра and наложенного шума.
| |
- |
| |
- | === Task 2: Экспоненциальное сглаживание and прогноз ===
| |
- | В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.
| |
- |
| |
- | === Task 3: [[Выделение периодической компоненты временного ряда (пример)]] ===
| |
- |
| |
- | В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции and метода наименьших квадратов на зашумлённом модельном синусе and реальном временном ряде электрокардиограммы.
| |
- |
| |
- | ===Task 4: Многомерная гусеница, выбор длины and числа компонент гусеницы (сравнение сглаженного and несглаженного временного ряда) (пример)===
| |
- |
| |
- | В работе описывается метод гусеницы and его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент and последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы and числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.
| |
- |
| |
- | ===Task 5: [[Прогнозирование функциями дискретного аргумента (пример)]] ===
| |
- |
| |
- | В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей.
| |
- | Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.
| |
- |
| |
- | ===Task 7: Локальные методы прогнозирования,поиск метрики ===
| |
- | Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа.
| |
- | Первый – находит k-ближайших соседей наблюдаемой точки.
| |
- | Второй – строит простую модель, используя только этих k соседей.
| |
- | Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую.
| |
- | Многие исследователи, используют эвклидову метрику для измерения расстояний между точками.
| |
- | Данная работа призвана сравнить точность прогнозирования при использовании различных метрик.
| |
- | В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.
| |
- |
| |
- | ===Task 8: Локальные методы прогнозирования, поиск инвариантного преобразования ===
| |
- | В проекте используются локальные методы прогнозирования
| |
- | временных рядов. В этих методах не находится представления временного
| |
- | ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на
| |
- | основе данных о каком-то участке временного ряда (используется локальная информация).
| |
- | В данной работе подробно исследован следующий метод (обобщение классического
| |
- | «ближайшего соседа»).
| |
- |
| |
- | Пусть имеется временной ряд, and стоит Task продолжить его. Предполагается, что такое продолжение определяется
| |
- | предысторией, т.е. в ряде нужно найти часть, которая после
| |
- | некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A and есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков
| |
- | временного ряда (подробнее об этом см. [http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%2C%D0%BF%D0%BE%D0%B8%D1%81%D0%BA_%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29&action=edit здесь]). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько
| |
- | ближайших соседей. Продолжение запишется в виде их линейной комбинации.
| |
- |
| |
- | === Task 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример) ===
| |
- |
| |
- | [[временной ряд|Временным рядом]] называется последовательность упорядоченных по времени значений некоторой вещественной переменной <tex>$\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$</tex>. Task, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей and его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине and других сферах.
| |
- |
| |
- | Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности and транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".
| |
- |
| |
- | === Task 10: Выбор функции активации при прогнозировании нейронными сетями===
| |
- |
| |
- | Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- and многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.
| |
- |
| |
- | Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа and параметров функции активации.
| |
- |
| |
- | ===Task 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью===
| |
- |
| |
- | Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы
| |
- | оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной
| |
- | суммы текущего and предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана.
| |
- | Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной,
| |
- | гиперболического тангенса), от числа нейронов в промежуточном слое and от ширины скользящего окна.
| |
- | Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.
| |
- |
| |
- | ===Task 13: [[Многомерная гусеница, выбор длины and числа компонент гусеницы (пример)]]===
| |
- |
| |
- | Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки and сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся and периодических до шумовых), и, наконец, восстановление ряда.
| |
- |
| |
- | Областью применения алгоритма являются задачи как метеорологии and геофизики, так and экономики and медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.
| |
- |
| |
- | ===Task 14: Использование теста Гренджера при прогнозировании временных рядов===
| |
- |
| |
- | При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений and явлений природного характера (например, землятрясений).
| |
- |
| |
- | Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.
| |
- |
| |
- | ===Task 15: Прогнозирование and аппроксимация сплайнами===
| |
- | Описание.
| |
- |
| |
- | ===Task 16: ARIMA and GARCH при прогнозировании высоковолатильных рядов ===
| |
- | Описание.
| |
- |
| |
- | ===Task 17: Прогнозирование and SVN–регрессия ===
| |
- | Описание.
| |
- |
| |
- | == Доклады and экзамен (возможны уточнения) ==
| |
- | * Доклад-1 6 апреля
| |
- | * Контрольная точка 12 мая
| |
- | * Экзамен 19 мая
| |
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. 758 p.
We are trying to approximate the dependence of the average value of log-likelihood and its variance on the sample size.
It is necessary to determine the approximate coordinates of the center of the pupil. The word "approximate" means that the calculated pupil center must lie inside a circle centered at the pupil's true center and half the true radius. The algorithm must be very fast.
It is necessary to explore various ways of constructing reference objects, as well as determining their optimal number. The criterion is the quality of the metric classifier in the task. In the DBA method, for each centroid, it is proposed to create a weight vector that demonstrates the "significance" of the measurements of the centroid, and use it in the modified weighted-DTW distance function.
Literature research and a combination of up-to-date methods.
Bishop, C. 2006. Pattern Recognition and Machine Learning. Berlin: Springer. $758
We are trying to approximate the dependence of the average value of log-likelihood and its variance on the sample size.