Участник:Strijov/Черновики
Материал из MachineLearning.
(Различия между версиями)
(→Устарело) |
(→Задача 5) |
||
Строка 40: | Строка 40: | ||
* '''Авторы''': В.В. Стрижов | * '''Авторы''': В.В. Стрижов | ||
+ | === Задача 10 === | ||
+ | * '''Название''': Выбор интерпретируемых мультимоделей в задачах кредитного скоринга | ||
+ | * '''Задача''': Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика. | ||
+ | * '''Данные''': Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов. | ||
+ | * '''Литература''': Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts. | ||
+ | * '''Базовой алгоритм''': Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов. | ||
+ | * '''Решение''': Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей. | ||
+ | * '''Новизна''': Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях. | ||
+ | * '''Авторы''': А.А. Адуенко, В.В. Стрижов. | ||
+ | |||
+ | === Задача 11 === | ||
+ | * '''Название''': Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов. | ||
+ | * '''Задача''': Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании. | ||
+ | * '''Данные''': Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей. | ||
+ | * '''Литература''': Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf | ||
+ | * '''Базовой алгоритм''': PLS, алгоритм квадратичной оптимизации для выбора признаков. | ||
+ | * '''Решение''': построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана). | ||
+ | * '''Новизна''': Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS. | ||
+ | * '''Авторы''': А.М. Катруца, В.В. Стрижов. | ||
+ | |||
+ | |||
+ | === Задача Стрижова и Кулунчакова + === | ||
+ | * '''Название''': Creation of delay-operators for multiscale forecasting by means of symbolic regression | ||
+ | * '''Задача''': Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well. | ||
+ | * '''Данные''': Any data from the domain of multiscalse forecating of time series. See the [[Media:Kulunchakov2016MultiscaleForecast.pdf|full version]] of this introduction. | ||
+ | * '''Литература''': to be handed by V.V.Strijov | ||
+ | * '''Базовой алгоритм''': to be handed by V.V.Strijov | ||
+ | * '''Решение''': Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting. | ||
+ | * '''Новизна''': to be handed by V.V.Strijov | ||
+ | * '''Авторы''': supervisor: V.V.Strijov, consultant: A.S. Kulunchakov | ||
== Устарело == | == Устарело == |
Версия 23:01, 12 января 2018
Содержание |
Задача 1
- Название: Классификация видов деятельности человека по измерениям фитнес-браслетов.
- Задача: По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов, Р.Г. Нейчев
Задача 2
- Название: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
- Задача: В рамках решения задачи декодирования сигналов ECoG решается задача классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
- Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
- Литература:
- Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
- Базовой алгоритм: PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
- Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
- Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
- Авторы: В.В. Стрижов, консультант ??
Задача 5
- Название: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
- Задача: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
- Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Базовой алгоритм: [Карасиков 2016]
- Решение: См. описание задачи.
- Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
- Авторы: В.В. Стрижов
Задача 10
- Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
- Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
- Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
- Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
- Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Авторы: А.А. Адуенко, В.В. Стрижов.
Задача 11
- Название: Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов.
- Задача: Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
- Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
- Литература: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
- Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
- Решение: построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
- Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
- Авторы: А.М. Катруца, В.В. Стрижов.
Задача Стрижова и Кулунчакова +
- Название: Creation of delay-operators for multiscale forecasting by means of symbolic regression
- Задача: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
- Данные: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
- Литература: to be handed by V.V.Strijov
- Базовой алгоритм: to be handed by V.V.Strijov
- Решение: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
- Новизна: to be handed by V.V.Strijov
- Авторы: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov
Устарело
Инструменты
MikTeX | LaTex interpreter | 2.9 - ok |
Ramus | IDEF0 Editor | |
GhostScript | PS/PDF render | 32-bit (change to 64) |
GSview | PS PDF Viewer | 64-bit |
EPSViewer | EPS Viewer | 32-bit |
JabRef | Bibliography reference manager | |
Tortoise SVN | Interface to Subversion control | 64-bit only for Windows7 |
Daemon-Tools | Windows7-version only, not installed, not used | |
Kaspersky Internet Security | Antivirus | |
WinMerge | Compare two files or folders | |
Microsoft Office | Is it possible to | change it for OpenOffice? |
GoodSync | External HDD syncro | |
Skypeor Full version for Win 8.1 | IP telephone | strijov |
WinEdt6 | vs WinEdt5.3 | |
Lizardtech DjVu Browser | Scanned books | Plug-in |
InkScape | Graphics with EPS and TeX export | |
mactex |
Настройки
- Поиск в Windows 7: флаг, параметры индексирования, дополнительно, типы файлов: [TeX, m], индексировать содержимое. Добавить папки.
- Установка LaTex под El Capitan
- US patent Particle detector WO 2007052079 A1
Свидетельство о государственной регистрации программ для ЭВМ
- 2016617272 Макет модуля прогнозирования объемов спроса на грузовые железнодорожные перевозки
- 2016617271 Генератор модельных исходных данных объемов спроса на грузовые железнодорожные перевозки и экзогенных факторов
- 2010613192 Программная система для построения интегральных индикаторов качества