Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, осень 2013

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных)
м (Задачи)
 
(203 промежуточные версии не показаны)
Строка 3: Строка 3:
-
== Черновой список задач ==
+
== Курс ==
 +
'''Построение эксплуатируемых моделей и проведение вычислительного эксперимента'''
 +
Проекты с готовой Web-частью располагаются по адресу http://mvr.jmlda.org
 +
 +
== Задачи ==
 +
{|class="wikitable"
 +
|-
 +
! Автор
 +
! Название задачи
 +
! Ссылка
 +
![BMF]LSICUDTPRWS
 +
! Сумма
 +
! Оценка
 +
|-
 +
|Бунаков Василий
 +
|Signature Recognition
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Bunakov2013SignatureRecognition/]
 +
| [BM+F]L+SI+CU-DTPRWS
 +
|14.5
 +
|10
 +
|-
 +
|Вдовина Евгения
 +
|Visualization of Results of Keyword Groups Mapping
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Vdovina2013MappingResultsVisualization/]
 +
| [BF]L-S+I+C0DT-0R-0S
 +
|9.75
 +
|5
 +
|-
 +
|Воронов Сергей
 +
|Распознавание текста на фотографиях
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Voronov2013TextRecognition/]
 +
| [BM+F]LS-I+CU+DTP+R-W+S--
 +
|14.25
 +
|10
 +
|-
 +
|Гринчук Олег
 +
|Прогнозирование макроэкономических состояний (Векторная авторегрессия)
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Grinchuk2013InverseVAR/]
 +
| [BMF]L-SI-C-0DTPRWS
 +
|12.25
 +
|8
 +
|-
 +
|Желавская Ирина
 +
|Automatic Filters Generator for Gmail
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Zhelavskaya2013FiltersGenerator/]
 +
| [BM+F]LS->>>>>00IC-U-D-TP--R-W--S-
 +
|11.75
 +
|7
 +
|-
 +
|Жуйков Владимир
 +
|Распознавание подписей
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Zhuykov2013SignatureRecognition/]
 +
| [BF]L--S-I-C--0D--T--P--R-0S--
 +
|7.25
 +
|3
 +
|-
 +
|Иванов Александр
 +
|Detecting Unsolicited SMS Messages
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/IvanovA2013DetectingSMSSpam/]
 +
| [BM+F]LSIC->>U>DTPR0S-
 +
| 12.75
 +
|8
 +
|-
 +
|Касаткин Сергей
 +
|Determination of the type of human activity based on the data from the accelerometer
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kasatkin2013Accelerometer/]
 +
| [BF]L-S-I-->>>000C-U-DT-P--R--W-S-
 +
| 9.75
 +
|5
 +
|-
 +
|Катруца Александр
 +
|Ранжирование поисковой выдачи
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Katrutsa2013PageRank/]
 +
| [BM+F]L+SI+CUDTPR+W+S
 +
|15.25
 +
|10
 +
|-
 +
|Костин Александр
 +
|Classify Handwritten Digits
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kostin2013ClassifyHandwrittenDigits/]
 +
| [BF]L+S-IC-D--T--P--W--S-
 +
|8.5
 +
|4
 +
|-
 +
|Котенко Ленгольд Екатерина
 +
|Satellite imagery processing for NDVI estimation
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kudryashova.Kotenko.NDVI/]
 +
| [BMF-]L-S-IC-UD--000W--S--
 +
|8.5
 +
|4
 +
|-
 +
|Кудряшова Александра
 +
|Satellite imagery processing for NDVI estimation
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kudryashova.Kotenko.NDVI/]
 +
| [BMF-]L-S-IC-UD--000W--S--
 +
|8.5
 +
|4
 +
|-
 +
|Левдик Павел
 +
|Прогнозирование цен на электроэнергию
 +
|
 +
| [BM+]L-SIC--U-D->PR-W>
 +
| 9.75
 +
|5
 +
|-
 +
|Матросов Михаил
 +
|Short-term forecasting of musical compositions
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Matrosov2013MusicForecasting/]
 +
| [BF]L-SIC-UDTPRW+S
 +
|12.75
 +
|8
 +
|-
 +
|Митяшов Андрей
 +
|Обработка сложноорганизованных социологических данных в задаче классификации
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Mityashov2013ClassificationSocialData/]
 +
| [M+F]L+SI--C-UDT--P00S-
 +
|10
 +
|5
 +
|-
 +
|Неклюдов Кирилл
 +
|Распознавание лиц
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Neklyudov2013FacialKeypointsDetection/]
 +
| [BM+F]LS-I+CU-DTPR-WS-
 +
|13.5
 +
|9
 +
|-
 +
|Перекрестенко Дмитрий
 +
|Human activity recognition
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Perekrestenko2013Accelerometer/]
 +
| [BM+F]L-SI-CU-DTPRW+S
 +
|13.75
 +
|9
 +
|-
 +
|Прилепский Роман
 +
|Text []Location and recognition on Google Street View Images.
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Prilepskiy2013GoogleStreetView/]
 +
| [BF]L+0I>>>C--0D--00R-W-S--
 +
|7.25
 +
|3
 +
|-
 +
|Пушняков Алексей
 +
|Сегментация цветных изображений
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Pushnyakov2013ImageSegmentation/]
 +
| [BM+F]L+S+I+C+UDT+P+R+W+S
 +
|16.25
 +
|10
 +
|-
 +
|Рыскина Мария
 +
|Создание тематической модели на основе PLSA
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Ryskina2013TopicModelPLSA/]
 +
| [BM+F]L-S+I+CUDT+PR+W+S
 +
|15.25
 +
|10
 +
|-
 +
|Стенин Сергей
 +
|Определение тематически близких тезисов научной конференции
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Stenin2013Clustering/]
 +
| [BF]L+S+I+CUDT-0R-WS
 +
|12.25
 +
|8
 +
|-
 +
|Уржумцев Олег
 +
|Поиск похожих тезисов конференций
 +
|
 +
| [BM+F]L-S-IC>D>>R--WS
 +
|10.25
 +
|6
 +
|-
 +
|Фейзханов Рустем
 +
|Email filter generation
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Feyzkhanov2013FilterEmail/]
 +
| [BM+F-]LS-IC--U->(D-T)>>PRWS-
 +
| 12.5
 +
|8
 +
|-
 +
|Шуйский Николай
 +
|Поиск мелодии в базе данных
 +
|
 +
| [B]L-S-IC--0D-T--0R-W--S-
 +
|7.25
 +
|3
 +
|-
 +
|Яшков Даниил
 +
|Локализация лиц на фотографии
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Yashkov2013FaceDetection/]
 +
| [M+F]L-S-IC->>>UDTPRW--S-
 +
| 12.75
 +
|8
 +
|-
 +
<!--
 +
|'''Неформальное посещение'''
 +
|
 +
|
 +
|
 +
|
 +
|
 +
|-
 +
|Иванов Сергей
 +
|Personalize Expedia Hotel Searches
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Ivanov2013PersonalizeHotelSearches/]
 +
| [B]+L-SI+>>
 +
|
 +
|Без оценки
 +
|-
 +
|Колчанов Андрей
 +
|The financial bubbles definition in the stock data
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kolchanov2013FinancialBubbles/]
 +
| [B]0S-I->>>
 +
|
 +
|Без оценки
 +
|-
 +
|Дубовик Анна
 +
|Classification and Exploring of Source Code of Python Projects.
 +
|[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Dubovik2013ProjectCodeClassifying/]
 +
| [M]L0I--\>>>000C--
 +
| 2.5
 +
|
 +
|-
 +
-->
 +
|}
 +
 +
== Расписание ==
 +
{|class="wikitable"
 +
! Дата
 +
!
 +
! Что сделано
 +
! Результат для обсуждения
 +
! Код
 +
|-
 +
|Сентябрь
 +
|18
 +
|Выбрана задача, рецензент.
 +
|Запись в ML.
 +
| -
 +
|-
 +
|
 +
|25
 +
|Собрана литература, написаны комментарии.
 +
|Список литературы и мини-сообщение.
 +
|Literatura
 +
|-
 +
|Октябрь
 +
|2
 +
|Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX.
 +
|Примерно страница текста.
 +
|Statement
 +
|-
 +
|
 +
|9
 +
|Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные).
 +
|Описание, IDEF0.
 +
|Idef
 +
|-
 +
|
 +
|16
 +
|Детализирован интерфейс, написан код первого приближения.
 +
|Код для синтетических данных.
 +
|Code
 +
|-
 +
|
 +
|23
 +
|Написаны юнит-тесты и модуль, их запускающий.
 +
|Юнит-тесты.
 +
|Unit-test
 +
|-
 +
|
 +
|30
 +
|Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных.
 +
|Данные, вторая схема IDEF0, модули.
 +
|Data
 +
|-
 +
|Ноябрь
 +
|6
 +
|Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу.
 +
|Тесты, рецензия.
 +
|Tests
 +
|-
 +
|
 +
|13
 +
|Код оптимизирован.
 +
|Отчет профайлера до и после.
 +
|Profiler
 +
|-
 +
|
 +
|20
 +
|Сделан визуальный отчет.
 +
|Завершенный тех.отчет.
 +
|Report
 +
|-
 +
|
 +
|27
 +
|Разработан веб-интерфейс.
 +
|Код на сайте.
 +
|Web
 +
|-
 +
|Декабрь
 +
|4
 +
|Сделан пользовательский интерфейс и примеры.
 +
|Доклад.
 +
|Show
 +
|-
 +
|}
 +
 +
== Работа и консультации ==
 +
# Работы сдаются в течение недели.
 +
# Желательна итеративная сдача работ, начинать показ лучше в выходные.
 +
# Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
 +
# В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
 +
 +
* Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++),
 +
* Несделанная работа - 0.
 +
 +
== Черновой список задач ==
=== Выбор алгоритмов краткосрочного прогнозирования ===
=== Выбор алгоритмов краткосрочного прогнозирования ===
* '''Краткое описание.''' Создать алгоритм, осуществляющий выбор моделей прогнозирования на основе метаописания временных рядов.
* '''Краткое описание.''' Создать алгоритм, осуществляющий выбор моделей прогнозирования на основе метаописания временных рядов.
Строка 17: Строка 329:
* '''Аргументы.'''
* '''Аргументы.'''
-
=== Распознавание геометрических фигур на фото===
+
=== Сегментация изображений===
 +
* '''Краткое описание.''' Дана база данных изображений. Разработать алгоритм сегментации изображений по цветам.
 +
* '''Базовый алгоритм.''' [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.123.2108&rep=rep1&type=pdf Segmentation based on Gaussian mixture models]
 +
* '''Данные.''' Любая БД изображения, например, [http://www.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/BSDS300/html/dataset/images.html berkeley]
 +
* '''Аргументы.'''
=== Поиск мелодии в базе данных===
=== Поиск мелодии в базе данных===
* '''Краткое описание.''' Задана библиотека мелодий. Для короткого музыкального фрагмента требуется определить, какой мелодии он принадлежит.
* '''Краткое описание.''' Задана библиотека мелодий. Для короткого музыкального фрагмента требуется определить, какой мелодии он принадлежит.
* '''Базовый алгоритм.''' Локальное прогнозирование.
* '''Базовый алгоритм.''' Локальное прогнозирование.
-
* '''Данные.''' Собрать библиотеку мелодий в формате .midi. [http://www.kenschutte.com/midi matlab .midi parser]
+
* '''Данные.''' Библиотека мелодий в формате .midi. [http://www.kenschutte.com/midi matlab .midi parser]
* '''Аргументы.'''
* '''Аргументы.'''
Строка 28: Строка 344:
* '''Краткое описание.''' Спрогнозировать простейшее музыкальное произведение функциями дискретного аргумента по предыстории.
* '''Краткое описание.''' Спрогнозировать простейшее музыкальное произведение функциями дискретного аргумента по предыстории.
* '''Базовый алгоритм.''' [[Прогнозирование функциями дискретного аргумента (пример)|Прогнозирование функциями дискретного аргумента]]
* '''Базовый алгоритм.''' [[Прогнозирование функциями дискретного аргумента (пример)|Прогнозирование функциями дискретного аргумента]]
-
* '''Данные.'''
+
* '''Данные.''' Библиотека мелодий в формате .midi. [http://www.kenschutte.com/midi matlab .midi parser]
* '''Аргументы.'''
* '''Аргументы.'''
-
=== Проверка подлинности подписей===
+
=== Распознавание подписей===
 +
* '''Краткое описание.''' На основе [http://en.wikipedia.org/wiki/Signature_recognition#cite_note-4 динамической информации о подписи] распознать человека, которому эта подпись принадлежит. Динамическая информация означает, что подпись представляется многомерным временным рядом: зависимость координат от времени, зависимость давления от времени и др.
 +
* '''Базовый алгоритм.''' [http://www.sciencedirect.com/science/article/pii/S0031320306002780 Hidden Markov Models / Dynamic Time Warping]
 +
* '''Данные.''' [http://www.cse.ust.hk/svc2004/download.html Signature verification database]
 +
* '''Аргументы.'''
=== Поиск похожих тезисов конференций===
=== Поиск похожих тезисов конференций===
* '''Краткое описание.''' Найти тезисы конференции OR-2013, близкие к заданному.
* '''Краткое описание.''' Найти тезисы конференции OR-2013, близкие к заданному.
-
* '''Базовый алгоритм.'''
+
* '''Базовый алгоритм.''' https://svn.code.sf.net/p/mlalgorithms/code/KuzminAduenkoStrijov2012ThematicClustering/
* '''Данные.''' Библиотека тезисов конференции OR-2013.
* '''Данные.''' Библиотека тезисов конференции OR-2013.
* '''Аргументы.'''
* '''Аргументы.'''
Строка 47: Строка 367:
=== Распознавание рукописных цифр===
=== Распознавание рукописных цифр===
*'''Краткое описание.''' [http://www.kaggle.com/c/digit-recognizer Classify handwritten digits using the famous MNIST data.]
*'''Краткое описание.''' [http://www.kaggle.com/c/digit-recognizer Classify handwritten digits using the famous MNIST data.]
-
*'''Базовый алгоритм.'''
+
*'''Базовый алгоритм.''' [http://arxiv.org/pdf/1204.3968v1.pdf Convolutional Neural Networks]
*'''Данные.''' http://www.kaggle.com/c/digit-recognizer/data
*'''Данные.''' http://www.kaggle.com/c/digit-recognizer/data
*'''Аргументы.'''
*'''Аргументы.'''
Строка 57: Строка 377:
*'''Аргументы.'''
*'''Аргументы.'''
-
=== Определение наличия и характеристик пульсовой волны===
+
=== Обработка сложноорганизованных социологических данных в задаче классификации===
 +
*'''Краткое описание.''' Решаемая прикладная задача - построение скоринговой модели. Основной проблемой является получение матрицы "объекты-признаки" из заполненной социологической анкеты.
 +
*'''Базовый алгоритм.''' Логистическая регрессия для классификации, для обработки данных - презентация ВВС
 +
*'''Данные.''' [http://svn.code.sf.net/p/mlalgorithms/code/Scoring2012/DataPreprocessing/data/ Данные банка OTP по скорингу]
 +
*'''Аргументы.'''
-
=== Построение рейтинга банков===
+
=== Категоризация объектов Красной Книги===
 +
*'''Краткое описание.''' Построить монотонную категоризацию объектов Красной Книги по экспертным признаковым описаниям, заданным в порядковой шкале.
 +
*'''Базовый алгоритм.''' [http://www.machinelearning.org/archive/icml2009/papers/203.pdf Rule learning]
 +
*'''Данные.''' [http://svn.code.sf.net/p/mlalgorithms/code/Medvednikova2012RedBook/data/NewIndex.txt Экспертные оценки объектов Красной Книги]
 +
*'''Аргументы.'''
 +
 
 +
=== Определение наличия и характеристик пульсовой волны===
=== Построение рейтинга научных журналов===
=== Построение рейтинга научных журналов===
Строка 74: Строка 404:
=== Прогнозирование редких продаж по набору временных рядов===
=== Прогнозирование редких продаж по набору временных рядов===
 +
*'''Краткое описание.''' Разработать метод прогнозирования продаж, учитывая периодичность и тренд временных рядов.
 +
*'''Базовый алгоритм.'''
 +
*'''Данные.''' http://svn.code.sf.net/p/mvr/code/data/SalesDB/
 +
*'''Аргументы.'''
=== Определение финансовых пузырей в биржевых данных===
=== Определение финансовых пузырей в биржевых данных===
Строка 81: Строка 415:
*'''Аргументы.'''
*'''Аргументы.'''
-
=== Прогнозирование управляемых макроэкономических показателей===
+
=== Исследование изменения влияния макроэкономических показателей===
 +
*'''Краткое описание.''' Требуется построить модель влияния экономических показателей на ВВП и оценить изменения влияния каждого показателя с течением времени.
 +
*'''Базовый алгоритм.''' [http://www2.econ.iastate.edu/tesfatsi/FLSTemporalDataMining.GMontana2009.pdf Flexible least squares]
 +
*'''Данные.''' Данные макроэкономических показателей
 +
*'''Аргументы.'''
=== Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя===
=== Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя===
 +
*'''Краткое описание.''' Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве.
 +
*'''Базовый алгоритм.''' https://dl.dropboxusercontent.com/u/43790276/neweng.pdf
 +
*'''Данные.''' По запросу от Никиты Ивкина.
 +
*'''Аргументы.'''
=== Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных===
=== Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных===
Строка 93: Строка 435:
=== Распознавание лиц===
=== Распознавание лиц===
*'''Краткое описание.''' [http://www.kaggle.com/c/facial-keypoints-detection Facial Keypoints Detection.]
*'''Краткое описание.''' [http://www.kaggle.com/c/facial-keypoints-detection Facial Keypoints Detection.]
-
*'''Базовый алгоритм.'''
+
*'''Базовый алгоритм.''' [http://www.cs.cornell.edu/~dph/papers/pict-struct-ijcv.pdf Pictorial structures]
*'''Данные.''' http://www.kaggle.com/c/facial-keypoints-detection/data
*'''Данные.''' http://www.kaggle.com/c/facial-keypoints-detection/data
 +
*'''Аргументы.'''
 +
 +
=== Распознавание профилей===
 +
*'''Краткое описание.''' По выделенному профилю лица человека определить, какому человеку этот профиль принадлежит.
 +
*'''Базовый алгоритм.'''
 +
*'''Данные.''' [http://svn.code.sf.net/p/mvr/code/data/FaceProfile/ База данных профилей]
*'''Аргументы.'''
*'''Аргументы.'''
Строка 101: Строка 449:
*'''Базовый алгоритм.'''
*'''Базовый алгоритм.'''
*'''Данные.''' http://www.kaggle.com/c/expedia-personalized-sort/data
*'''Данные.''' http://www.kaggle.com/c/expedia-personalized-sort/data
 +
*'''Аргументы.'''
 +
 +
=== Прогнозирование землетрясений===
 +
*'''Краткое описание.''' По историческим данным о землетрясениях требуется построить прогноз / оценить вероятность землетрясения в следующий промежуток времени.
 +
*'''Базовый алгоритм.''' Pattern shape analysis
 +
*'''Данные.''' [http://earthquake.usgs.gov/earthquakes/search/ Данныe USA gov. о землетрясениях]
*'''Аргументы.'''
*'''Аргументы.'''

Текущая версия


Курс

Построение эксплуатируемых моделей и проведение вычислительного эксперимента

Проекты с готовой Web-частью располагаются по адресу http://mvr.jmlda.org

Задачи

Автор Название задачи Ссылка [BMF]LSICUDTPRWS Сумма Оценка
Бунаков Василий Signature Recognition [1] [BM+F]L+SI+CU-DTPRWS 14.5 10
Вдовина Евгения Visualization of Results of Keyword Groups Mapping [2] [BF]L-S+I+C0DT-0R-0S 9.75 5
Воронов Сергей Распознавание текста на фотографиях [3] [BM+F]LS-I+CU+DTP+R-W+S-- 14.25 10
Гринчук Олег Прогнозирование макроэкономических состояний (Векторная авторегрессия) [4] [BMF]L-SI-C-0DTPRWS 12.25 8
Желавская Ирина Automatic Filters Generator for Gmail [5] [BM+F]LS->>>>>00IC-U-D-TP--R-W--S- 11.75 7
Жуйков Владимир Распознавание подписей [6] [BF]L--S-I-C--0D--T--P--R-0S-- 7.25 3
Иванов Александр Detecting Unsolicited SMS Messages [7] [BM+F]LSIC->>U>DTPR0S- 12.75 8
Касаткин Сергей Determination of the type of human activity based on the data from the accelerometer [8] [BF]L-S-I-->>>000C-U-DT-P--R--W-S- 9.75 5
Катруца Александр Ранжирование поисковой выдачи [9] [BM+F]L+SI+CUDTPR+W+S 15.25 10
Костин Александр Classify Handwritten Digits [10] [BF]L+S-IC-D--T--P--W--S- 8.5 4
Котенко Ленгольд Екатерина Satellite imagery processing for NDVI estimation [11] [BMF-]L-S-IC-UD--000W--S-- 8.5 4
Кудряшова Александра Satellite imagery processing for NDVI estimation [12] [BMF-]L-S-IC-UD--000W--S-- 8.5 4
Левдик Павел Прогнозирование цен на электроэнергию [BM+]L-SIC--U-D->PR-W> 9.75 5
Матросов Михаил Short-term forecasting of musical compositions [13] [BF]L-SIC-UDTPRW+S 12.75 8
Митяшов Андрей Обработка сложноорганизованных социологических данных в задаче классификации [14] [M+F]L+SI--C-UDT--P00S- 10 5
Неклюдов Кирилл Распознавание лиц [15] [BM+F]LS-I+CU-DTPR-WS- 13.5 9
Перекрестенко Дмитрий Human activity recognition [16] [BM+F]L-SI-CU-DTPRW+S 13.75 9
Прилепский Роман Text []Location and recognition on Google Street View Images. [17] [BF]L+0I>>>C--0D--00R-W-S-- 7.25 3
Пушняков Алексей Сегментация цветных изображений [18] [BM+F]L+S+I+C+UDT+P+R+W+S 16.25 10
Рыскина Мария Создание тематической модели на основе PLSA [19] [BM+F]L-S+I+CUDT+PR+W+S 15.25 10
Стенин Сергей Определение тематически близких тезисов научной конференции [20] [BF]L+S+I+CUDT-0R-WS 12.25 8
Уржумцев Олег Поиск похожих тезисов конференций [BM+F]L-S-IC>D>>R--WS 10.25 6
Фейзханов Рустем Email filter generation [21] [BM+F-]LS-IC--U->(D-T)>>PRWS- 12.5 8
Шуйский Николай Поиск мелодии в базе данных [B]L-S-IC--0D-T--0R-W--S- 7.25 3
Яшков Даниил Локализация лиц на фотографии [22] [M+F]L-S-IC->>>UDTPRW--S- 12.75 8

Расписание

Дата Что сделано Результат для обсуждения Код
Сентябрь 18 Выбрана задача, рецензент. Запись в ML. -
25 Собрана литература, написаны комментарии. Список литературы и мини-сообщение. Literatura
Октябрь 2 Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. Примерно страница текста. Statement
9 Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). Описание, IDEF0. Idef
16 Детализирован интерфейс, написан код первого приближения. Код для синтетических данных. Code
23 Написаны юнит-тесты и модуль, их запускающий. Юнит-тесты. Unit-test
30 Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. Данные, вторая схема IDEF0, модули. Data
Ноябрь 6 Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. Тесты, рецензия. Tests
13 Код оптимизирован. Отчет профайлера до и после. Profiler
20 Сделан визуальный отчет. Завершенный тех.отчет. Report
27 Разработан веб-интерфейс. Код на сайте. Web
Декабрь 4 Сделан пользовательский интерфейс и примеры. Доклад. Show

Работа и консультации

  1. Работы сдаются в течение недели.
  2. Желательна итеративная сдача работ, начинать показ лучше в выходные.
  3. Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
  4. В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
  • Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++),
  • Несделанная работа - 0.

Черновой список задач

Выбор алгоритмов краткосрочного прогнозирования

  • Краткое описание. Создать алгоритм, осуществляющий выбор моделей прогнозирования на основе метаописания временных рядов.
  • Базовый алгоритм. Базовые модели для выбора: проект TSForecasting. Простейший метод для выбора моделей — дерево поиска. Метаописание временных рядов: А. И. Кобзарь Прикладная математическая статистика.
  • Данные. Цены на электроэнергию, биржевые данные, цены на хлеб.
  • Аргументы.

Прогнозирование цен на электроэнергию

  • Краткое описание. Построить авторегрессионный алгоритм прогнозирования; осуществить выбор признаков методом наименьших углов.
  • Базовый алгоритм. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. LARS.
  • Данные. Цены на электроэнергию.
  • Аргументы.

Сегментация изображений

  • Краткое описание. Дана база данных изображений. Разработать алгоритм сегментации изображений по цветам.
  • Базовый алгоритм. Segmentation based on Gaussian mixture models
  • Данные. Любая БД изображения, например, berkeley
  • Аргументы.

Поиск мелодии в базе данных

  • Краткое описание. Задана библиотека мелодий. Для короткого музыкального фрагмента требуется определить, какой мелодии он принадлежит.
  • Базовый алгоритм. Локальное прогнозирование.
  • Данные. Библиотека мелодий в формате .midi. matlab .midi parser
  • Аргументы.

Краткосрочное прогнозирование музыкальных произведений

Распознавание подписей

Поиск похожих тезисов конференций

Сегментация библиографических списков

Распознавание рукописных цифр

Ранжирование поисковой выдачи

Обработка сложноорганизованных социологических данных в задаче классификации

  • Краткое описание. Решаемая прикладная задача - построение скоринговой модели. Основной проблемой является получение матрицы "объекты-признаки" из заполненной социологической анкеты.
  • Базовый алгоритм. Логистическая регрессия для классификации, для обработки данных - презентация ВВС
  • Данные. Данные банка OTP по скорингу
  • Аргументы.

Категоризация объектов Красной Книги

Определение наличия и характеристик пульсовой волны

Построение рейтинга научных журналов

  • Краткое описание. Построение совместного рейтинга научных журналов и публикующихся в них авторов.
  • Базовый алгоритм. Co-clusterization
  • Данные. Данные журнал-автор.
  • Аргументы.

Визуализация подписей-выносок

Прогнозирование редких продаж по набору временных рядов

  • Краткое описание. Разработать метод прогнозирования продаж, учитывая периодичность и тренд временных рядов.
  • Базовый алгоритм.
  • Данные. http://svn.code.sf.net/p/mvr/code/data/SalesDB/
  • Аргументы.

Определение финансовых пузырей в биржевых данных

  • Краткое описание. Разработать метод определения финансовых пузырей в биржевых данных по ценам на сырье.
  • Базовый алгоритм. статья Вилли.
  • Данные. Цены на сырье.
  • Аргументы.

Исследование изменения влияния макроэкономических показателей

  • Краткое описание. Требуется построить модель влияния экономических показателей на ВВП и оценить изменения влияния каждого показателя с течением времени.
  • Базовый алгоритм. Flexible least squares
  • Данные. Данные макроэкономических показателей
  • Аргументы.

Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя

  • Краткое описание. Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве.
  • Базовый алгоритм. https://dl.dropboxusercontent.com/u/43790276/neweng.pdf
  • Данные. По запросу от Никиты Ивкина.
  • Аргументы.

Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных

Распознавание лиц

Распознавание профилей

  • Краткое описание. По выделенному профилю лица человека определить, какому человеку этот профиль принадлежит.
  • Базовый алгоритм.
  • Данные. База данных профилей
  • Аргументы.

Personalize Expedia Hotel Searches

Прогнозирование землетрясений

  • Краткое описание. По историческим данным о землетрясениях требуется построить прогноз / оценить вероятность землетрясения в следующий промежуток времени.
  • Базовый алгоритм. Pattern shape analysis
  • Данные. Данныe USA gov. о землетрясениях
  • Аргументы.

Определение нежелательных SMS-сообщений

Кластеризация треков по типу активности

Определение типа активности человека по данным с акселерометра

Классификация сердцебиений

  • Краткое описание. Первичная сегментация кардиограммы. Классификация типов сердцебиений.
  • Базовый алгоритм.
  • Данные. http://www.peterjbentley.com/heartchallenge/#dates
  • Аргументы.

Фильтрация вредоносных URL, по названию ресурса

  • Краткое описание. Фильтрация вредоносных URL, по названию ресурса (например фишинговые ссылки)
  • Базовый алгоритм.
  • Данные. http://sysnet.ucsd.edu/projects/url/
  • Аргументы.

Задача навигации робота

  • Краткое описание. Робот вдоль стены, считывает показания с датчиков, и принимает решения о изменении траектории (поворот на 30, 60 и 90 градусов)
  • Базовый алгоритм.
  • Данные. http://archive.ics.uci.edu/ml/datasets/Wall-Following+Robot+Navigation+Data
  • Аргументы.

Распознавания текста на фотографиях

Прогноз лесных пожаров

  • Краткое описание. Прогнозирование распространения лесных пожаров по метеорологическим данным.
  • Базовый алгоритм.
  • Данные. http://archive.ics.uci.edu/ml/datasets/Forest+Fires
  • Аргументы.

Прогноз состояния продаваемой машины

  • Краткое описание. Оценка истинной стоимости продаваемого автомобиля
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/DontGetKicked
  • Аргументы.

Прогнозирование выплат по страховке

  • Краткое описание. Прогнозирование выплат по страховке в случае ДТП на основании данных об автомобиле.
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/ClaimPredictionChallenge
  • Аргументы.

Прогнозирование должностных зарплат

  • Краткое описание. Прогнозирование должностных зарплат по ключевым необходимым навыкам.
  • Базовый алгоритм.
  • Данные. http://www.kaggle.com/c/job-salary-prediction/data
  • Аргументы.

Локализация лиц на фотографии

Личные инструменты