Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, осень 2013
Материал из MachineLearning.
(Различия между версиями)
(→Задачи) |
м (→Задачи) |
||
(180 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | {{Main|Численные методы обучения по прецедентам (практика, В.В. Стрижов)}} | ||
__NOTOC__ | __NOTOC__ | ||
+ | |||
+ | |||
+ | == Курс == | ||
+ | '''Построение эксплуатируемых моделей и проведение вычислительного эксперимента''' | ||
+ | |||
+ | Проекты с готовой Web-частью располагаются по адресу http://mvr.jmlda.org | ||
== Задачи == | == Задачи == | ||
{|class="wikitable" | {|class="wikitable" | ||
|- | |- | ||
- | |||
! Автор | ! Автор | ||
+ | ! Название задачи | ||
! Ссылка | ! Ссылка | ||
- | !LSICUDTPRWS | + | ![BMF]LSICUDTPRWS |
+ | ! Сумма | ||
+ | ! Оценка | ||
|- | |- | ||
- | | | + | |Бунаков Василий |
- | | | + | |Signature Recognition |
- | | | + | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Bunakov2013SignatureRecognition/] |
- | | | + | | [BM+F]L+SI+CU-DTPRWS |
+ | |14.5 | ||
+ | |10 | ||
+ | |- | ||
+ | |Вдовина Евгения | ||
+ | |Visualization of Results of Keyword Groups Mapping | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Vdovina2013MappingResultsVisualization/] | ||
+ | | [BF]L-S+I+C0DT-0R-0S | ||
+ | |9.75 | ||
+ | |5 | ||
|- | |- | ||
- | |||
|Воронов Сергей | |Воронов Сергей | ||
+ | |Распознавание текста на фотографиях | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Voronov2013TextRecognition/] | ||
+ | | [BM+F]LS-I+CU+DTP+R-W+S-- | ||
+ | |14.25 | ||
+ | |10 | ||
+ | |- | ||
+ | |Гринчук Олег | ||
+ | |Прогнозирование макроэкономических состояний (Векторная авторегрессия) | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Grinchuk2013InverseVAR/] | ||
+ | | [BMF]L-SI-C-0DTPRWS | ||
+ | |12.25 | ||
+ | |8 | ||
+ | |- | ||
+ | |Желавская Ирина | ||
+ | |Automatic Filters Generator for Gmail | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Zhelavskaya2013FiltersGenerator/] | ||
+ | | [BM+F]LS->>>>>00IC-U-D-TP--R-W--S- | ||
+ | |11.75 | ||
+ | |7 | ||
+ | |- | ||
+ | |Жуйков Владимир | ||
+ | |Распознавание подписей | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Zhuykov2013SignatureRecognition/] | ||
+ | | [BF]L--S-I-C--0D--T--P--R-0S-- | ||
+ | |7.25 | ||
+ | |3 | ||
+ | |- | ||
+ | |Иванов Александр | ||
+ | |Detecting Unsolicited SMS Messages | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/IvanovA2013DetectingSMSSpam/] | ||
+ | | [BM+F]LSIC->>U>DTPR0S- | ||
+ | | 12.75 | ||
+ | |8 | ||
+ | |- | ||
+ | |Касаткин Сергей | ||
+ | |Determination of the type of human activity based on the data from the accelerometer | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kasatkin2013Accelerometer/] | ||
+ | | [BF]L-S-I-->>>000C-U-DT-P--R--W-S- | ||
+ | | 9.75 | ||
+ | |5 | ||
+ | |- | ||
+ | |Катруца Александр | ||
+ | |Ранжирование поисковой выдачи | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Katrutsa2013PageRank/] | ||
+ | | [BM+F]L+SI+CUDTPR+W+S | ||
+ | |15.25 | ||
+ | |10 | ||
+ | |- | ||
+ | |Костин Александр | ||
+ | |Classify Handwritten Digits | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kostin2013ClassifyHandwrittenDigits/] | ||
+ | | [BF]L+S-IC-D--T--P--W--S- | ||
+ | |8.5 | ||
+ | |4 | ||
+ | |- | ||
+ | |Котенко Ленгольд Екатерина | ||
+ | |Satellite imagery processing for NDVI estimation | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kudryashova.Kotenko.NDVI/] | ||
+ | | [BMF-]L-S-IC-UD--000W--S-- | ||
+ | |8.5 | ||
+ | |4 | ||
+ | |- | ||
+ | |Кудряшова Александра | ||
+ | |Satellite imagery processing for NDVI estimation | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kudryashova.Kotenko.NDVI/] | ||
+ | | [BMF-]L-S-IC-UD--000W--S-- | ||
+ | |8.5 | ||
+ | |4 | ||
+ | |- | ||
+ | |Левдик Павел | ||
+ | |Прогнозирование цен на электроэнергию | ||
| | | | ||
- | | | + | | [BM+]L-SIC--U-D->PR-W> |
+ | | 9.75 | ||
+ | |5 | ||
+ | |- | ||
+ | |Матросов Михаил | ||
+ | |Short-term forecasting of musical compositions | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Matrosov2013MusicForecasting/] | ||
+ | | [BF]L-SIC-UDTPRW+S | ||
+ | |12.75 | ||
+ | |8 | ||
+ | |- | ||
+ | |Митяшов Андрей | ||
+ | |Обработка сложноорганизованных социологических данных в задаче классификации | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Mityashov2013ClassificationSocialData/] | ||
+ | | [M+F]L+SI--C-UDT--P00S- | ||
+ | |10 | ||
+ | |5 | ||
+ | |- | ||
+ | |Неклюдов Кирилл | ||
+ | |Распознавание лиц | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Neklyudov2013FacialKeypointsDetection/] | ||
+ | | [BM+F]LS-I+CU-DTPR-WS- | ||
+ | |13.5 | ||
+ | |9 | ||
|- | |- | ||
- | |||
|Перекрестенко Дмитрий | |Перекрестенко Дмитрий | ||
- | | | + | |Human activity recognition |
- | | | + | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Perekrestenko2013Accelerometer/] |
+ | | [BM+F]L-SI-CU-DTPRW+S | ||
+ | |13.75 | ||
+ | |9 | ||
+ | |- | ||
+ | |Прилепский Роман | ||
+ | |Text []Location and recognition on Google Street View Images. | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Prilepskiy2013GoogleStreetView/] | ||
+ | | [BF]L+0I>>>C--0D--00R-W-S-- | ||
+ | |7.25 | ||
+ | |3 | ||
+ | |- | ||
+ | |Пушняков Алексей | ||
+ | |Сегментация цветных изображений | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Pushnyakov2013ImageSegmentation/] | ||
+ | | [BM+F]L+S+I+C+UDT+P+R+W+S | ||
+ | |16.25 | ||
+ | |10 | ||
+ | |- | ||
+ | |Рыскина Мария | ||
+ | |Создание тематической модели на основе PLSA | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Ryskina2013TopicModelPLSA/] | ||
+ | | [BM+F]L-S+I+CUDT+PR+W+S | ||
+ | |15.25 | ||
+ | |10 | ||
+ | |- | ||
+ | |Стенин Сергей | ||
+ | |Определение тематически близких тезисов научной конференции | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Stenin2013Clustering/] | ||
+ | | [BF]L+S+I+CUDT-0R-WS | ||
+ | |12.25 | ||
+ | |8 | ||
|- | |- | ||
- | |||
|Уржумцев Олег | |Уржумцев Олег | ||
+ | |Поиск похожих тезисов конференций | ||
| | | | ||
+ | | [BM+F]L-S-IC>D>>R--WS | ||
+ | |10.25 | ||
+ | |6 | ||
+ | |- | ||
+ | |Фейзханов Рустем | ||
+ | |Email filter generation | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Feyzkhanov2013FilterEmail/] | ||
+ | | [BM+F-]LS-IC--U->(D-T)>>PRWS- | ||
+ | | 12.5 | ||
+ | |8 | ||
+ | |- | ||
+ | |Шуйский Николай | ||
+ | |Поиск мелодии в базе данных | ||
| | | | ||
+ | | [B]L-S-IC--0D-T--0R-W--S- | ||
+ | |7.25 | ||
+ | |3 | ||
|- | |- | ||
- | | | + | |Яшков Даниил |
- | | | + | |Локализация лиц на фотографии |
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Yashkov2013FaceDetection/] | ||
+ | | [M+F]L-S-IC->>>UDTPRW--S- | ||
+ | | 12.75 | ||
+ | |8 | ||
+ | |- | ||
+ | <!-- | ||
+ | |'''Неформальное посещение''' | ||
+ | | | ||
| | | | ||
| | | | ||
- | |||
- | |||
- | |||
| | | | ||
| | | | ||
|- | |- | ||
- | | | + | |Иванов Сергей |
- | | | + | |Personalize Expedia Hotel Searches |
- | | | + | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Ivanov2013PersonalizeHotelSearches/] |
+ | | [B]+L-SI+>> | ||
| | | | ||
+ | |Без оценки | ||
|- | |- | ||
- | | | + | |Колчанов Андрей |
- | | | + | |The financial bubbles definition in the stock data |
- | | | + | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Kolchanov2013FinancialBubbles/] |
+ | | [B]0S-I->>> | ||
| | | | ||
+ | |Без оценки | ||
|- | |- | ||
+ | |Дубовик Анна | ||
+ | |Classification and Exploring of Source Code of Python Projects. | ||
+ | |[https://svn.code.sf.net/p/mlalgorithms/code/Group074/Dubovik2013ProjectCodeClassifying/] | ||
+ | | [M]L0I--\>>>000C-- | ||
+ | | 2.5 | ||
+ | | | ||
+ | |- | ||
+ | --> | ||
|} | |} | ||
Строка 75: | Строка 248: | ||
|2 | |2 | ||
|Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. | |Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. | ||
- | | | + | |Примерно страница текста. |
|Statement | |Statement | ||
|- | |- | ||
Строка 92: | Строка 265: | ||
| | | | ||
|23 | |23 | ||
- | |Написаны юнит-тесты | + | |Написаны юнит-тесты и модуль, их запускающий. |
- | | | + | |Юнит-тесты. |
|Unit-test | |Unit-test | ||
|- | |- | ||
Строка 104: | Строка 277: | ||
|Ноябрь | |Ноябрь | ||
|6 | |6 | ||
- | |Написаны и запущены системные тесты. | + | |Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. |
- | |Тесты | + | |Тесты, рецензия. |
|Tests | |Tests | ||
|- | |- | ||
Строка 174: | Строка 347: | ||
* '''Аргументы.''' | * '''Аргументы.''' | ||
- | === | + | === Распознавание подписей=== |
+ | * '''Краткое описание.''' На основе [http://en.wikipedia.org/wiki/Signature_recognition#cite_note-4 динамической информации о подписи] распознать человека, которому эта подпись принадлежит. Динамическая информация означает, что подпись представляется многомерным временным рядом: зависимость координат от времени, зависимость давления от времени и др. | ||
+ | * '''Базовый алгоритм.''' [http://www.sciencedirect.com/science/article/pii/S0031320306002780 Hidden Markov Models / Dynamic Time Warping] | ||
+ | * '''Данные.''' [http://www.cse.ust.hk/svc2004/download.html Signature verification database] | ||
+ | * '''Аргументы.''' | ||
=== Поиск похожих тезисов конференций=== | === Поиск похожих тезисов конференций=== | ||
Строка 198: | Строка 375: | ||
*'''Базовый алгоритм.''' | *'''Базовый алгоритм.''' | ||
*'''Данные.''' http://imat2009.yandex.ru/academic/mathematic/2009/datasets | *'''Данные.''' http://imat2009.yandex.ru/academic/mathematic/2009/datasets | ||
+ | *'''Аргументы.''' | ||
+ | |||
+ | === Обработка сложноорганизованных социологических данных в задаче классификации=== | ||
+ | *'''Краткое описание.''' Решаемая прикладная задача - построение скоринговой модели. Основной проблемой является получение матрицы "объекты-признаки" из заполненной социологической анкеты. | ||
+ | *'''Базовый алгоритм.''' Логистическая регрессия для классификации, для обработки данных - презентация ВВС | ||
+ | *'''Данные.''' [http://svn.code.sf.net/p/mlalgorithms/code/Scoring2012/DataPreprocessing/data/ Данные банка OTP по скорингу] | ||
+ | *'''Аргументы.''' | ||
+ | |||
+ | === Категоризация объектов Красной Книги=== | ||
+ | *'''Краткое описание.''' Построить монотонную категоризацию объектов Красной Книги по экспертным признаковым описаниям, заданным в порядковой шкале. | ||
+ | *'''Базовый алгоритм.''' [http://www.machinelearning.org/archive/icml2009/papers/203.pdf Rule learning] | ||
+ | *'''Данные.''' [http://svn.code.sf.net/p/mlalgorithms/code/Medvednikova2012RedBook/data/NewIndex.txt Экспертные оценки объектов Красной Книги] | ||
*'''Аргументы.''' | *'''Аргументы.''' | ||
Строка 215: | Строка 404: | ||
=== Прогнозирование редких продаж по набору временных рядов=== | === Прогнозирование редких продаж по набору временных рядов=== | ||
+ | *'''Краткое описание.''' Разработать метод прогнозирования продаж, учитывая периодичность и тренд временных рядов. | ||
+ | *'''Базовый алгоритм.''' | ||
+ | *'''Данные.''' http://svn.code.sf.net/p/mvr/code/data/SalesDB/ | ||
+ | *'''Аргументы.''' | ||
=== Определение финансовых пузырей в биржевых данных=== | === Определение финансовых пузырей в биржевых данных=== | ||
Строка 229: | Строка 422: | ||
=== Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя=== | === Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя=== | ||
+ | *'''Краткое описание.''' Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве. | ||
+ | *'''Базовый алгоритм.''' https://dl.dropboxusercontent.com/u/43790276/neweng.pdf | ||
+ | *'''Данные.''' По запросу от Никиты Ивкина. | ||
+ | *'''Аргументы.''' | ||
=== Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных=== | === Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных=== | ||
Строка 240: | Строка 437: | ||
*'''Базовый алгоритм.''' [http://www.cs.cornell.edu/~dph/papers/pict-struct-ijcv.pdf Pictorial structures] | *'''Базовый алгоритм.''' [http://www.cs.cornell.edu/~dph/papers/pict-struct-ijcv.pdf Pictorial structures] | ||
*'''Данные.''' http://www.kaggle.com/c/facial-keypoints-detection/data | *'''Данные.''' http://www.kaggle.com/c/facial-keypoints-detection/data | ||
+ | *'''Аргументы.''' | ||
+ | |||
+ | === Распознавание профилей=== | ||
+ | *'''Краткое описание.''' По выделенному профилю лица человека определить, какому человеку этот профиль принадлежит. | ||
+ | *'''Базовый алгоритм.''' | ||
+ | *'''Данные.''' [http://svn.code.sf.net/p/mvr/code/data/FaceProfile/ База данных профилей] | ||
*'''Аргументы.''' | *'''Аргументы.''' | ||
Строка 246: | Строка 449: | ||
*'''Базовый алгоритм.''' | *'''Базовый алгоритм.''' | ||
*'''Данные.''' http://www.kaggle.com/c/expedia-personalized-sort/data | *'''Данные.''' http://www.kaggle.com/c/expedia-personalized-sort/data | ||
+ | *'''Аргументы.''' | ||
+ | |||
+ | === Прогнозирование землетрясений=== | ||
+ | *'''Краткое описание.''' По историческим данным о землетрясениях требуется построить прогноз / оценить вероятность землетрясения в следующий промежуток времени. | ||
+ | *'''Базовый алгоритм.''' Pattern shape analysis | ||
+ | *'''Данные.''' [http://earthquake.usgs.gov/earthquakes/search/ Данныe USA gov. о землетрясениях] | ||
*'''Аргументы.''' | *'''Аргументы.''' | ||
Текущая версия
Курс
Построение эксплуатируемых моделей и проведение вычислительного эксперимента
Проекты с готовой Web-частью располагаются по адресу http://mvr.jmlda.org
Задачи
Автор | Название задачи | Ссылка | [BMF]LSICUDTPRWS | Сумма | Оценка |
---|---|---|---|---|---|
Бунаков Василий | Signature Recognition | [1] | [BM+F]L+SI+CU-DTPRWS | 14.5 | 10 |
Вдовина Евгения | Visualization of Results of Keyword Groups Mapping | [2] | [BF]L-S+I+C0DT-0R-0S | 9.75 | 5 |
Воронов Сергей | Распознавание текста на фотографиях | [3] | [BM+F]LS-I+CU+DTP+R-W+S-- | 14.25 | 10 |
Гринчук Олег | Прогнозирование макроэкономических состояний (Векторная авторегрессия) | [4] | [BMF]L-SI-C-0DTPRWS | 12.25 | 8 |
Желавская Ирина | Automatic Filters Generator for Gmail | [5] | [BM+F]LS->>>>>00IC-U-D-TP--R-W--S- | 11.75 | 7 |
Жуйков Владимир | Распознавание подписей | [6] | [BF]L--S-I-C--0D--T--P--R-0S-- | 7.25 | 3 |
Иванов Александр | Detecting Unsolicited SMS Messages | [7] | [BM+F]LSIC->>U>DTPR0S- | 12.75 | 8 |
Касаткин Сергей | Determination of the type of human activity based on the data from the accelerometer | [8] | [BF]L-S-I-->>>000C-U-DT-P--R--W-S- | 9.75 | 5 |
Катруца Александр | Ранжирование поисковой выдачи | [9] | [BM+F]L+SI+CUDTPR+W+S | 15.25 | 10 |
Костин Александр | Classify Handwritten Digits | [10] | [BF]L+S-IC-D--T--P--W--S- | 8.5 | 4 |
Котенко Ленгольд Екатерина | Satellite imagery processing for NDVI estimation | [11] | [BMF-]L-S-IC-UD--000W--S-- | 8.5 | 4 |
Кудряшова Александра | Satellite imagery processing for NDVI estimation | [12] | [BMF-]L-S-IC-UD--000W--S-- | 8.5 | 4 |
Левдик Павел | Прогнозирование цен на электроэнергию | [BM+]L-SIC--U-D->PR-W> | 9.75 | 5 | |
Матросов Михаил | Short-term forecasting of musical compositions | [13] | [BF]L-SIC-UDTPRW+S | 12.75 | 8 |
Митяшов Андрей | Обработка сложноорганизованных социологических данных в задаче классификации | [14] | [M+F]L+SI--C-UDT--P00S- | 10 | 5 |
Неклюдов Кирилл | Распознавание лиц | [15] | [BM+F]LS-I+CU-DTPR-WS- | 13.5 | 9 |
Перекрестенко Дмитрий | Human activity recognition | [16] | [BM+F]L-SI-CU-DTPRW+S | 13.75 | 9 |
Прилепский Роман | Text []Location and recognition on Google Street View Images. | [17] | [BF]L+0I>>>C--0D--00R-W-S-- | 7.25 | 3 |
Пушняков Алексей | Сегментация цветных изображений | [18] | [BM+F]L+S+I+C+UDT+P+R+W+S | 16.25 | 10 |
Рыскина Мария | Создание тематической модели на основе PLSA | [19] | [BM+F]L-S+I+CUDT+PR+W+S | 15.25 | 10 |
Стенин Сергей | Определение тематически близких тезисов научной конференции | [20] | [BF]L+S+I+CUDT-0R-WS | 12.25 | 8 |
Уржумцев Олег | Поиск похожих тезисов конференций | [BM+F]L-S-IC>D>>R--WS | 10.25 | 6 | |
Фейзханов Рустем | Email filter generation | [21] | [BM+F-]LS-IC--U->(D-T)>>PRWS- | 12.5 | 8 |
Шуйский Николай | Поиск мелодии в базе данных | [B]L-S-IC--0D-T--0R-W--S- | 7.25 | 3 | |
Яшков Даниил | Локализация лиц на фотографии | [22] | [M+F]L-S-IC->>>UDTPRW--S- | 12.75 | 8 |
Расписание
Дата | Что сделано | Результат для обсуждения | Код | |
---|---|---|---|---|
Сентябрь | 18 | Выбрана задача, рецензент. | Запись в ML. | - |
25 | Собрана литература, написаны комментарии. | Список литературы и мини-сообщение. | Literatura | |
Октябрь | 2 | Поставлена задача для синтетических данных. Написана математическая постановка в формате TeX. | Примерно страница текста. | Statement |
9 | Создан файл отчета. Сделано описание проекта. Создана архитектура и интерфейс ядра системы (синтетические данные). | Описание, IDEF0. | Idef | |
16 | Детализирован интерфейс, написан код первого приближения. | Код для синтетических данных. | Code | |
23 | Написаны юнит-тесты и модуль, их запускающий. | Юнит-тесты. | Unit-test | |
30 | Собраны реальные данные. Доработана схема IDEF0. Написаны модули подготовки данных. | Данные, вторая схема IDEF0, модули. | Data | |
Ноябрь | 6 | Написаны и запущены системные тесты. По результатам доработки кода написана рецензия на работу. | Тесты, рецензия. | Tests |
13 | Код оптимизирован. | Отчет профайлера до и после. | Profiler | |
20 | Сделан визуальный отчет. | Завершенный тех.отчет. | Report | |
27 | Разработан веб-интерфейс. | Код на сайте. | Web | |
Декабрь | 4 | Сделан пользовательский интерфейс и примеры. | Доклад. | Show |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: вторник 6:00am (проверка занимает весь вторник).
- В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
- Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++),
- Несделанная работа - 0.
Черновой список задач
Выбор алгоритмов краткосрочного прогнозирования
- Краткое описание. Создать алгоритм, осуществляющий выбор моделей прогнозирования на основе метаописания временных рядов.
- Базовый алгоритм. Базовые модели для выбора: проект TSForecasting. Простейший метод для выбора моделей — дерево поиска. Метаописание временных рядов: А. И. Кобзарь Прикладная математическая статистика.
- Данные. Цены на электроэнергию, биржевые данные, цены на хлеб.
- Аргументы.
Прогнозирование цен на электроэнергию
- Краткое описание. Построить авторегрессионный алгоритм прогнозирования; осуществить выбор признаков методом наименьших углов.
- Базовый алгоритм. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. LARS.
- Данные. Цены на электроэнергию.
- Аргументы.
Сегментация изображений
- Краткое описание. Дана база данных изображений. Разработать алгоритм сегментации изображений по цветам.
- Базовый алгоритм. Segmentation based on Gaussian mixture models
- Данные. Любая БД изображения, например, berkeley
- Аргументы.
Поиск мелодии в базе данных
- Краткое описание. Задана библиотека мелодий. Для короткого музыкального фрагмента требуется определить, какой мелодии он принадлежит.
- Базовый алгоритм. Локальное прогнозирование.
- Данные. Библиотека мелодий в формате .midi. matlab .midi parser
- Аргументы.
Краткосрочное прогнозирование музыкальных произведений
- Краткое описание. Спрогнозировать простейшее музыкальное произведение функциями дискретного аргумента по предыстории.
- Базовый алгоритм. Прогнозирование функциями дискретного аргумента
- Данные. Библиотека мелодий в формате .midi. matlab .midi parser
- Аргументы.
Распознавание подписей
- Краткое описание. На основе динамической информации о подписи распознать человека, которому эта подпись принадлежит. Динамическая информация означает, что подпись представляется многомерным временным рядом: зависимость координат от времени, зависимость давления от времени и др.
- Базовый алгоритм. Hidden Markov Models / Dynamic Time Warping
- Данные. Signature verification database
- Аргументы.
Поиск похожих тезисов конференций
- Краткое описание. Найти тезисы конференции OR-2013, близкие к заданному.
- Базовый алгоритм. https://svn.code.sf.net/p/mlalgorithms/code/KuzminAduenkoStrijov2012ThematicClustering/
- Данные. Библиотека тезисов конференции OR-2013.
- Аргументы.
Сегментация библиографических списков
- Краткое описание. Разработать алгоритм сегментации библиографической записи.
- Базовый алгоритм. Скрытая марковская модель на основе мягкой кластеризации с учетом регулярных выражений.
- Данные. База данных библиографических списков (возможно, придется дополнить).
- Аргументы.
Распознавание рукописных цифр
- Краткое описание. Classify handwritten digits using the famous MNIST data.
- Базовый алгоритм. Convolutional Neural Networks
- Данные. http://www.kaggle.com/c/digit-recognizer/data
- Аргументы.
Ранжирование поисковой выдачи
- Краткое описание. Интернет-математика 2009.
- Базовый алгоритм.
- Данные. http://imat2009.yandex.ru/academic/mathematic/2009/datasets
- Аргументы.
Обработка сложноорганизованных социологических данных в задаче классификации
- Краткое описание. Решаемая прикладная задача - построение скоринговой модели. Основной проблемой является получение матрицы "объекты-признаки" из заполненной социологической анкеты.
- Базовый алгоритм. Логистическая регрессия для классификации, для обработки данных - презентация ВВС
- Данные. Данные банка OTP по скорингу
- Аргументы.
Категоризация объектов Красной Книги
- Краткое описание. Построить монотонную категоризацию объектов Красной Книги по экспертным признаковым описаниям, заданным в порядковой шкале.
- Базовый алгоритм. Rule learning
- Данные. Экспертные оценки объектов Красной Книги
- Аргументы.
Определение наличия и характеристик пульсовой волны
Построение рейтинга научных журналов
- Краткое описание. Построение совместного рейтинга научных журналов и публикующихся в них авторов.
- Базовый алгоритм. Co-clusterization
- Данные. Данные журнал-автор.
- Аргументы.
Визуализация подписей-выносок
- Краткое описание. Разработать метод оптимального расположения подписей-выносок.
- Базовый алгоритм. http://strijov.com/papers/AduenkoStrijov2013TextVisualizing.pdf
- Данные.
- Аргументы.
Прогнозирование редких продаж по набору временных рядов
- Краткое описание. Разработать метод прогнозирования продаж, учитывая периодичность и тренд временных рядов.
- Базовый алгоритм.
- Данные. http://svn.code.sf.net/p/mvr/code/data/SalesDB/
- Аргументы.
Определение финансовых пузырей в биржевых данных
- Краткое описание. Разработать метод определения финансовых пузырей в биржевых данных по ценам на сырье.
- Базовый алгоритм. статья Вилли.
- Данные. Цены на сырье.
- Аргументы.
Исследование изменения влияния макроэкономических показателей
- Краткое описание. Требуется построить модель влияния экономических показателей на ВВП и оценить изменения влияния каждого показателя с течением времени.
- Базовый алгоритм. Flexible least squares
- Данные. Данные макроэкономических показателей
- Аргументы.
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя
- Краткое описание. Требуется спрогнозировать показания одного из дорогостоящих датчиков в дизельном двигателе(лямбда-зонда) по показаниям других более дешевых датчиков. Специфика заключается в сильно-пересыщенном признаковом пространстве.
- Базовый алгоритм. https://dl.dropboxusercontent.com/u/43790276/neweng.pdf
- Данные. По запросу от Никиты Ивкина.
- Аргументы.
Обнаружение причинно-следственных связей во временных рядах железнодорожных перевозок и биржевых данных
- Краткое описание. Разработать алгоритм, детектирующий влияние экзогенных факторов на железнодорожные перевозки.
- Базовый алгоритм. Convergent cross mapping.
- Данные. Данные РЖД по железнодорожным перевозкам.
- Аргументы.
Распознавание лиц
- Краткое описание. Facial Keypoints Detection.
- Базовый алгоритм. Pictorial structures
- Данные. http://www.kaggle.com/c/facial-keypoints-detection/data
- Аргументы.
Распознавание профилей
- Краткое описание. По выделенному профилю лица человека определить, какому человеку этот профиль принадлежит.
- Базовый алгоритм.
- Данные. База данных профилей
- Аргументы.
Personalize Expedia Hotel Searches
- Краткое описание. ICDM 2013
- Базовый алгоритм.
- Данные. http://www.kaggle.com/c/expedia-personalized-sort/data
- Аргументы.
Прогнозирование землетрясений
- Краткое описание. По историческим данным о землетрясениях требуется построить прогноз / оценить вероятность землетрясения в следующий промежуток времени.
- Базовый алгоритм. Pattern shape analysis
- Данные. Данныe USA gov. о землетрясениях
- Аргументы.
Определение нежелательных SMS-сообщений
- Краткое описание. Фильтрация спам SMS рассылок посредством
- Базовый алгоритм.
- Данные. http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- Аргументы.
Кластеризация треков по типу активности
- Краткое описание. Необходимо кластеризовать треки ежедневного человеческого быта по типу активности (например, спорт, шоппинг, дорога домой)
- Базовый алгоритм.
- Данные. http://research.microsoft.com/en-us/downloads/b16d359d-d164-469e-9fd4-daa38f2b2e13/default.aspx
- Аргументы.
Определение типа активности человека по данным с акселерометра
- Краткое описание. Определение типа локальной активности (пеший ход, бег, подъем по лестнице и др.) по данным с акселерометра на теле человека.
- Базовый алгоритм.
- Данные.
- Аргументы.
Классификация сердцебиений
- Краткое описание. Первичная сегментация кардиограммы. Классификация типов сердцебиений.
- Базовый алгоритм.
- Данные. http://www.peterjbentley.com/heartchallenge/#dates
- Аргументы.
Фильтрация вредоносных URL, по названию ресурса
- Краткое описание. Фильтрация вредоносных URL, по названию ресурса (например фишинговые ссылки)
- Базовый алгоритм.
- Данные. http://sysnet.ucsd.edu/projects/url/
- Аргументы.
Задача навигации робота
- Краткое описание. Робот вдоль стены, считывает показания с датчиков, и принимает решения о изменении траектории (поворот на 30, 60 и 90 градусов)
- Базовый алгоритм.
- Данные. http://archive.ics.uci.edu/ml/datasets/Wall-Following+Robot+Navigation+Data
- Аргументы.
Распознавания текста на фотографиях
- Краткое описание. Локализация и распознавание текста на снимках Google Street View.
- Базовый алгоритм. http://cmp.felk.cvut.cz/~neumalu1/neumann-cvpr2012.pdf
- Данные.
- Аргументы.
Прогноз лесных пожаров
- Краткое описание. Прогнозирование распространения лесных пожаров по метеорологическим данным.
- Базовый алгоритм.
- Данные. http://archive.ics.uci.edu/ml/datasets/Forest+Fires
- Аргументы.
Прогноз состояния продаваемой машины
- Краткое описание. Оценка истинной стоимости продаваемого автомобиля
- Базовый алгоритм.
- Данные. http://www.kaggle.com/c/DontGetKicked
- Аргументы.
Прогнозирование выплат по страховке
- Краткое описание. Прогнозирование выплат по страховке в случае ДТП на основании данных об автомобиле.
- Базовый алгоритм.
- Данные. http://www.kaggle.com/c/ClaimPredictionChallenge
- Аргументы.
Прогнозирование должностных зарплат
- Краткое описание. Прогнозирование должностных зарплат по ключевым необходимым навыкам.
- Базовый алгоритм.
- Данные. http://www.kaggle.com/c/job-salary-prediction/data
- Аргументы.
Локализация лиц на фотографии
- Краткое описание. Прогнозирование должностных зарплат по ключевым необходимым навыкам.
- Базовый алгоритм. http://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf
- Данные. http://vis-www.cs.umass.edu/lfw/
- Аргументы.