Алгебра над алгоритмами и эвристический поиск закономерностей
Материал из MachineLearning.
Руководитель спецсеминара: д.ф.-м.н. Дьяконов Александр Геннадьевич
Работа на спецсеминаре
В рамках работы на спецсеминаре есть два направления исследования:
- Теоретическое. Проводится в рамках алгебраического подхода к решению задач распознавания. Суть подхода: на алгоритмах, которые решают задачи обработки и анализа данных, специальным образом вводятся алгебраические операции. Например, можно складывать алгоритмы (получается опять алгоритм), умножать и т. д. Доказано (Ю. И. Журавлёвым), что среди получаемых алгебраических выражений над «естественными» алгоритмами есть высокоэффективные алгоритмы. На спецсеминаре рассматриваются вопросы: как их строить, анализировать, реализовывать на ЭВМ и т. д. и т. п. Данное направление представляет особую ценность студентам, которые хотят получить самостоятельные результаты в науке и продолжить обучение в аспирантуре.
- Прикладное. Решаются реальные прикладные задачи анализа данных (data mining). Например, классификация сигналов головного мозга, классификация сигналов-показаний работы механизмов, настройка спам-фильтров, автоматическая рубрикация текстов, прогнозирование финансовых временных рядов. От студентов требуется желание глубоко понять задачу (данные и скрытые в них закономерности), умение быстро осваивать новые методы (в незнакомой области), хорошо программировать, выдвигать гипотезы и фантазировать (последнее очень важно).
Заседания 2011-2012 уч. года (весенний семестр)
Лекция "Введение в анализ данных".
Просьба к участникам семинара - посмотреть, высказать свои замечания и предложения по улучшению. В ближайшие 2 дня надо её доделать... принимаю любые предложения, например, что добавить ещё в глоссарий. Спасибо. Дь-ов 16:45, 4 марта 2012 (MSK) |
Число | Докладчик | Доклад |
---|---|---|
03.03.12 | Дьяконов А.Г. | Обзор использованных алгоритмов в конкурсе What Do You Know? |
03.03.12 | Нижибицкий Евгений (317) | Доклад о применении теории нечетких множеств |
03.03.12 | Бобрик Ксения (417) | Обзор использованных алгоритмов в конкурсе Algorithmic Trading Challenge |
03.03.12 | Ермушева Александра (417) | Обзор использованных алгоритмов в конкурсе Algorithmic Trading Challenge |
03.03.12 | Фонарев Александр (317) | Обзор алгоритмов поиска ближайших соседей по материалам http://simsearch.yury.name/tutorial.html |
Наши успехи
Кто | Что |
---|---|
Кириллов Александр, Фигурнов Михаил | Второе место на конкурсе Интернет-математика «Relevance Prediction Challenge» (лучший результат среди российских участников). Статья с отчётом об используемых методах. |
Научная работа - задания (весенний семестр 2012 года)
Участник | Задание (каждый сам заполняет свою ячейку) | Комментарий |
---|---|---|
Бобрик Ксения (417) | ||
Ермушева Александра (417) | ||
Кириллов Александр (417) | ||
Фигурнов Михаил (417) | ||
Кондрашкин Дмитрий (317) | Метрические критерии представления функции двух переменных в виде суммы функций одного переменного | |
Нижибицкий Евгений (317) | Курсовая работа на тему «Обзор методов классификации документов» | |
Остапец Андрей (317) | Курсовая работа на тему «Обзор методов линейного регрессионного анализа» | |
Фонарёв Александр (317) | Курсовая работа на тему «Обзор алгоритмов бустинга» |
Заседания 2011-2012 уч. года (осенний семестр)
Число | Докладчик | Доклад |
---|---|---|
10.12.11 | Кириллов Александр (417) | Обзор используемых алгоритмов в конкурсе Интернет-математика — 2011 |
10.12.11 | Фигурнов Михаил (417) | Обзор используемых алгоритмов в конкурсе Интернет-математика — 2011 |
10.12.11 | Кондрашкин Дмитрий (317) | Доклад по основам теории нечетких множеств |
10.12.11 | Остапец Андрей (317) | Доклад о применении мультимножеств в анализе данных на основе статьи Metrics for Mining Multisets |
26.11.11 | Бобрик Ксения (417) | Доклад по диссертации Dr. Jilles Vreeken "Making pattern mining useful" |
26.11.11 | Платонова Елена (517) | Доклад по теме «Классический информационный поиск: реализация и методы» по книге "Введение в информационный поиск" К. Маннинга |
26.11.11 | Дьяконов А.Г. | Доклад по теме «Пополнение линейного пространства нелинейными операциями». Часть доклада содержится в статье Нормировки и деление |
12.11.11 | Ермушева Александра (417) | Доклад по диссертации Dr. Wenjun Zhou "Correlation analysis: from computational hardness to practical success" |
29.10.11 | Дьяконов А.Г. | Доклад О двух алгоритмах рекомендательной системы |
29.10.11 | Кириллов Александр (417) | Доклад по диссертации Dr. Tianyi Wu “A Framework for Promotion Analysis in Multi-Dimensional Space” |
29.10.11 | Фигурнов Михаил (417) | Доклад по диссертации Dr. Michael Hay “Enabling Accurate Analysis of Private Network Data” |
18.10.11 | Нижибицкий Евгений (317) | Доклад «Временные ряды из геометрии и топологии пространственных паттернов» по одноименной лекции |
15.10.11 | Остапец Андрей (317) | Доклад «Фракталы, аттракторы, нейронные сети» по одноименной лекции |
15.10.11 | Фонарёв Александр (317) | Доклад «Эмбедология и нейропрогноз» по одноименной лекции |
15.10.11 | Кондрашкин Дмитрий (317) | Доклад «Стохастическая динамика, марковские модели и прогноз» по одноименной лекции |
Заседания 2010-2011 уч. года (весенний семестр)
Дата | Докладчик | Доклад |
---|---|---|
11.05.11 | Бобрик Ксения (317) | Доклад по теме «Прогнозирование временных рядов» |
04.05.11 | Платонова Елена (317) | Доклад по теме «Задачи и методы информационного поиска» |
20.04.11 | Ермушева Александра (317) | Доклад по теме «Задачи и методы коллаборативной фильтрации» |
13.04.11 | Кириллов Александр (317) | Доклад по теме «Предсказание связности графов» |
Участники спецсеминара
Год выпуска | Участники: |
---|---|
2014 |
Кондрашкин Дмитрий
|
2013 |
Бобрик Ксения
Ермушева Александра
Кириллов Александр
Фигурнов Михаил
|
2012 |
|
Выпускники спецсеминара
Год выпуска | Выпускники: |
---|---|
Аспирант, 2010 |
Карпович Павел
Диссертация: «K-сингулярные системы точек в алгебраическом подходе к распознаванию образов» (2010, успешно защищена 18.02.2011 по специальности 01.01.09) |
2010 |
Ахламченкова Ольга
Токарева (Одинокова) Евгения
|
2009 |
Власова Юлия
Логинов Вячеслав
Фёдорова Валентина
Чучвара Алексндра (бакалавр)
|
2008 |
Ломова Дарья
Вершкова Ирина
|
2007 |
Кнорре Анна
Карпович Павел
Сиваченко Евгений
|
2006 |
Ховратович (Курятникова) Татьяна
Мошин Николай
|
2005 |
Каменева Наталия
Силкин Леонид
|
Некоторые решаемые прикладные задачи
- Прогнозирование временных рядов По характеристикам процесса в прошлом предсказать поведение в будущем. Знание о прошлом может быть неполным или ошибочным. Типичный пример: прогнозирование денежных сумм, которые будут сниматься с банкомата в течение следующей недели.
- Классификация технических сигналов и сигналов головного мозга По описанию изменения некоторой характеристики процесса необходимо определить её класс. Например, по электрокортикограмме определить ментальное состояние человека. При этом обучающая выборка (данные, которые у нас есть) была собрана достаточно давно, а тестирование алгоритма будет проводиться потом (при изменённых внешних условиях, а следовательно, при изменённых характеристиках данных).
- Фильтрация спама Настроить спам-фильтр на некотором универсальном обучающем множестве (данных спам-ловушек) так, чтобы он хорошо работал на компьютере конкретного пользователя (без дополнительной донастройки).
- Иерархическая классификация текстов Написать алгоритм автоматической категоризации документов. Например, новостные рассылки необходимо распределить по каталогам «спорт/футбол», «спорт/биатлон», «музыка/концерты», «музыка/рок/исполнители» и т. д.
- Ранжирование документов на основе обучающего множества Написать алгоритм, который оценивает релевантность документа поисковому запросу. Для фиксированного запроса упорядочить документы (используя их признаковые описания) так, чтобы порядок отражал «адекватность» запроса.
- Прогноз связности графа социальной сети Предсказать изменения динамического графа социальной сети, в частности, появление новых рёбер.
- Прогнозирование успешности грантов и проектов По описанию заявки оценить перспективность выполнения данного проекта.
- Разработка рекомендательного алгоритма, который делает актуальные предложения купить какой-то товар, воспользоваться услугой или прочитать материал.
- Предсказывание визитов покупателей и сумм покупок для сети супермаркетов Разработка алгоритма, который предсказывает дату первого визита и сумму покупки каждого клиента.
- Оценка фотографий по метаданным Прогноз «интересности» фото-материалов на основе анализа названия, описания, GPS-координат съёмки и т.п.
- Задача кредитного скоринга Прогнозирование надёжности клиента банка по обязательствам выплаты процентов кредита.