Алгебра над алгоритмами и эвристический поиск закономерностей
Материал из MachineLearning.
(→Заседания спецсеминара) |
(→Заседания спецсеминара) |
||
Строка 70: | Строка 70: | ||
| ''Нижибицкий Евгений'', аспирант | | ''Нижибицкий Евгений'', аспирант | ||
| '''Рассказ про конкурс Avito по поиску контактной информации на изображениях''' | | '''Рассказ про конкурс Avito по поиску контактной информации на изображениях''' | ||
- | | [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях| | + | | [[Media:Nizhibitsky_avito_ppt.pdf|Презентация (pdf)]], [[Media:Nizhibitsky_avito_report.pdf|отчет (pdf)]], [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях|cтраница конкурса]] |
|- | |- | ||
| 19 ноября 2014 | | 19 ноября 2014 | ||
| ''Остапец Андрей'', аспирант | | ''Остапец Андрей'', аспирант | ||
| '''Иерархическая классификация текстов. Конкурс LSHTC1''' | | '''Иерархическая классификация текстов. Конкурс LSHTC1''' | ||
- | | [[Media:OstapetsLSHTC.pdf|Презентация (pdf)]], [[Media:LSHTC.zip| | + | | [[Media:OstapetsLSHTC.pdf|Презентация (pdf)]], [[Media:LSHTC.zip|IPython notebook (zip)]] |
|- | |- | ||
| 26 ноября 2014 | | 26 ноября 2014 | ||
| ''Нижибицкий Евгений'', аспирант | | ''Нижибицкий Евгений'', аспирант | ||
| '''Традиционный доклад про Deep Learning''' | | '''Традиционный доклад про Deep Learning''' | ||
- | | | + | | [https://yadi.sk/i/4w2EciwIfGrZq Презентация (pdf) на Яндекс.Диске)] |
|- | |- | ||
| rowspan=2|3 декабря 2014 | | rowspan=2|3 декабря 2014 | ||
| ''Вихрева Мария'', 3-й курс | | ''Вихрева Мария'', 3-й курс | ||
| '''Отбор признаков в графе''' | | '''Отбор признаков в графе''' | ||
- | | [http://www.jmlr.org/papers/volume14/mairal13a/mairal13a.pdf статья (pdf) | + | | [[Media:Vikhreva_Feature_Selection.pdf|Презентация (pdf)]], [http://www.jmlr.org/papers/volume14/mairal13a/mairal13a.pdf статья (pdf)] |
|- | |- | ||
| ''Рыжков Александр'', 5-й курс | | ''Рыжков Александр'', 5-й курс | ||
Строка 101: | Строка 101: | ||
| --- | | --- | ||
|- | |- | ||
- | |16 февраля 2015 | + | | 16 февраля 2015 |
- | |''Рысьмятова Анастасия'', 3-й курс | + | | ''Рысьмятова Анастасия'', 3-й курс |
| '''Выявление мошенничества с кликами в интернет-рекламе | | '''Выявление мошенничества с кликами в интернет-рекламе | ||
- | |[http://jmlr.csail.mit.edu/papers/volume15/oentaryo14a/oentaryo14a.pdf | + | | [http://jmlr.csail.mit.edu/papers/volume15/oentaryo14a/oentaryo14a.pdf Статья (pdf)] |
|- | |- | ||
| rowspan=2|2 марта 2015 | | rowspan=2|2 марта 2015 | ||
| ''Трофимов Михаил'', 5-й курс | | ''Трофимов Михаил'', 5-й курс | ||
| '''Факторизационные машины''' | | '''Факторизационные машины''' | ||
- | | [http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf | + | | [http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf Статья 2010 г. (pdf)], [http://www.vldb.org/pvldb/vol6/p337-rendle.pdf статья 2013 г. (pdf)] |
|- | |- | ||
| ''Кудрявцев Георгий'', 3-й курс | | ''Кудрявцев Георгий'', 3-й курс | ||
| '''Сверточные сети и метод водораздела для семантической сегментации RGBD-видео | | '''Сверточные сети и метод водораздела для семантической сегментации RGBD-видео | ||
- | | [http://jmlr.org/papers/volume15/couprie14a/couprie14a.pdf | + | | [http://jmlr.org/papers/volume15/couprie14a/couprie14a.pdf Статья (pdf)] |
- | + | ||
|- | |- | ||
| 16 марта 2014 | | 16 марта 2014 | ||
| ''Гущин Александр'', 4-й курс | | ''Гущин Александр'', 4-й курс | ||
| '''Рассказ про конкурс АХА по нахождению поездок на автомобиле, не принадлежащих водителям''' | | '''Рассказ про конкурс АХА по нахождению поездок на автомобиле, не принадлежащих водителям''' | ||
- | | [http://www.kaggle.com/c/axa-driver-telematics-analysis | + | | [http://www.kaggle.com/c/axa-driver-telematics-analysis Страница конкурса на kaggle.com] |
- | + | ||
|} | |} | ||
Версия 21:44, 15 марта 2015
Руководитель спецсеминара: д.ф.-м.н., профессор Дьяконов Александр Геннадьевич
Направления работы на спецсеминаре
См. также «Правила для постоянных участников». |
Информация для второкурсников! |
|
В рамках работы на спецсеминаре есть два направления исследования:
- Теоретическое. Проводится в рамках алгебраического подхода к решению задач распознавания. Суть подхода: на алгоритмах, которые решают задачи обработки и анализа данных, специальным образом вводятся алгебраические операции. Например, можно складывать алгоритмы (получается опять алгоритм), умножать и т. д. Среди получаемых алгебраических выражений над «естественными» алгоритмами есть высокоэффективные алгоритмы. На спецсеминаре рассматриваются вопросы: как их строить, анализировать, реализовывать на ЭВМ и т. д. и т. п. Здесь же возникают задачи современной теории интерполяции: построения функций специального вида, заданных частично. Можно заниматься дискретным направлением: решать подобные задачи для функций, принимающих значения 0 и 1. Данное направление представляет особую ценность студентам, которые хотят получить самостоятельные результаты в науке и продолжить обучение в аспирантуре.
- Прикладное. Решаются реальные прикладные задачи анализа данных (data mining). Например, построение рекомендательных систем, прогнозирование свойств динамических графов (в том числе и графов социальных сетей), прогнозирование поведения потребителей, анализ метаданных, классификация сигналов головного мозга, классификация сигналов-показаний работы механизмов, настройка спам-фильтров, автоматическая рубрикация текстов, прогнозирование финансовых временных рядов. От студентов требуется желание глубоко понять задачу (данные и скрытые в них закономерности), умение быстро осваивать новые методы (в незнакомой области), хорошо программировать, выдвигать гипотезы и фантазировать (последнее очень важно).
Заседания спецсеминара
Заседания проходят по понедельникам в ауд. 605, начало в 18:10. Вход свободный. |
Дата | Докладчик | Доклад | Материалы |
---|---|---|---|
17 сентября 2014 | Дьяконов Александр, руководитель | Организационные вопросы: производственная практика, курсовые и дипломные работы, распределение тем докладов | |
24 сентября 2014 | Нижибицкий Евгений, аспирант | Музыкальная транскрипция при помощи методов машинного обучения | Презентация (pdf) |
1 октября 2014 | Остапец Андрей, аспирант | Особенности работы с большими данными | Презентация (pdf) |
8 октября 2014 | Рыжков Александр, 5-й курс | Язык программирования Julia | Презентация (pdf), коды (zip) |
15 октября 2014 | Славнов Константин, 4-й курс | Анализ соцсетей | Презентация (pdf) |
22 октября 2014 | Рысьмятова Анастасия, 3-й курс | Основы эконометрики | --- |
29 октября 2014 | Кудрявцев Георгий, 3-й курс | Закон Бенфорда | --- |
5 ноября 2014 | Харациди Олег, 5-й курс | Инструменты для хранения и обработки больших данных, разработанные в Google | --- |
12 ноября 2014 | Нижибицкий Евгений, аспирант | Рассказ про конкурс Avito по поиску контактной информации на изображениях | Презентация (pdf), отчет (pdf), cтраница конкурса |
19 ноября 2014 | Остапец Андрей, аспирант | Иерархическая классификация текстов. Конкурс LSHTC1 | Презентация (pdf), IPython notebook (zip) |
26 ноября 2014 | Нижибицкий Евгений, аспирант | Традиционный доклад про Deep Learning | Презентация (pdf) на Яндекс.Диске) |
3 декабря 2014 | Вихрева Мария, 3-й курс | Отбор признаков в графе | Презентация (pdf), статья (pdf) |
Рыжков Александр, 5-й курс | Ансамблирование алгоритмов машинного обучения | Презентация (pdf) | |
10 декабря 2014 | Харациди Олег, 5-й курс | Анализ сообщений в Twitter | --- |
17 декабря 2014 | Славнов Константин, 4-й курс | Алгоритмы детектирования сообществ в социальных сетях | --- |
16 февраля 2015 | Рысьмятова Анастасия, 3-й курс | Выявление мошенничества с кликами в интернет-рекламе | Статья (pdf) |
2 марта 2015 | Трофимов Михаил, 5-й курс | Факторизационные машины | Статья 2010 г. (pdf), статья 2013 г. (pdf) |
Кудрявцев Георгий, 3-й курс | Сверточные сети и метод водораздела для семантической сегментации RGBD-видео | Статья (pdf) | |
16 марта 2014 | Гущин Александр, 4-й курс | Рассказ про конкурс АХА по нахождению поездок на автомобиле, не принадлежащих водителям | Страница конкурса на kaggle.com |
Заседния в предыдущих семестрах:
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2013—2014 уч. года (осенний семестр).
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2012-2013 уч. года (весенний семестр).
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2012-2013 уч. года (осенний семестр).
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2011-2012 уч. года (весенний семестр).
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2011-2012 уч. года (осенний семестр).
- Алгебра над алгоритмами и эвристический поиск закономерностей/Заседания 2010-2011 уч. года (весенний семестр).
Текущие задания участников спецсеминара
Участник | Задание (каждый сам заполняет свою ячейку) | Комментарий |
---|---|---|
Нижибицкий Евгений (А1) | Обзор статей с последних конференций, реализация алгоритмов транскрипции | |
Остапец Андрей (А1) | Подготовка доклада по иерархической классификации текстов | |
Рыжков Александр (517) | Реализация алгоритма для дипломной работы | |
Харациди Олег (517) | Стажировка в Google Switzerland | |
Славнов Константин (417) | Исследование алгоритмов выделения сообществ в социальных сетях | |
Кудрявцев Георгий (317) | Обзор статей в журнале Journal of Machine Learning Research | |
Рысьмятова Анастасия (317) | Обзор статей в журнале Journal of Machine Learning Research | |
Вихрева Мария (317) | Обзор статей в журнале Journal of Machine Learning Research |
Возможные темы для будущих докладов
Источник | Пояснение | Возможные темы |
---|---|---|
статьи журнала | Доклады по статьям журнала Journal of Machine Learning Research | |
ссылки | Ансамблирование алгоритмов | |
Закон Бенфорда, пример статьи | [для младшекурсников] Закон Бенфорда (суть, найти статьи с иллюстрациями, отклонения от закона и т.п.) | |
взять лекции у преподавателя | [для младшекурсников] Эконометрика (обзор: модели, методы, теоремы) | |
Mining of Massive Datasets | Много актуальных тем - доклады прямо по главам книги. Необходимо посмотреть также дополнительную литературу. | |
Kaggle | Как всегда - обзор свежих интересных задач. | |
pca.narod.ru | Много материалов про многомерный метод главных компонент. Тем - куча. Можно походить по ссылкам - посмотреть смежные области. | |
julia tags | Обзор по современным языкам программирования для анализа данных. Особенно интересен новый язык Julia. Надо написать небольшие программки на разных языках. Сравнить производительность. Как доп. источник используйте гугл с запросами типа Julia data mining. | |
hp Kleinber | Много разных интересных статей и книг по графам, соцсетям, играм и т.п. В докладе можно изложить содержание 1-3 статей. | |
гугл: multi-dimensional sparse matrix, multi-dimensional sparse svd | Всё, что касается решения задач с факторными признаками. | Многомерный метод SVD: алгоритмы и приложения |
Twitter Data Analytics (pdf) | Книгу следует рассматривать лишь как первоначальный источник. В докладе желательно более подробно осветить темы. Есть два разных подхода: осветить технику или математический аппарат. | Анализ сообщений в твитере |
Участники спецсеминара
Год выпуска | Участники |
---|---|
2015 |
Харациди Олег
|
2015 бак |
Славнов Константин |
2016 бак |
Кудрявцев Георгий Рысьмятова Анастасия Вихрева Мария |
аспиранты 1 г.о. |
|
Выпускники спецсеминара
Год выпуска | Выпускники |
---|---|
Аспирант, 2010 |
Карпович Павел
Диссертация: «K-сингулярные системы точек в алгебраическом подходе к распознаванию образов» (2010, успешно защищена 18.02.2011 по специальности 01.01.09). |
2014 |
|
2013 |
Бобрик Ксения
Ермушева Александра
Кириллов Александр
Кондрашкин Дмитрий (перевёлся на другой спецсеминар)
|
2012 |
|
2010 |
Ахламченкова Ольга
Токарева (Одинокова) Евгения
|
2009 |
Власова Юлия
Логинов Вячеслав
Фёдорова Валентина
Чучвара Алексндра (бакалавр)
|
2008 |
Ломова Дарья
Вершкова Ирина
|
2007 |
Кнорре Анна
Карпович Павел
Сиваченко Евгений
|
2006 |
Ховратович (Курятникова) Татьяна
Мошин Николай
|
2005 |
Каменева Наталия
Силкин Леонид
|
Некоторые решаемые прикладные задачи
- Прогнозирование временных рядов По характеристикам процесса в прошлом предсказать поведение в будущем. Знание о прошлом может быть неполным или ошибочным. Типичный пример: прогнозирование денежных сумм, которые будут сниматься с банкомата в течение следующей недели.
- Классификация технических сигналов и сигналов головного мозга По описанию изменения некоторой характеристики процесса необходимо определить её класс. Например, по электрокортикограмме определить ментальное состояние человека. При этом обучающая выборка (данные, которые у нас есть) была собрана достаточно давно, а тестирование алгоритма будет проводиться потом (при изменённых внешних условиях, а следовательно, при изменённых характеристиках данных).
- Фильтрация спама Настроить спам-фильтр на некотором универсальном обучающем множестве (данных спам-ловушек) так, чтобы он хорошо работал на компьютере конкретного пользователя (без дополнительной донастройки).
- Иерархическая классификация текстов Написать алгоритм автоматической категоризации документов. Например, новостные рассылки необходимо распределить по каталогам «спорт/футбол», «спорт/биатлон», «музыка/концерты», «музыка/рок/исполнители» и т. д.
- Ранжирование документов на основе обучающего множества Написать алгоритм, который оценивает релевантность документа поисковому запросу. Для фиксированного запроса упорядочить документы (используя их признаковые описания) так, чтобы порядок отражал «адекватность» запроса.
- Прогноз связности графа социальной сети Предсказать изменения динамического графа социальной сети, в частности, появление новых рёбер.
- Прогнозирование успешности грантов и проектов По описанию заявки оценить перспективность выполнения данного проекта.
- Разработка рекомендательного алгоритма, который делает актуальные предложения купить какой-то товар, воспользоваться услугой или прочитать материал.
- Предсказывание визитов покупателей и сумм покупок для сети супермаркетов Разработка алгоритма, который предсказывает дату первого визита и сумму покупки каждого клиента.
- Оценка фотографий по метаданным Прогноз «интересности» фото-материалов на основе анализа названия, описания, GPS-координат съёмки и т.п.
- Задача кредитного скоринга Прогнозирование надёжности клиента банка по обязательствам выплаты процентов кредита.