Математические методы прогнозирования (кафедра ВМиК МГУ)/Спецкурсы-спецсеминары

Вероятностное тематическое моделирование (Probabilistic topic modelling), лектор профессор РАН, д.ф.-м.н. К.В. Воронцов, проходит по пятницам в ауд. 609, начало в 18-00. Первое занятие 10 февраля.
Специальный раздел машинного обучения. Математика на стыке теорвера и оптимизации. Матричные разложения и регуляризация некорректно поставленных задач. Немного компьютерной лингвистики. Новые парадигмы информационного поиска для изучения и систематизации знаний. Когнитивная графика для анализа больших текстовых коллекций и концепция «distant reading». Неожиданные приложения методов анализа текстов к транзакционным данным банка и медицинской диагностике по электрокардиограмме. Для любителей программирования – участие в проекте с открытым кодом BigARTM.org. Для особо увлечённых – дополнительные семинары в офисе Яндекса по средам вечером. Решение задач из реальной жизни, у которых нет правильного ответа в конце учебника. 18+ (для студентов, познавших теорвер): Вероятностные тематические модели, К.В. Воронцов

Непрерывные морфологические модели и алгоритмы (Continuous morphological models and algorithms), Л.М. Местецкий.
В курсе рассматриваются основы непрерывного подхода к анализу формы объектов в дискретных изображениях. Сюда входит аппроксимация бинарных растровых изображений многоугольными фигурами, представление фигур циркулярными графами, вычисление скелетов, сравнение и преобразование формы на основе циркулярных графов. Будут рассмотрены приложения непрерывных моделей формы в распознавании изображений.

Методы машинного обучения и поиск закономерностей в данных, О.В. Сенько.
В курсе обсуждаются основные проблемы, возникающие при использовании методов обучения по прецедентам (машинного обучения). Даётся краткий обзор существующих методов распознавания и регрессионного анализа. Рассказывается о способах оценки точности на генеральной совокупности (обобщающей способности). Обсуждаются различные способы повышения обобщающей способности методов машинного обучения.

Нестатистические методы анализа данных и классификации, В.В. Рязанов.
Основная цель спецкурса состоит в изложении основанных на оптимизационных, дискретных и эвристических подходах методов анализа данных. Будут рассмотрены логические модели распознавания (классификации с учителем) и анализа разнотипных многомерных данных, методы оптимизации моделей распознавания, алгоритмы поиска скрытых логических закономерностей и связей по признаковым описаниям, методы создания качественных моделей объектов, ситуаций, явлений или процессов. Будут рассмотрены практические численные методы решения данных задач, и их применения в медицине, бизнесе, химии, технике и других областях.

Логический анализ данных в распознавании, Е.В. Дюкова.
В спецкурсе излагаются общие принципы, лежащие в основе дискретных методов анализа информации в задачах распознавания, классификации и прогнозирования. Рассматриваются подходы к конструированию процедур распознавания на основе использования аппарата логических функций и методов построения покрытий булевых и целочисленных матриц. Изучаются основные модели и рассмотрены вопросы, связанные с исследованием сложности их реализации и качества решения прикладных задач.

Аналитические модели данных и их визуализация, А.И. Майсурадзе.

Методы и технологии машинного обучения, О.В. Сенько, А.И. Майсурадзе.

Восстановление зависимостей в больших массивах данных, О.В. Красоткина.
Целью данного курса является систематическое изучение распределённых файловых систем (таких, как например, Hadoop) как инструмента для создания параллельных реализаций алгоритмов машинного обучения на больших массивах данных. В ходе курса студенты получат навык использования возможностей модели распределённых вычислений MapReduce для параллельных вычислений над очень большими наборами данных в компьютерных кластерах. В ходе курса рассматриваются параллельные реализации таких основных алгоритмов машинного обучения как регрессия, классификация, кластеризация, коллаборативная фильтрация, классификация в метрических пространствах и т.д. Так же в рамках курса студентам будет предложено разработать собственные параллельные реализации алгоритмов восстановления зависимостей. Курс ориентирован на студентов, знакомых с основными концепциями и алгоритмами машинного обучения.

Методы оптимизации в машинном обучении, Д.А. Кропотов, А.О. Родоманов.
В спецкурсе рассматриваются классические и современные методы непрерывной оптимизации, а также особенности их применения для задач оптимизации, возникающих в машинном обучении. Основной упор в изложении делается на практические аспекты реализации и использования методов. Спецкурс поддерживается практическими заданиями.

Вероятностное тематическое моделирование, К.В. Воронцов.
В спецкурсе изучаются методы тематического моделирования (topic modeling) коллекций текстовых документов. Тематические модели предназначены для выявления латентной семантики текстов. Развивается не-байесовский многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются тематические модели для решения прикладных задач разведочного информационного поиска (exploratory search) в коллекциях научных статей и в социальных сетях, задач классификации, категоризации, сегментации и суммаризации текстов естественного языка, задач коллаборативной фильтрации и рекомендательных систем, а также задач анализа и классификации дискретизированных биомедицинских сигналов. Особое внимание будет уделено методам дистрибутивной семантики типа word2vec и комбинированию статистических и лингвистических методов анализа текстов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных, в том числе с использованием параллельной библиотеки с открытым кодом для онлайнового тематического моделирования BigARTM.

Задачи и алгоритмы вычислительной геометрии, Л.М. Местецкий.
Эффективные алгоритмы работы с геометрической информацией являются непременным атрибутом всех современных систем машинного зрения, анализа и распознавания изображений, компьютерной графики и геоинформатики. Геометрические алгоритмы предоставляют хорошее поле для развития алгоритмического мышления, необходимого в прикладной математике. В первой части спецкурса будут рассмотрены классические темы вычислительной геометрии: геометрический поиск, выпуклые оболочки, пересечение и близость объектов, диаграммы Вороного, триангуляции Делоне. Вторая часть курса посвящена скелетам, обобщениям диаграмм Вороного для многоугольников и задачам медиального анализа формы изображений.

Метрические методы интеллектуального анализа данных, А.И. Майсурадзе.
Рассматриваются методы и технологии, применяющиеся в интеллектуальном анализе данных (ИАД, data mining) и базирующиеся на понятиях сходства, близости, аналогии. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД, среди которых основное внимание в курсе уделено классификации, восстановлению регрессии, кластеризации, восстановлению пропущенных данных.

Нестатистический анализ данных, В.В. Рязанов.
В спецкурсе рассматриваются проблемы и методы кластерного анализа (подходы и алгоритмы кластеризации с известным и неизвестным числом кластеров, критерии кластеризации, вопросы устойчивости, построение оптимальных решений), дискретные методы для решения задач классификации множествами алгоритмов, новые подходы и алгоритмы в регрессионном анализе и анализе данных (решение задач восстановления зависимостей на основе решения задач классификации). Рассматриваются практические задачи классификации и поиска зависимостей по прецедентам, применения в медицине, бизнесе и технике.

Математические методы анализа текстов, В.В. Китов.
В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов. Изучается обработка и парсинг текста: 1) на уровне слов (определение морфологических характеристик, частей речи), 2) на уровне предложений (определение субъекта, объекта, действия, дополнений), 3) на уровне фрагмента текста (определение именованных сущностей) и 4) на уровне коллекции документов (извлечение основных тем, представленных в коллекции). Далее изученные методы обработки текстов используются для классификации текстов по категориям, эффективной визуализации содержимого больших текстовых коллекций, извлечения фактов из текстов для наполнения баз данных фактов, представленных онтологиями. Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet.

Неклассические математические модели обработки данных, А.И. Майсурадзе.
В большинстве случаев анализ данных проводится с целью последующего принятия некоторого решения. Решение должно быть принято в результате некоторых рассуждений с использованием доступной информации о предметной области вообще и конкретной ситуации в частности. Цель курса состоит в том, чтобы продемонстрировать различные способы представления информации и формализации знаний, соответственно, различные способы проведения рассуждений и различные виды представления результатов, к которым указанные рассуждения приводят. Результаты анализа данных требуется транслировать в рамки того же самого формализма, который используется при рассуждениях. И наоборот, каждая модель предполагает свои способы перехода от формализма к окончательному решению. В курсе для каждой модели рассматриваются способы включения данных и рассуждений в общую стратегию принятия решений. В частности, будет продемонстрировано, как можно сравнивать конкурентов, и как каждый из конкурентов способен показать, что его предложение – лучшее.

Нестатистические методы анализа данных и классификации, В.В. Рязанов.
Основная цель спецкурса состоит в изложении основанных на оптимизационных, дискретных и эвристических подходах методов анализа данных. Будут рассмотрены логические модели распознавания (классификации с учителем) и анализа разнотипных многомерных данных, методы оптимизации моделей распознавания, алгоритмы поиска скрытых логических закономерностей и связей по признаковым описаниям, методы создания качественных моделей объектов, ситуаций, явлений или процессов. Будут рассмотрены практические численные методы решения данных задач, и их применения в медицине, бизнесе, химии, технике и других областях.

Прикладные задачи анализа данных, А.Г. Дьяконов, читайте информацию на странице курса.

Непрерывные морфологические модели и алгоритмы, Л.М. Местецкий.
В курсе рассматриваются основы непрерывного подхода к анализу формы объектов в дискретных изображениях. Сюда входит аппроксимация бинарных растровых изображений многоугольными фигурами, представление фигур циркулярными графами, вычисление скелетов, сравнение и преобразование формы на основе циркулярных графов. Рассматриваются приложения непрерывных моделей формы в распознавании изображений.

Шаманство в анализе данных (для студентов 2 курса ВМК МГУ), А.Г. Дьяконов.
Первая лекция: "Что такое машинное обучение и анализ данных?" Понедельник 02.03.2015 16:20 ауд.504 Курс читается для второкурсников, которые выбирают кафедру и научного руководителя, знакомит с некоторыми направлениями исследований, которые выполняются на кафедре математических методов прогнозирования. В первой лекции даётся обзор основных задач машинного обучения, рассматриваются приложения, описываются потребности современных компаний в решении подобных задач.

Анализ информации, В.К. Леонтьев.

Компьютерные методы обработки сигналов, О.В. Красоткина.
Целью данного курса является систематическое изучение задач, теоретических методов и алгоритмов компьютерного анализа экспериментальных данных, упорядоченных вдоль некоторой оси. Курс лекций включает изучение базовых вопросов дискретизации сигналов по времени, получения их цифрового представления, цифровой фильтрации, спектрально-корреляционного анализа. Большое внимание уделяется вопросам построения и оценивания моделей нестационарных сигналов на основе марковской теории случайных процессов. Задачей курса является предоставить студентам уникальные инструменты, позволяющие решать конкретные прикладные задачи из различных областей знаний: миробиоологии, экономики, финансов, техники и технологии.

Модели распознавания, Козлов Вадим Никитович.
В курсе представлены как классические подходы к распознаванию образов (дискриминантный подход в детерминированной и вероятностной ипостасях, структурно-лингвистический, тестовый и алгебраический подходы), так и разработки последнего времени, включая те, которые делались в МГУ. Курс является существенно расширенным и усложненным вариантом курса Распознающие системы, прочитанного автором в интернете на сайтах образовательной организации Универсариум. Приглашаются студенты 2-4 курсов, все желающие.

Исчисления высказываний классической и интуиционистской логик, С.И. Гуров.
В спецкурсе рассматриваются основные понятия пропозициональной логики. Даются методы характеризации формул алгебры логики, в частности, метод резолюций и метод семантических таблиц. Изучаются логические исчисления гильбертовского и генценовского типов и общие свойства формальных теорий. Рассматриваются свойства метатеории логических исчислений: корректность и непротиворечивость, семантическая полнота, полнота по Посту, разрешимость и независимость. Спецкурс поддерживается практическими занятиями.

Логико-статистические модели в распознавании, прогнозировании и интеллектуальном анализе данных, О.В. Сенько.
Рассматриваются методы интеллектуального анализа данных, основанные на выделении в многомерном пространстве прогностических переменных областей, в которых значения прогнозируемой переменной достоверно отличаются от средних значений по всей выборке. Верификация выявленных закономерностей проводится с помощью рандомизированных перестановочных тестов. Приводятся примеры использования рассматриваемых методов при решении разнообразных прикладных задач.

Извлечение информации из изображений, И.Б. Гуревич.
В спецкурсе представлены постановки и методы решения математических и вычислительных задач, возникающих в связи с анализом и оцениванием информации, представляемой в виде изображений.

Теория надёжности обучения по прецедентам, К.В. Воронцов.
Спецкурс знакомит студентов с современным состоянием теории вычислительного обучения, исследующей проблему качества восстановления зависимостей по эмпирическим данным. Подробно рассматривается комбинаторная теория, позволяющая получать точные оценки вероятности переобучения.

Булевы уравнения и проблема SAT, С.И. Гуров, А.Г. Дьяконов.

Задачи распознавания в биоинформатике, К.В. Рудаков, И.Ю. Торшин.
Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач.