Участник:Vokov

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

    Воронцов Константин Вячеславович

профессор РАН, д.ф.-м.н.,
руководитель лаборатории машинного интеллекта МФТИ,
проф. каф. «Интеллектуальные системы» ФУПМ МФТИ,
с.н.с. отдела «Интеллектуальные системы» Вычислительного центра ФИЦ ИУ РАН,
доц. каф. «Математические методы прогнозирования» ВМК МГУ,
преподаватель Школы анализа данных Яндекс,
зам. директора по науке ЗАО «Форексис», www.forecsys.ru,
один из идеологов и Администраторов ресурса MachineLearning.RU,
прочие подробности — на подстранице Curriculum vitæ.

Мне можно написать письмо.

http://www.MachineLearning.ru/wiki?title=User:Vokov — короткая ссылка на эту страницу.

Учебные материалы

Курсы лекций

Рекомендации для студентов и аспирантов

Каждый студент, с которым мы начинаем совместную научную работу, должен внимательно прочитать и осмыслить:

Другие методические материалы:

Интервью

Российский радиоуниверситет, Радио России

Газеты, журналы, электронные СМИ

Видеоинтервью

Доклады на конференциях и семинарах

Научные интересы

Всё, что скрывается за терминами «науки о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, аналитика больших данных, а также практический анализ данных в разнообразных областях (медицина, техника, биоинформатика, экономика, лингвистика, интернет).

Анализ текстов и информационный поиск

Основная статья: BigARTM

Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при поиске научной и профессиональной информации, в особенности новой или содержащей неизвестную пользователю терминологию. Поиск и мониторинг новых тенденций, терминологии, профессиональных сообществ всё ещё требует больших затрат времени и высокой квалификации. Существует барьер входа в новую профессиональную область. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен. Каким должен быть идеальный информационный поиск для учёного, преподавателя, специалиста? По всей видимости, единого ответа нет. Он должен быть разным. Одна из идей состоит в том, чтобы принимать в качестве запроса длинный текст — статью, фрагмент статьи или несколько статей, систематизировать результаты поиска в виде «дорожной карты», с помощью которой пользователю будет легче изучать данную область, выделять наиболее важные факты, готовить обзоры, в кратчайший срок накапливать собственную экспертизу в новой области знания. Миссия тематического поиска — Приблизить Знание к Пользователю. Знание раскидано по Интернету. Необходимо его выделить, систематизировать по темам и представить в виде, более удобном и разнообразном, чем ранжированный список в рекламном обрамлении. Современные поисковые системы не решают эту задачу, так как они нацелены не на концентрацию Знания, а на удовлетворение потребительских интересов среднего пользователя. Система поиска научной и профессиональной информации — это инструмент интеллектуальной элиты общества, доступный всем. Наша исследовательская группа разрабатывает математические и информационные технологии для создания такой поисковой системы. Они основаны на вероятностном тематическом моделировании (Probabilistic Topic Modeling) и гибридных подходах, объединяющих статистические и лингвистические методы анализа текстов.

Вероятностное тематическое моделирование развивается с конца 90-х годов и находит всё больше неожиданных применений в областях, далёких от анализа текстов на естественных языках: при обработке изображений и видео, звуковых и биомедицинских сигналов, нуклеотидных и аминокислотных последовательностей, пользовательских логов и транзакционных данных. Наши методы применимы и к этим задачам.

Основные направления исследований и разработок

  • теория и методы аддитивной регуляризации тематических моделей (ARTM);
  • разработка BigARTM — библиотеки с открытым кодом для тематического моделирования больших коллекций;
  • автоматическое выделения терминов-словосочетаний в текстах;
  • тематические модели последовательного текста, тематической структуры и сегментации текстов;
  • мультимодальные тематические модели, классификация и регрессия с текстовыми и разреженными признаками;
  • иерархические тематические модели и категоризация текстов;
  • методы визуализации тематических моделей;
  • методы автоматического именования тем;
  • проблемы сходимости и устойчивости численных методов матричных и тензорных разложений;
  • проблемы интерпретируемости тем;
  • мультиязычные тематические модели;
  • тематические модели транзакционных данных или гиперграфов;
  • анализ тональности и разделение тем на полярные мнения;
  • динамические тематические модели;
  • тематические модели, учитывающие авторство и ссылки;

Прикладные задачи

  • иерархическая тематическая модель научного и научно-популярного контента;
  • тематический разведочный информационный поиск;
  • классификация и динамическая тематизация новостных потоков;
  • классификация и сценарный анализ записей разговоров контактного центра;
  • тематическая кластеризация отзывов клиентов или опросов персонала;
  • модели символьной динамики для информационного анализа электрокардиосигналов;
  • выявления паттернов потребительского поведения клиентов по банковским транзакциям;
  • выявление видов экономической деятельности компаний по банковским транзакциям;

Ключевые слова

  • text analysis, information retrieval, keyphrase extraction, topic modeling, probabilistic latent semantic analysis (PLSA), latent Dirichlet allocation (LDA), Gibbs sampling, documents categorization, learning to rank, research trends, research front.

Материалы и задания

Диагностика заболеваний по ЭКГ

Все знают, что по электрокардиограмме можно ставить диагнозы сердечно-сосудистых заболеваний. Профессором д.м.н. В.М.Успенским предложен новый метод диагностики, позволяющий диагностировать широкий спектр заболеваний внутренних органов по ЭКГ. Многие болезни сказываются на работе сердца задолго до проявления клинических симптомов, что позволяет использовать ЭКГ для ранней диагностики. За 15 лет применения этой технологии накоплена обучающая выборка по двадцати тысячам больных и нескольким десяткам заболеваний. Вычислительные эксперименты подтверждают, что диагностика широкого спектра заболеваний по одной ЭКГ с использованием методов машинного обучения может достигать удивительной точности. Наша научная группа занимается всесторонней статистической экспертизой этого метода диагностики и разработкой новых принципов анализа дискретизированных биомедицинских сигналов. В частности, важным направлением является применение тематического моделирования и методов компьютерной лингвистики. Фактически, речь идёт о поиске оптимальной реконструкции (восстановлении синтаксиса и семантики) языка, порождаемого протекающими в организме человека сложнейшими физиологическими процессами, и при этом несущего значимую диагностическую информацию о состоянии здоровья человека.

Основные направления исследований и разработок:

  • поиск более эффективных методов дискретизации ЭКГ-сигналов;
  • построение диагностических эталонов заболеваний методами тематического моделирования;
  • разработка диагностических моделей для отдельных заболеваний;
  • разработка специальных методов отбора признаков, глубокого обучения, многоклассовой классификации;
  • исследование переобучения диагностических моделей.

Конкурсное задание на VI Традиционной молодёжной летней школе «Управление, информация и оптимизациия» 26 июня 2014г.

В архиве файлы по 1 болезни, обучающая выборка с классификациями, тестовая выборка без классификаций, read.me с условием задания.

Другие материалы и задания

В архиве файлы по 5 болезням, для каждой болезни имеется два файла: файлы с буквой «Э» в имени — эталонные выборки с надёжно верифицированными диагнозами, которые предполагается использовать для обучения; файлы без буквы «Э» — контрольные выборки. Можно использовать только эталонные, можно пробовать их перемешивать. В каждом файле первый столбец содержит метки классов (0-здоров, 1-болен), следующие 216 столбцов - значения признаков.

Теория обобщающей способности

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Её даже выделяют в отдельную дисциплину — теорию вычислительного обучения. Если алгоритм, восстанавливающий некоторую неизвестную зависимость, построен по конечной обучающей выборке прецедентов, то как предсказать качество его работы на контрольной выборке, состоящей из новых прецедентов? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным (VC theory) и получили верхние оценки вероятности ошибки обученного алгоритма (VC-bounds). Эти оценки позволили обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Если алгоритм имеет избыточное число параметров («степеней свободы»), то он может слишком точно настроиться на конкретную обучающую выборку в ущерб качеству восстановления зависимости в целом. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности. К сожалению, оценки вероятности ошибки чрезвычайно завышены (осторожны, пессимистичны), что может приводить к переупрощению модели в методе СМР. Несмотря на 40-летние усилия многих ученых и существенное усложнение математического аппарата, точные оценки до сих пор не были получены.

Комбинаторная теория переобучения — это принципиально новый подход, основанный на слабой вероятностной аксиоматике, впервые позволивший получить точные (не завышенные, не асимптотические) комбинаторные оценки вероятности переобучения и показать ключевую роль эффектов расслоения и сходства в семействах алгоритмов. Пока что точные оценки получены лишь для ряда модельных семейств алгоритмов, обладающих некоторой регулярной структурой. Для реальных смейств удалось получить верхние оценки расслоения-связности — SC-оценки (splitting and connectivity bounds). Они завышены в разы, тогда как VC-оценки завышены на 5–8 порядков. Для некоторых модельных семейств SC-оценки являются точными. Тем не менее, проблемы остаются, и дело не только в завышенности оценок. Во-первых, SC-оценки могут быть ненаблюдаемыми, то есть в них могут входить некоторые функции от скрытых контрольных данных. Эти функции вполне можно оценивать по наблюдаемым обучающим данным, но это дополнительная работа. Во-вторых, SC-оценки могут быть вычислительно неэффективными и требовать неадекватно больших затрат памяти и времени. Получение приближённых или асимптотических SC-оценок гарантированной точности также является отдельной работой.

Пока имеется лишь два примера практического применения комбинаторных оценок обобщающей способности:

  • Модификация критериев информативности для уменьшения переобучения конъюнктивных закономерностей в логических алгоритмах классификации (Андрей Ивахненко).
  • Эффективный алгоритм отбора эталонных объектов в методе ближайших соседей (Максим Иванов).

Основная цель дальнейших исследований — доведение комбинаторной теории переобучения до уровня практической применимости.

Основные направления исследований:

  • разработка математической техники для перехода от ненаблюдаемых оценок к наблюдаемым (возможно, как на основе комбинаторики, так и на основе теории концентрации вероятностной меры);
  • исследование комбинаторно-статистических свойств графа расслоения-связности модельных и реальных семейств алгоритмов.
  • получение оценок вероятности переобучения через наблюдаемый профиль расслоения-связности;
  • разработка эффективных методов оценивания нижних слоёв профиля расслоения-связности в конкретных методах обучения;
  • разработка логических алгоритмов классификации с управляемой переобученностью логических закономерностей;
  • развитие понятия «плотности» семейства алгоритмов и изучение возможности аппроксимации «плотных» семейств их «разреженными» подсемействами малой мощности;
  • развитие понятия «комбинаторного отступа» и его использование для повышения обобщающей способности линейных классификаторов;
  • развитие понятия локальной радемахеровской сложности для более аккуратного учёта эффектов расслоения и сходства;
  • обобщение понятий расслоения и сходства алгоритмов для непрерывных функций потерь;
  • разработка эффективных метрических алгоритмов классификации на основе комбинаторных оценок полного скользящего контроля;
  • исследование связи профилей компактности с функциями конкурентного сходства;
  • разработка методики тестирования и анализа обобщающей способности для «Полигона алгоритмов классификации».

Публикации:

Лучшее изложение с добавлением последних результатов:

Ключевые слова: overfitting, generalization bounds, computational learning theory, Vapnik-Chervonenkis theory, local Rademacher complexity.

Комбинаторная (перестановочная) статистика

Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл оценивать (предсказывать).

Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке, причём все перестановки равновероятны. Событие — это бинарная функция на множестве всех перестановок выборки. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).

В слабой аксиоматике удаётся переформулировать значительную часть фундаментальных результатов теории вероятностей и математической статистики, оносящихся к конечным выборкам независимых наблюдений. В их числе: закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие непараметрические, ранговые и перестановочные статические критерии, теория обобщающей способности, теория информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Многие результаты сильно упрощаются, освобождаясь от второстепенных технических усложнений, связанных с теорией меры. Например, отпадает необходимость введения различных типов сходимости.

Основные направления исследований:

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические тесты;
  • эффективные алгоритмы вычисления комбинаторных оценок;
  • исследование других вероятностных предположений, кроме равновероятности всех перестановок;
  • множественное тестирование статистических гипотез и его связь с проблемой переобучения.

Ключевые слова: exchangeability, permutational statistics, concentration of probability measure.

Прогнозирование объёмов продаж

Видеолекция на ПостНауке: Математические методы прогнозирования объемов продаж.

Задачи прогнозирования объёмов продаж в сетях супермаркетов характеризуются огромным количеством временных рядов, фактической невозможностью использования классических ресурсоёмких методов прогнозирования, несимметричностью функции потерь, разнородностью и нестационарностью временных рядов, наличием пропусков и неточностей в данных, возможностью привлечения дополнительной информации о структуре ассортимента, географии продаж, ценах, промо-акциях и поведении конкурентов.

Основные направления исследований:

  • адаптивные методы краткосрочного прогнозирования при несимметричной функции потерь;
  • адаптивные композиции алгоритмов прогнозирования при несимметричной функции потерь;
  • адаптивные методы прогнозирования плотности распределения;
  • адаптивные методы квантильной регрессии;
  • поиск взаимозаменяемых товаров, анализ и прогнозирование каннибализации брендов.

Ключевые слова: sales forecast, density forecast, forecasting under asymmetric loss, quantile regression.

Другие проекты и семинары

(в значительной степени устаревшие)

Виртуальные семинары

Материалы для преподавателей

Семинары

Публикации

Основное

Всё остальное

Софт

  • ChartLib — Библиотека деловой и научной графики. Страница: ChartLib. Документация: [1]

Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.

  • BigARTM — Открытая библиотека тематического моделирования. Страница: github.com/bigartm. Документация: bigartm.org

Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации. Реализация ядра библиотеки на С++, интерфейсы на C++, Python. Позволяет добавлять новые регуляризаторы и метрики качества. Разработкой руководит Александр Фрей.

Аспиранты и студенты

Аспиранты МФТИ ВМК МГУ ВШЭ
  • Илья Ирхин
  • Виктор Булатов
  • Анжелика Сухарева
  • Арина Агеева


  • Анастасия Янина

  • Юлиан Сердюк
  • Василий Алексеев
  • Полина Потапова
  • Анастасия Павловская
  • Даниил Фельдман
  • Андрей Власов

  • Вадим Кислинский
  • Евгений Козлинский
  • Анна Рогозина

  • Алексей Гришанов
  • Кирилл Хрыльченко
  • Никита Юдин

  • Дарья Соболева
  • Николай Скачков
  • Николай Шаталов

  • Максим Еремеев

  • Вадим Новосёлов
  • Анна Балакова

  • Василий Висков
  • Евгений Косарев

  • Михаил Солоткий
  • Галина Фоминская
Личные инструменты