Участник:Vokov
Материал из MachineLearning.
|
Воронцов Константин Вячеславович
профессор РАН, д.ф.-м.н.,
|
- Профиль ORCID = 0000-0002-4244-4270
- Профиль SCOPUS ID = 6507982932
- Профиль WoS ResearcherID = G-7857-2014
- Профиль Google Scholar
- Профиль DBLP
- Профиль РИНЦ ID = 15081
- Профиль в системе ИСТИНА
- Профиль MathNet.ru
http://www.MachineLearning.ru/wiki?title=User:Vokov — короткая ссылка на эту страницу.
Учебные материалы
Курсы лекций
- Машинное обучение — годовой курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ и кафедра ММП ВМК МГУ.
- Математические методы анализа текстов — семестровый курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ
- Вероятностные тематические модели — семестровый спецкурс, кафедра ММП ВМК МГУ.
- Теория надёжности обучения по прецедентам — спецкурс, кафедра ММП ВМК МГУ.
- Прикладной статистический анализ данных — семестровый курс, кафедра ММП ВМК МГУ; альтернативный семестровый курс, ФУПМ МФТИ.
Рекомендации для студентов и аспирантов
Каждый студент, с которым мы начинаем совместную научную работу, должен внимательно прочитать и осмыслить:
- Научно-исследовательская работа (рекомендации)
- Написание отчётов и статей (рекомендации)
- Подготовка презентаций (рекомендации)
- Защита выпускной квалификационной работы (рекомендации)
Другие методические материалы:
- Обзорные статьи на английском языке — рекомендуется студентам младших курсов в качестве текстов по специальности
- Требования к кандидатской диссертации
Интервью
Российский радиоуниверситет, Радио России
- Все эпизоды
- 5 февраля 2020. Исследования, разработки и перспективы ИИ в России, совместно с Игорем Пивоваровым.
- 13 января 2020. Искусственный интеллект – наука, ремесло или спорт?, совместно с Александром Дьяконовым.
- 16 декабря 2019. Вас обслуживает чатбот-юрист. Автоматизация юридических консультаций, совместно с Сергеем Переверзевым.
- 29 октября 2019. iPavlov – когда машины будут свободно говорить как люди, совместно с Михаилом Бурцевым.
- 15 октября 2019. Чатботы, нейросети и естественная речь машин, совместно с Сергеем Николенко.
- 1 октября 2019. Big data: искусственный интеллект в мире больших данных.
- 17 сентября 2019. Чему машины учатся у людей?
Газеты, журналы, электронные СМИ
- 25 мая 2020. Искусственный интеллект освободит учителя от рутины. РИА Новости.
- 25 февраля 2019. 15 тезисов о машинном обучении. Новая газета.
- 4 октября 2017. Универсальный солдат big data: Как освоить самую популярную профессию. Кот Шрёдингера.
- 27 сентября 2017. Прогресс нейронных сетей. ПостНаука.
- 31 декабря 2016. О науке о данных и машинном обучении. InTalent.pro.
Видеоинтервью
- 2 июня 2020. Недообучение и переобучение в машинном интеллекте. ПостНаука.
- 4 октября 2017. Интервью Юрию Кашницкому и Алексею Натекину. Открытый курс машинного обучения.
- 21 марта 2016. Разведочный информационный поиск. ПостНаука.
- 24 февраля 2016. Математические методы прогнозирования объемов продаж. ПостНаука.
Доклады на конференциях и семинарах
- 3 июня 2020. Обзор постановок оптимизационных задач машинного обучения. Общероссийский семинар по оптимизации. (PDF, 1.9 МБ). Видеозапись.
- 26 февраля 2020. Вероятностное тематическое моделирование больших текстовых коллекций и транзакционных данных. Научный семинар кафедры АСВК ВМК МГУ. (PDF, 2.3 МБ).
- 5 декабря 2019. Моделирование и искусственный интеллект: технологии, мифы, приоритеты. Конференция «Бизнес на 100%: операционная эффективность». (PDF, 1.3 МБ).
- 26 ноября 2019. Задачи и методы автоматического анализа текстов в разведочном информационном поиске. Математические методы распознавания образов (конференция). (PDF, 3.8 МБ).
- 24 октября 2019. «Человек и Машина» — конференция о том, как люди учат машины разговаривать и понимать смыслы. Мастерская знаний: машина, которая ничего не понимает, но учит людей приобретать профессиональные знания (PDF, 2.0 МБ).
- 23 октября 2019. Форум Инновационного развития, Сколково. RAIF 2019, секция Natural Language Processing и осознанный диалог: распознать, понять, ответить. Мастерская знаний: поисково-рекомендательная система для систематизации профессионального контента (PDF, 1.9 МБ).
- 21 октября 2019. NORMENT (Norwegian Centre for Mental Disorders Research) seminar in MIPT, Moscow. Applications of topic modeling and non-negative matrix factorization (PDF, 2.2 МБ).
- 18 октября 2019. Открытая лекция AI Business Course, Физтех.Рост. О лаборатории машинного интеллекта МФТИ (PDF, 2.1 МБ). Тематический информационный поиск (PDF, 2.7 МБ).
- 11 октября 2019. Первый открытый семинар лаборатории машинного интеллекта МФТИ. О лаборатории (PDF, 2.1 МБ). О разведочном поиске (PDF, 1.1 МБ). О тематическом моделировании (PDF, 0.8 МБ). Видеозапись.
- 11 октября 2019. Искусственный интеллект и машинное обучение. Лекция в Высшей школе системного инжиниринга МФТИ. (PDF, 3.7 МБ).
- 28 сентября 2019. Искусственный интеллект и анализ данных – профессия будущего. Форсайт-сессия учителей информатики «Взгляд в будущее» (PDF, 2.3 МБ). Примеры занятий по машинному обучению со школьниками: о тестах Бонгарда (PDF, 1.0 МБ); кружок для школьников в МФТИ (PDF, 3.0 МБ); отчёт по проекту в Сочи.Сириус (PDF, 1.0 МБ).
- 20 сентября 2019. Тематические векторные представления текста и разведочный информационный поиск. Математический кружок школы ПМИ МФТИ. (PDF, 2.9 МБ).
- 19 сентября 2019. Искусственный интеллект на пальцах. Искусственный интеллект в юридической практике. (PDF, 1.9 МБ).
- 11 июля 2019. От AI-хайпа к ML-технологиям. Образовательный интенсив «Остров 10-22». (PDF, 2.6 МБ).
- 24 июня 2019. Искусственный интеллект и машинное обучение. Лекция в Высшей школе системного инжиниринга МФТИ. (PDF, 3.7 МБ).
- 11 мая 2019. BigARTM: от лего-конструктора тематических моделей к сервисам разведочного поиска. DataFest-6. (PDF, 3.1 МБ). Видеозапись.
- 16 апреля 2019. Тематические векторные представления текста: от «мешка слов» к моделям связного текста. Сколково.Роботикс. (PDF, 3.3 МБ).
- 4 февраля 2019. Машинный интеллект и умный информационный поиск. Зимняя школа МФТИ по искусственному интеллекту. (PDF, 3.1 МБ).
- 31 октября 2018. Data Science: как наладить взаимодействие науки, бизнеса и образования. Data Halloween —– конференция про возможности Data Science для бизнеса. (PDF, 1.5 МБ).
- 24 октября 2018. Машинное обучение для анализа текстов и сложно структурированных данных. О проектах лаборатории машинного интеллекта МФТИ. Вебинар в рамках подготовки к студенческой одимпиаде «Я профессионал». (PDF, 2.3 МБ). Видеозапись.
- 23 октября 2018. Тематические векторные представления текстов, графов и транзакционных данных. RAIF-2018: Russian Artificial Intelligence Forum (PDF, 3.2 МБ).
- 22 октября 2018. Тематические векторные представления текстов, графов и транзакционных данных. IX Московская международная конференция по Исследованию Операций (ORM-2018 Germeyer-100) (PDF, 3.4 МБ). Видеозапись.
- 8 октября 2018. Тематические векторные представления текстов, графов и транзакционных данных. Интеллектуализация обработки информации (конференция)/2018 (PDF, 3.7 МБ).
- 28 сентября 2018. Технологии машинного обучения и обработки естественного языка для LegalTech. Программа «LegalTech директор» (PDF, 2.2 МБ).
- 15 сентября 2018. Визуализация в информационном поиске. Первая открытая лаборатория визуального мышления. МФТИ. (PDF, 6.3 МБ).
- 11–12 июня 2018. Вероятностное тематическое моделирование: опыт построения прикладной теории. Традиционная Школа «Управление, информация и оптимизация». (PDF, 8.5Мб).
- 22 мая 2018. Области использования машинного интеллекта. Школа-семинар для молодых ученых «Основы социоинженерии». ИПУ РАН. (PDF, 2.5 МБ). Видеозапись.
- 18 мая 2018. The Problems, Methods and Limitations of Machine Intelligence: Mining Texts, Graphs and Hypergraphs. Cognitive Technologies and Quantum Intelligence Conference. Saint Petersburg. (PDF, 2.3 МБ).
- 28 апреля 2018. Наука и бизнес в одном FLACONе: возгонка цифровой экономики. DataFest-5. (PDF, 1.2 МБ). Видеозапись.
- 28 апреля 2018. Тематическое моделирование в BigARTM: новые возможности. DataFest-5. (PDF, 5.9 МБ). Видеозапись.
- 8 февраря 2018. Обработка естественного языка и понимание речи. Открытая конференция по искусственному интеллекту OpenTalks.AI-2018. (PDF, 1.1 МБ).
- 29 января 2018. Математические методы и прикладные задачи анализа текстов. Зимняя физико-математическая школа МФТИ «Абсолютное будущее». (PDF, 2.1 МБ).
- 23 января 2018. Машинное обучение в LegalTech: задачи, возможности, ограничения. Искусственный интеллект – мечта и/или кошмар юриста. Семинар Санкт-Петербургской Международной Бизнес-Ассоциации (СПИБА). (PDF, 2.0 МБ).
- 18 декабря 2017. Towards Interpretable Word Embeddings through Probabilistic Topic Modeling. Korean-Russian Artificial Intelligence Workshop. (PDF, 1.9 МБ).
- 9 ноября 2017. Fast and Modular Regularized Topic Modeling. The seminar on Intelligence, Social Media and Web (ISMW), Open Innovations Association FRUCT (Finnish-Russian University Cooperation in Telecommunications). Helsinki, Finland. (PDF, 1.5 МБ).
- 4 ноября 2017. Введение в машинное обучение. Школа глубокого обучения — кружок для старшеклассников, МФТИ. (PDF, 2.6 МБ). Видеозапись.
- 16 октября 2017. Машинное обучение: шаг в цифровую экономику. AI@MIPT — открытый семинар по искусственному интеллекту в МФТИ. (PDF, 4.4 МБ). Видеозапись.
- 10 октября 2017. Аддитивная регуляризация тематических моделей связного текста. Математические методы распознавания образов (конференция). (PDF, 2.0 МБ).
- 8 октября 2017. Анализ данных и машинный интеллект - профессии будущего. Фестиваль науки НАУКА 0+. Лекторий «Большие данные для школьников». (PDF, 2.0 МБ).
- 5 октября 2017. Многокритериальный тематический анализ текстовых коллекций. Коллоквиум факультета компьютерных наук НИУ ВШЭ. (PDF, 2.2 МБ). Видеозапись.
- 4 октября 2017. Проблема определения числа тем в тематических моделях. Методы анализа текстов (спецсеминары, К.В. Воронцов)/2017-2018 год. (PDF, 0.9 МБ)
- 1 октября 2017. Интервью в рамках открытого курса машинного обучения. Видеозапись.
- 25 сентября 2017. Искусственный интеллект и машинное обучение: практические шаги в цифровую экономику. Расширенное заседание Совета по законодательному обеспечению развития цифровой экономики при Председателе Государственной Думы Федерального Собрания Российской Федерации. (PDF, 1.6 МБ)
- 13 сентября 2017. Additive Regularization for Topic Modeling. Mini-Workshop: Stochastic Processes and Probabilistic Models in Machine Learning. (PDF, 1.7 МБ). Video.
- 26 июля 2017. Тематический анализ записей разговоров контакт-центра. (PDF, 2.1Мб). Видеозапись. Летняя школа и хакатон DeepHack.Turing, МФТИ.
- 26 июля 2017. Лекция 1: Методы анализа данных: машинное обучение в анализе текстов. (PDF, 2.5Мб). Видеозапись. Лекция 2: Тематический анализ текстов. (PDF, 6.3Мб). Видеозапись. Летняя школа «Автоматическая обработка текстов и анализ данных», НИУ ВШЭ.
- 17–18 июня 2017. Оптимизация и регуляризация вероятностных тематических моделей. Традиционная Школа «Управление, информация и оптимизация». (PDF, 1.5Мб). (PDF, 2.8Мб). Машинное обучение, искусственный интеллекти экономика будущего (PDF, 2.5Мб).
- 15 июня 2017. Статистические тесты для проверки однородности и воспроизводимости электрокардиосигналов. Конференция 175 лет ВНИИМ. (PDF, 2.3 МБ).
- 1 июня 2017. Тематический анализ текстов и технология BigARTM. Лекция в NewProLab. (PDF, 5.5 МБ).
- 4 мая 2017. История машинного обучения. Лекция в МФТИ. (PDF, 5.1 МБ). Видеозапись.
- 13 марта 2017. Технология информационного анализа электрокардиосигналов. «Гаджеты в медицине: перспективы использования, новые функции, техническое совершенствование, производство и финансирование». МГТУ имени Н.Э.Баумана. (PDF, 2.1 МБ).
- 17 февраля 2017. Машинное обучение, искусственный интеллект и экономика будущего. (PDF, 1.2 МБ).
- 17 ноября 2016. Машинное обучение и анализ данных. Научный семинар ВНИИА. (PDF, 1.4 МБ).
- 12 ноября 2016. Тематическое моделирование структуры расходов клиентов банка. Data Science Day. (PDF, 2.9 МБ). Видеозапись.
- 11 ноября 2016. Теория, алгоритмы и приложения вероятностного тематического моделирования. Математический кружок школы ФПМИ МФТИ. (PDF, 3.6 МБ). Видеозапись.
- 26 октября 2016. Матричные разложения в задачах семантического анализа текстов. Семинар отдела «Математическое моделирование экономических систем», ВЦ РАН, Москва. (PDF, 1.4 МБ).
- 13 октября 2016. Additive Regularization for Topic Modeling Mining Ethnical Discourse in Social Media ИОИ-2016. (PDF, 1.2 МБ)
- 10 октября 2016. Речь на открытии конференции ИОИ-2016. (PDF, 0.5 МБ).
- 4 октября 2016. Аддитивная регуляризация наивного байесовского классификатора. Девятая международная конференция «Управление развитием крупномасштабных систем» (MLSD’2016). ИПУ РАН, Москва. (PDF, 1.7 МБ).
- 30 сентября 2016. Тематическое моделирование. Научный семинар ФКН НИУ ВШЭ. (PDF, 5.8 МБ).
- 13 сентября 2016. Тематическое моделирование для поиска и систематизации научно-технической информации. Семинар «Информационные технологии в современной библиотеке». (PDF, 5.2 МБ).
- 10 сентября 2016. Тематическое моделирование на пути к разведочному информационному поиску. Data Fest #3. (PDF, 4.5 МБ). Видеозапись.
- 1–24 июля 2016. Проект «Медицинская диагностика по ЭКГ» и лекции по машинному обучению. Извлекаем пользу из Big Data (Проектная смена, СочиСириус, 2016).
- 19 мая 2016. История машинного обучения. Лекция в МФТИ. (PDF, 4.2 МБ).
- 1 февраля 2016. Regularization of Topiс Models for Question Answering. А 24/7 hackathon on Question Answering systems (solving The Allen AI Science Challenge). (PDF, 2.2 МБ). Video.
- 9 декабря 2015. Модели и методы интеллектуального анализа данных. Международная научная конференция по информатике и прикладной математике, посвященная 60-летию Вычислительного центра им. А. А. Дородницына РАН. (PDF, 1.2 МБ).
- 14 ноября 2015. Topic modeling as a key technology for exploratory search and social media mining. Artificial Intelligence and Natural Language & Information Extraction, Social Media and Web Search FRUCT Conference. (PDF, 6.0 МБ).
- 14 октября 2015. BigARTM: Open Source Library for Topic Modeling of Large Text Collections. Аналитика и управление данными в областях с интенсивным использованием данных DAMDID/RCDL. (PDF, 5.6 МБ).
- 7 октября 2015. Additive Regularization of Topic Models: Towards Exploratory Search and Other Multi-Criteria Applications. 2nd Yandex School of Data Analysis Conference. Machine Learning: Prospects and Applications. (PDF, 6.4 МБ).
- 20 сентября 2015. Регуляризация тематических моделей в библиотеке с открытым кодом BigARTM: технологическая основа разведочного информационного поиска. Математические методы распознавания образов, ММРО-17]. (PDF, 6.2 МБ).
- 12 сентября 2015. BigARTM: тематическое моделирование больших текстовых коллекций. Data Fest #1. (PDF, 6.5 МБ).
- 25 августа 2015. Regularized Matrix Factorization for Topic Modeling of Text Collections. 4th International Conference on Matrix Methods in Mathematics and Applications MMMA-2015, August 24-28, Moscow. (PDF, 6.4 МБ).
- 18–21 августа 2015. Теория и практика обучения машин. Летняя Школа «Комбинаторика и алгоритмы для школьников». Лекция 1. Задачи и алгоритмы классификации (Презентация, 4.4Мб, Данные конкурсного задания, 100Kб). Лекция 2. Метрические алгоритмы классификации (Презентация, 3.1Мб). Лекция 3. Линейные классификаторы и бустинг (Презентация, 0.4Мб).
- 19 июня 2015. Аддитивно регуляризованные тематические модели и разведочный поиск знаний в сети. Традиционная Школа «Управление, информация и оптимизация». Презентация, 6.3Мб. Видеозапись.
- 17 июня 2015. Обучение наивного Байеса. Традиционная Школа «Управление, информация и оптимизация». Презентация, 2.1Мб. Данные для конкурсного задания. Видеозапись.
- 29, 30 июня 2015. Automatic filtering of Russian scientific content using Machine Learning and Topic Modeling. International Conference on Computational Linguistics Dialogue 2015, May 27-30, Moscow. (PDF, 6.2 МБ).
- 14 мая 2015. Multicriteria Regularization for Probabilistic Topic Modeling of Large Text Collections. Доклад на Optimization and Applications in Control and Data Science (on the occasion of Boris Polyak's 80th birthday). (PDF, 2.4 МБ). Video.
- 9 апреля 2015. BigARTM: Open Source Library for Regularized Multimodal Topic Modeling of Large Collections. Доклад на AIST-2015. (PDF, 2.3 МБ).
- 14 марта 2015. Применение машинного обучения и вычислительной лингвистики для диагностики заболеваний по электрокардиограмме. Лекция для школьников, Малый ШАД. (PDF, 2.3Мб). Видеозапись.
- 15 декабря 2014. Machine Learning for Big Data: Texts, Signals, Images and Video. Российско-американский исследовательский симпозиум. При поддержке MIT и в сотрудничестве со Сколковским институтом науки и технологий, «Цифровой Октябрь», Москва, Россия. (PDF, 2.4Мб).
- 20 октября 2014. Статистическая проверка технологии информационного анализа электрокардиосигналов для диагностики заболеваний внутренних органов. Доклад на конференции Математическая биология и биоинформатика, Пущино. (PDF, 2.4Мб).
- 6 октября 2014. Многокритериальные и многомодальные вероятностные тематические модели коллекций текстовых документов. Доклад на конференции ИОИ-2014, Крит. (PDF, 2Мб).
- 12 сентября 2014. Задача диагностики многих заболеваний по одной электрокардиограмме. Семинар по машинному обучению ВМК МГУ. (PDF, 1.6Мб).
- 11 сентября 2014. Information function of the heart: Discrete and fuzzy encoding of the ECG-signal for multidisease diagnostic system. International Conference Advanced Mathematical and Computational Tools in Metrology and Testing (AMCTM 2014). (PDF, 1.4Мб).
- 11 сентября 2014. Вероятностное тематическое моделирование. Семинар в лаборатории ЛИНИС НИУ ВШЭ, Санкт-Петербург. (PDF, 1.5 МБ).
- 21–24 августа 2014. Теория и практика обучения машин. Летняя Школа «Комбинаторика и алгоритмы для школьников». Лекция 1. Задача диагностики заболеваний по электрокардиограмме (Презентация, 1.6Мб). Данные для конкурсного задания. Лекция 2. Методы классификации и регрессии (Презентация, 3Мб). Лекция 3. Комбинаторная теория переобучения (Презентация, 2Мб)
- 27 июня 2014. Матричные разложения и вероятностное тематическое моделирование текстовых коллекций. Традиционная Школа «Управление, информация и оптимизация». Презентация, 3.4Мб.
- 26 июня 2014. Методы статистического обучения и задача диагностики заболеваний по электрокардиограмме. Традиционная Школа «Управление, информация и оптимизация». Презентация, 1.8Мб. Данные для конкурсного задания.
- 5 июня 2014. Multi-criteria regularization for Probabilistic Latent Semantic Analysis. International Conference on Computational Linguistics Dialogue 2014, June 4-8, Bekasovo. (PDF, 4.2 МБ).
- 15 мая 2014. Additive Regularization for Probabilistic Topic Modeling. Advances in Optimization and Statistics. (PDF, 1.9 МБ).
- 19 апреля 2014. Многокритериальная регуляризация вероятностных тематических моделей коллекций текстовых документов. Семинар в НМУ. (PDF, 1.9 МБ). Видеозапись.
- 12 апреля 2014. Аддитивная регуляризация матричных разложений для вероятностного тематического моделирования. Конференция АИСТ-2014. (PDF, 3.6 МБ).
- 21 марта 2014. Вероятностные тематические модели без интегралов и распределений Дирихле. (PDF, 3.8 МБ).
- 25 февраля 2014. О некоторых задачах и методах интеллектуального анализа данных. В цикле лекций «Современных проблем прикладной математики» для студентов 2 курса ФУПМ МФТИ. (PDF, 3.1 МБ).
- 31 октября 2013. Аддитивная регуляризация вероятностных тематических моделей. Доклад на семинаре БММО-2013, ВМК МГУ. (PDF, 1.6 МБ).
- 7 октября 2013. Аддитивная регуляризация вероятностных тематических моделей. Доклад на конференции ММРО-16, Казань. (PDF, 1.1 МБ).
- 2 октября 2013. Combinatorial theory of overfitting. How Connectivity and Splitting Reduces the Local Complexity Measures of Complexity Symposium (PDF, 1.7 MБ).
- 27 сентября 2013. Combinatorial theory of overfitting. The Yandex School of Data Analysis conference (PDF, 1.7 MБ), Аннотация и видеозапись.
- 28 июня 2013. Combinatorial theory of overfitting. International Workshop on Statistical Learning IWSL (PDF, 1.5 MБ).
- 23 апреля 2013. Вероятностные тематические модели коллекций текстовых документов. Доклад на семинаре в ВИНИТИ РАН. (PDF, 2.0 МБ).
- 13 апреля 2013. Комбинаторная теория переобучения. Семинар в НМУ. (PDF, 3.5 МБ). Дополнение: Евгений Соколов. Линейные классификаторы и случайные блуждания. (PDF, 380 KБ)
- 26 февраля 2013. Вероятностные тематические модели коллекций текстовых документов. Просеминар кафедры ММП, Москва, МГУ. (PDF, 0.8 МБ).
- 26 сентября, 3 октября 2012. Четыре лекции по машинному обучению. Высшая Школа Экономики. (PDF, 2.9 МБ).
- 17 сентября 2012. Регуляризация, робастность и разреженность вероятностных тематических моделей. Доклад на конференции ИОИ-9. (PDF, 0.9 МБ).
- 24 мая 2012. Комбинаторная теория переобучения и её применения. Семинар лаборатории PreMoLab, Москва, ИППИ РАН. (PDF, 3.0 МБ).
- 27 февраля 2012. Комбинаторная теория переобучения и её применения. Просеминар кафедры ММП, Москва, МГУ. (PDF, 2.5 МБ).
- 19 октября 2011. Задачи анализа данных ДНК-микрочипов. Доклад на семинаре «Время, хаос и математические проблемы» (руководитель академик В.А.Садовничий), Москва, МГУ. (PDF, 3 МБ).
- 12 сентября 2011. Комбинаторная теория переобучения и поиск логических закономерностей. Доклад на конференции ММРО-15, Петрозаводск. (PDF, 1.4 МБ).
- 27,29 июня 2011. Recent Advances on Generalization Bounds. Tutorial. International conference PReMI-2011 Part 1 (PDF, 1.0 MБ), Part 2 (PDF, 1.5 MБ). Tight Combinatorial Generalization Bounds for Threshold Conjunction Rules (PDF, 0.6 MБ, на английском).
- 12 января 2011. Интеллектуальный анализ данных и объектно-ориентированное программирование. Лекция на Зимней компьютерной школе 2011, МФТИ. (PDF, 1.0 МБ).
- 7 ноября 2010. Generalization bounds based on the splitting and connectivity properties of a set of classifiers. International conference PRIA-10 (PDF, 1.4 MБ, на английском).
- 20 октября 2010. Точные комбинаторные оценки обобщающей способности онлайнового обучения. Конференция ИОИ-8 (PDF, 400 KБ).
- 18 октября 2010. Комбинаторный подход к выводу точных оценок вероятности переобучения. Конференция ИОИ-8 (PDF, 1.2 MБ).
- 22 апреля 2010. Комбинаторная теория надёжности обучения по прецедентам. Защита докторской диссертации. (PDF, 1760 КБ). Учёный совет квалифицировал работу как новое направление в теории статистического обучения.
- 3 марта 2010. Интеллектуальный анализ данных и распознавание образов. Теоретические и практические проблемы. Доклад на семинаре «Глобальные изменения климата» (руководители академик Г.И.Марчук, академик В.П.Дымников), Москва, ИВМ. (PDF, 828 КБ).
- 13 января 2010. Задачи и методы машинного обучения. Лекция на Зимней компьютерной школе 2010, МФТИ. (PDF, 1023 КБ).
- 22 сентября 2009. Комбинаторный подход к проблеме переобучения. Доклад на конференции ММРО-14, Суздаль. (PDF, 1106 КБ).
- 27 июля 2009. Методы машинного обучения, основанные на индукции правил (логические методы классификации). Доклад на семинаре Знания и онтологии ELSEWHERE, Москва, ВШЭ. (PDF, 1202 КБ).
- 10 ноября 2008. Методы коллаборативной фильтрации и их применение. Выступление на семинаре Б.Г.Миркина, ВШЭ. (PDF, 1.1 МБ).
- 17 сентября 2008. Пути повышения точности оценок обобщающей способности (комбинаторный подход). Пленарный доклад на международной конференции РОАИ-9-2008, Нижний Новгород. Презентация на английском (PDF, 846 КБ), на русском (PDF, 844 КБ), тезисы доклада на русском (PDF, 243 КБ).
- 17 сентября 2008. Презентация ресурса www.MachineLearning.ru в рамках международной конференции РОАИ-9-2008, Нижний Новгород. (PDF, 285 КБ, на английском).
- 13 июня 2008. Вики-ресурс MachineLearning.RU: концепция и перспективы, круглый стол в рамках конференции ИОИ-2008, Крым, Алушта. (PDF, 198 КБ).
- 12 июня 2008. Слабая вероятностная аксиоматика, оценки надёжности эмпирических предсказаний, расслоение и различность алгоритмов. Конференция ИОИ-2008, Крым, Алушта. (PDF, 950 КБ).
- 28 апреля 2008. О некоторых задачах интеллектуального анализа данных — одна лекция в рамках курса «Современные проблемы прикладной математики» для студентов 5 курса ВМК МГУ. (PDF, 764Кб).
- 28 апреля 2008. Оценки надёжности эмпирических предсказаний (комбинаторный подход). Ломоносовские чтения 2008. (PDF, 804 КБ).
- 30 сентября 2007. Слабая вероятностная аксиоматика и надёжность эмпирических предсказаний. Конференция ММРО-13. (PDF, 910 КБ).
- 20 august 2007. 7th Open German/Russian Workshop (OGRW-7) on Pattern Recognition and Image Understanding, Ettlingen, Germany. Combinatorial Approach to Generalization Bounds Tightening. (PDF, 1.9 МБ, на английском).
- 4 июня 2006. Прикладные исследования и разработки компании Форексис в области интеллектуального анализа данных. Конференция ИОИ-2006, Крым, Алушта. (PDF, 460 КБ)
- 5 ноября 2005. Измерение локальной эффективной функции роста в задачах поиска логических закономерностей. Конференция ММРО-12. (PDF, 285 КБ), вместе с речью — (PDF, 308 КБ).
- 14 июня 2004. Комбинаторный подход к оцениванию качества алгоритмов, обучаемых по прецедентам. Конференция ИОИ-2004, Крым, Алушта. (PDF, 520 КБ).
- 28 ноября 2003. Комбинаторные оценки качества обучения по прецедентам. Конференция ММРО-11. (PDF, 680 КБ).
Научные интересы
Всё, что скрывается за терминами «науки о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, аналитика больших данных, а также практический анализ данных в разнообразных областях (медицина, техника, биоинформатика, экономика, лингвистика, интернет).
Анализ текстов и информационный поиск
Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при поиске научной и профессиональной информации, в особенности новой или содержащей неизвестную пользователю терминологию. Поиск и мониторинг новых тенденций, терминологии, профессиональных сообществ всё ещё требует больших затрат времени и высокой квалификации. Существует барьер входа в новую профессиональную область. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен. Каким должен быть идеальный информационный поиск для учёного, преподавателя, специалиста? По всей видимости, единого ответа нет. Он должен быть разным. Одна из идей состоит в том, чтобы принимать в качестве запроса длинный текст — статью, фрагмент статьи или несколько статей, систематизировать результаты поиска в виде «дорожной карты», с помощью которой пользователю будет легче изучать данную область, выделять наиболее важные факты, готовить обзоры, в кратчайший срок накапливать собственную экспертизу в новой области знания. Миссия тематического поиска — Приблизить Знание к Пользователю. Знание раскидано по Интернету. Необходимо его выделить, систематизировать по темам и представить в виде, более удобном и разнообразном, чем ранжированный список в рекламном обрамлении. Современные поисковые системы не решают эту задачу, так как они нацелены не на концентрацию Знания, а на удовлетворение потребительских интересов среднего пользователя. Система поиска научной и профессиональной информации — это инструмент интеллектуальной элиты общества, доступный всем. Наша исследовательская группа разрабатывает математические и информационные технологии для создания такой поисковой системы. Они основаны на вероятностном тематическом моделировании (Probabilistic Topic Modeling) и гибридных подходах, объединяющих статистические и лингвистические методы анализа текстов.
Вероятностное тематическое моделирование развивается с конца 90-х годов и находит всё больше неожиданных применений в областях, далёких от анализа текстов на естественных языках: при обработке изображений и видео, звуковых и биомедицинских сигналов, нуклеотидных и аминокислотных последовательностей, пользовательских логов и транзакционных данных. Наши методы применимы и к этим задачам.
Основные направления исследований и разработок
- теория и методы аддитивной регуляризации тематических моделей (ARTM);
- разработка BigARTM — библиотеки с открытым кодом для тематического моделирования больших коллекций;
- автоматическое выделения терминов-словосочетаний в текстах;
- тематические модели последовательного текста, тематической структуры и сегментации текстов;
- мультимодальные тематические модели, классификация и регрессия с текстовыми и разреженными признаками;
- иерархические тематические модели и категоризация текстов;
- методы визуализации тематических моделей;
- методы автоматического именования тем;
- проблемы сходимости и устойчивости численных методов матричных и тензорных разложений;
- проблемы интерпретируемости тем;
- мультиязычные тематические модели;
- тематические модели транзакционных данных или гиперграфов;
- анализ тональности и разделение тем на полярные мнения;
- динамические тематические модели;
- тематические модели, учитывающие авторство и ссылки;
Прикладные задачи
- иерархическая тематическая модель научного и научно-популярного контента;
- тематический разведочный информационный поиск;
- классификация и динамическая тематизация новостных потоков;
- классификация и сценарный анализ записей разговоров контактного центра;
- тематическая кластеризация отзывов клиентов или опросов персонала;
- модели символьной динамики для информационного анализа электрокардиосигналов;
- выявления паттернов потребительского поведения клиентов по банковским транзакциям;
- выявление видов экономической деятельности компаний по банковским транзакциям;
Ключевые слова
- text analysis, information retrieval, keyphrase extraction, topic modeling, probabilistic latent semantic analysis (PLSA), latent Dirichlet allocation (LDA), Gibbs sampling, documents categorization, learning to rank, research trends, research front.
Материалы и задания
- Тематический анализ больших данных. Краткое популярное введение в BigARTM.
- Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация. — обновление 12.12.2019.
- Разведочный информационный поиск. Видеолекция на ПостНауке.
- Тематическое моделирование. FAQ на ПостНауке, совместно с Корпоративным университетом Сбербанка.
- Тематическое моделирование на пути к разведочному информационному поиску. Лекция на DataFest3, 10 сентября 2016. Видеозапись.
- Практическое задание, 2016.
- Коллекции документов для тематического моделирования.
Диагностика заболеваний по ЭКГ
Все знают, что по электрокардиограмме можно ставить диагнозы сердечно-сосудистых заболеваний. Профессором д.м.н. В.М.Успенским предложен новый метод диагностики, позволяющий диагностировать широкий спектр заболеваний внутренних органов по ЭКГ. Многие болезни сказываются на работе сердца задолго до проявления клинических симптомов, что позволяет использовать ЭКГ для ранней диагностики. За 15 лет применения этой технологии накоплена обучающая выборка по двадцати тысячам больных и нескольким десяткам заболеваний. Вычислительные эксперименты подтверждают, что диагностика широкого спектра заболеваний по одной ЭКГ с использованием методов машинного обучения может достигать удивительной точности. Наша научная группа занимается всесторонней статистической экспертизой этого метода диагностики и разработкой новых принципов анализа дискретизированных биомедицинских сигналов. В частности, важным направлением является применение тематического моделирования и методов компьютерной лингвистики. Фактически, речь идёт о поиске оптимальной реконструкции (восстановлении синтаксиса и семантики) языка, порождаемого протекающими в организме человека сложнейшими физиологическими процессами, и при этом несущего значимую диагностическую информацию о состоянии здоровья человека.
Основные направления исследований и разработок:
- поиск более эффективных методов дискретизации ЭКГ-сигналов;
- построение диагностических эталонов заболеваний методами тематического моделирования;
- разработка диагностических моделей для отдельных заболеваний;
- разработка специальных методов отбора признаков, глубокого обучения, многоклассовой классификации;
- исследование переобучения диагностических моделей.
Конкурсное задание на VI Традиционной молодёжной летней школе «Управление, информация и оптимизациия» 26 июня 2014г.
В архиве файлы по 1 болезни, обучающая выборка с классификациями, тестовая выборка без классификаций, read.me с условием задания.
Другие материалы и задания
- Информационный портал диагностической системы «Скринфакс». URL: http://skrinfax.ru
- Презентация, 0.7Мб.
- Практическое задание.
- Данные, 1.2Мб.
В архиве файлы по 5 болезням, для каждой болезни имеется два файла: файлы с буквой «Э» в имени — эталонные выборки с надёжно верифицированными диагнозами, которые предполагается использовать для обучения; файлы без буквы «Э» — контрольные выборки. Можно использовать только эталонные, можно пробовать их перемешивать. В каждом файле первый столбец содержит метки классов (0-здоров, 1-болен), следующие 216 столбцов - значения признаков.
Теория обобщающей способности
Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Её даже выделяют в отдельную дисциплину — теорию вычислительного обучения. Если алгоритм, восстанавливающий некоторую неизвестную зависимость, построен по конечной обучающей выборке прецедентов, то как предсказать качество его работы на контрольной выборке, состоящей из новых прецедентов? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным (VC theory) и получили верхние оценки вероятности ошибки обученного алгоритма (VC-bounds). Эти оценки позволили обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Если алгоритм имеет избыточное число параметров («степеней свободы»), то он может слишком точно настроиться на конкретную обучающую выборку в ущерб качеству восстановления зависимости в целом. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности. К сожалению, оценки вероятности ошибки чрезвычайно завышены (осторожны, пессимистичны), что может приводить к переупрощению модели в методе СМР. Несмотря на 40-летние усилия многих ученых и существенное усложнение математического аппарата, точные оценки до сих пор не были получены.
Комбинаторная теория переобучения — это принципиально новый подход, основанный на слабой вероятностной аксиоматике, впервые позволивший получить точные (не завышенные, не асимптотические) комбинаторные оценки вероятности переобучения и показать ключевую роль эффектов расслоения и сходства в семействах алгоритмов. Пока что точные оценки получены лишь для ряда модельных семейств алгоритмов, обладающих некоторой регулярной структурой. Для реальных смейств удалось получить верхние оценки расслоения-связности — SC-оценки (splitting and connectivity bounds). Они завышены в разы, тогда как VC-оценки завышены на 5–8 порядков. Для некоторых модельных семейств SC-оценки являются точными. Тем не менее, проблемы остаются, и дело не только в завышенности оценок. Во-первых, SC-оценки могут быть ненаблюдаемыми, то есть в них могут входить некоторые функции от скрытых контрольных данных. Эти функции вполне можно оценивать по наблюдаемым обучающим данным, но это дополнительная работа. Во-вторых, SC-оценки могут быть вычислительно неэффективными и требовать неадекватно больших затрат памяти и времени. Получение приближённых или асимптотических SC-оценок гарантированной точности также является отдельной работой.
Пока имеется лишь два примера практического применения комбинаторных оценок обобщающей способности:
- Модификация критериев информативности для уменьшения переобучения конъюнктивных закономерностей в логических алгоритмах классификации (Андрей Ивахненко).
- Эффективный алгоритм отбора эталонных объектов в методе ближайших соседей (Максим Иванов).
Основная цель дальнейших исследований — доведение комбинаторной теории переобучения до уровня практической применимости.
Основные направления исследований:
- разработка математической техники для перехода от ненаблюдаемых оценок к наблюдаемым (возможно, как на основе комбинаторики, так и на основе теории концентрации вероятностной меры);
- исследование комбинаторно-статистических свойств графа расслоения-связности модельных и реальных семейств алгоритмов.
- получение оценок вероятности переобучения через наблюдаемый профиль расслоения-связности;
- разработка эффективных методов оценивания нижних слоёв профиля расслоения-связности в конкретных методах обучения;
- разработка логических алгоритмов классификации с управляемой переобученностью логических закономерностей;
- развитие понятия «плотности» семейства алгоритмов и изучение возможности аппроксимации «плотных» семейств их «разреженными» подсемействами малой мощности;
- развитие понятия «комбинаторного отступа» и его использование для повышения обобщающей способности линейных классификаторов;
- развитие понятия локальной радемахеровской сложности для более аккуратного учёта эффектов расслоения и сходства;
- обобщение понятий расслоения и сходства алгоритмов для непрерывных функций потерь;
- разработка эффективных метрических алгоритмов классификации на основе комбинаторных оценок полного скользящего контроля;
- исследование связи профилей компактности с функциями конкурентного сходства;
- разработка методики тестирования и анализа обобщающей способности для «Полигона алгоритмов классификации».
Публикации:
- Воронцов, К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с. (подробнее)
Лучшее изложение с добавлением последних результатов:
- Воронцов К. В. Теория надёжности обучения по прецедентам. Курс лекций ВМК МГУ и МФТИ. 2011.
Ключевые слова: overfitting, generalization bounds, computational learning theory, Vapnik-Chervonenkis theory, local Rademacher complexity.
Комбинаторная (перестановочная) статистика
Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл оценивать (предсказывать).
Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке, причём все перестановки равновероятны. Событие — это бинарная функция на множестве всех перестановок выборки. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).
В слабой аксиоматике удаётся переформулировать значительную часть фундаментальных результатов теории вероятностей и математической статистики, оносящихся к конечным выборкам независимых наблюдений. В их числе: закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие непараметрические, ранговые и перестановочные статические критерии, теория обобщающей способности, теория информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Многие результаты сильно упрощаются, освобождаясь от второстепенных технических усложнений, связанных с теорией меры. Например, отпадает необходимость введения различных типов сходимости.
Основные направления исследований:
- выяснение границ применимости слабой вероятностной аксиоматики;
- точные (комбинаторные) статистические тесты;
- эффективные алгоритмы вычисления комбинаторных оценок;
- исследование других вероятностных предположений, кроме равновероятности всех перестановок;
- множественное тестирование статистических гипотез и его связь с проблемой переобучения.
Ключевые слова: exchangeability, permutational statistics, concentration of probability measure.
Прогнозирование объёмов продаж
- Видеолекция на ПостНауке: Математические методы прогнозирования объемов продаж.
Задачи прогнозирования объёмов продаж в сетях супермаркетов характеризуются огромным количеством временных рядов, фактической невозможностью использования классических ресурсоёмких методов прогнозирования, несимметричностью функции потерь, разнородностью и нестационарностью временных рядов, наличием пропусков и неточностей в данных, возможностью привлечения дополнительной информации о структуре ассортимента, географии продаж, ценах, промо-акциях и поведении конкурентов.
Основные направления исследований:
- адаптивные методы краткосрочного прогнозирования при несимметричной функции потерь;
- адаптивные композиции алгоритмов прогнозирования при несимметричной функции потерь;
- адаптивные методы прогнозирования плотности распределения;
- адаптивные методы квантильной регрессии;
- поиск взаимозаменяемых товаров, анализ и прогнозирование каннибализации брендов.
Ключевые слова: sales forecast, density forecast, forecasting under asymmetric loss, quantile regression.
Другие проекты и семинары
(в значительной степени устаревшие)
Виртуальные семинары
- Similarity Miner (виртуальный семинар)
- Улучшение сканированного текста (виртуальный семинар)
- Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)
- Расслоение и сходство алгоритмов (виртуальный семинар)
- Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
Материалы для преподавателей
Семинары
- Методы анализа текстов (спецсеминары, К.В. Воронцов)/2017-2018 год
- Задачи анализа данных в бизнес-аналитике (семинар К. В. Воронцова)
- Семинар К. В. Рудакова — регулярный не виртуальный семинар (следите за объявлениями!)
Публикации
Основное
- LaTeX2e в примерах. — 2005. — 56 c.
- Теория обучения машин. Первый семестр. Курс лекций ВМК МГУ и МФТИ.
- Теория надёжности обучения по прецедентам. 2011. Курс лекций ВМК МГУ и МФТИ.
- Обзор вероятностных тематических моделей. 2017.
Всё остальное
- Полный список публикаций.
- Publications of Konstantin Vorontsov in English — список публикаций на английском языке.
Софт
Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.
- BigARTM — Открытая библиотека тематического моделирования. Страница: github.com/bigartm. Документация: bigartm.org
Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации. Реализация ядра библиотеки на С++, интерфейсы на C++, Python. Позволяет добавлять новые регуляризаторы и метрики качества. Разработкой руководит Александр Фрей.
Аспиранты и студенты
Аспиранты | МФТИ | ВМК МГУ | ВШЭ | |||
|
|
|
|