Участник:Vokov
Материал из MachineLearning.
Воронцов Константин Вячеславович
к.ф.-м.н.
Зам. директора по науке ЗАО «Форексис», www.forecsys.ru.
С.н.с. Вычислительного центра РАН.
Зам. зав. каф. «Интеллектуальные системы» ФУПМ МФТИ.
Доц. каф. «Математические методы прогнозирования» ВМиК МГУ.
Один из идеологов и Администраторов ресурса MachineLearning.RU.
Прочие подробности — на подстранице Curriculum vitæ.
Учебные материалы
Лекции
- Математические методы обучения по прецедентам (машинное обучение), годовой курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ и кафедра ММП ВМиК МГУ.
- Теория надёжности обучения по прецедентам, спецкурс, кафедра ММП ВМиК МГУ.
- Прикладной статистический анализ данных, семестровый курс, кафедра ММП ВМиК МГУ.
- О некоторых задачах интеллектуального анализа данных — одна лекция в рамках курса «Современные проблемы прикладной математики» для студентов 5 курса ВМиК МГУ (28 апреля 2008). PDF [764Кб]
Рекомендации студентам и аспирантам
- Научно-исследовательская работа (рекомендации)
- Написание отчётов и статей (рекомендации)
- Подготовка презентаций (рекомендации)
- Защита выпускной квалификационной работы (рекомендации)
Проекты и виртуальные семинары
Теория
- Слабая вероятностная аксиоматика
- Расслоение и сходство алгоритмов (виртуальный семинар)
- Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)
Прикладные задачи
- Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)
- Улучшение сканированного текста (виртуальный семинар)
Проекты
Прочее
Научные интересы
Всё, что скрывается за терминами «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации. Практический анализ данных в разнообразных областях (экономика, медицина, техника, интернет).
Теория обобщающей способности
Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке прецедентов, то как предсказать качество его работы на новых прецедентах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Чрезмерно сложные алгоритмы имеют избыточное число свободных параметров. При обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах присутствуют всегда: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности.
К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.
Основные направления исследований:
- комбинаторная теория обобщающей способности;
- уточнение оценок обобщающей способности для различных частных случаев;
- разработка новых алгоритмов обучения на их основе.
Ключевые слова: generalization ability, computational learning theory, Vapnik-Chervonenkis theory.
Комбинаторная статистика
Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл предсказывать.
Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке. Событие — это бинарная функция на множестве разбиений. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).
В слабой аксиоматике удаётся переформулировать закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие статические критерии, в первую очередь, ранговые критерии, теорию обобщающей способности, теорию информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Однако для их вычисления может потребоваться разработка специальных эффективных алгоритмов.
Основные направления исследований:
- выяснение границ применимости слабой вероятностной аксиоматики;
- точные (комбинаторные) статистические критерии;
- эффективные алгоритмы вычисления комбинаторных оценок.
Алгоритмические композиции
Алгоритмические композиции применяются в сложных задачах, когда имеющиеся базовые алгоритмы не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.
Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять области компетентности различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?
Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН Ю.И.Журавлева. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов бустинга, бэггинга, смесей экспертов и других композитных конструкций.
Основные направления исследований:
- разработка эффективных алгоритмов построения композиций;
- повышение обобщающей способности композиций;
- композиции логических закономерностей;
- сравнительный анализ различных методов построения композиций.
Ключевые слова: multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.
Анализ клиентских сред
Анализ клиентских сред (АКС) является относительно новой и быстро развивающейся областью интеллектуального анализа данных (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.
Имеется некоторый набор ресурсов (товаров, услуг, предметов), которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь её не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.
Один из типичных примеров клиентской среды — интернет-портал, предоставляющий доступ к большому количеству ресурсов, скажем, интернет-магазин или поисковый сервер. Технология АКС позволяет решать задачи персонализации контента — когда результаты поиска, информационные каталоги, предложения товаров и услуг, и т.д. выстраиваются в таком порядке, чтобы пользователю легче было находить информацию, необходимую именно ему, именно в данный момент.
Основные направления исследований:
- разработка эффективных алгоритмов АКС и коллаборативной фильтрации;
- решение задач персонализации;
- разработка рекомендующих систем.
Ключевые слова: collaborative filtering, recommender systems, personalization, web mining, web usage mining, client relationship management.
Публикации
Доклады на конференциях
- 17 сентября 2008. Презентация ресурса www.MachineLearning.ru в рамках международной конференции РОАИ-9-2008, Нижний Новгород. (PDF, 285Кб, на английском)
- 13 июня 2008. Вики-ресурс MachineLearning.RU: концепция и перспективы, круглый стол в рамках конференции ИОИ-2008, Крым, Алушта. (PDF, 198Кб).
- 12 июня 2008. Слабая вероятностная аксиоматика, оценки надёжности эмпирических предсказаний, расслоение и различность алгоритмов. Конференция ИОИ-2008, Крым, Алушта. (PDF, 950Кб)
- 28 апреля 2008. Ломоносовские чтения 2008. Оценки надёжности эмпирических предсказаний (комбинаторный подход). (PDF, 804Кб).
- 20 august 2007. 7th Open German/Russian Workshop (OGRW-7) on Pattern Recognition and Image Understanding, Ettlingen, Germany. Combinatorial Approach to Generalization Bounds Tightening. (PDF, 1895Kб, на английском).
- 5 ноября 2005. ММРО-12. Измерение локальной эффективной функции роста в задачах поиска логических закономерностей. (PDF, 285Кб), вместе с речью — (PDF, 308Кб).
Софт
Библиотека деловой и научной графики. Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.
Планы по развитию MachineLearning.RU
Сильно недописанные статьи
- Интеллектуальный анализ данных
- Решающее дерево
- Переобучение
- Выборка
- Теория надёжности обучения по прецедентам (курс лекций, К.В.Воронцов)/Расслоение семейства алгоритмов
- Коллаборативная фильтрация
- Прогнозирование плотности
Немного недописанные статьи
- Обучение с учителем
- Машинное обучение
- Модель зависимости
- Алгоритм обучения = Метод обучения
- Классификация
- Скользящий контроль = Кросс-валидация = CV
- Теория Вапника-Червоненкиса
- Наивный байесовский классификатор
- Линейный классификатор
- Логическая закономерность
- LaTeX
- BibTeX
Статьи, нуждающиеся в доработке
Базовые понятия
- Категория:Машинное обучение и статья Машинное обучение
- Обучение по прецедентам = Машинное обучение
- Обучение с учителем
- Обучение без учителя
- Категория:Классификация
- Классификация = Дискриминантный анализ
- Объект = Прецедент
- Признак
- Признаковое описание
- Шкала измерения
- Выборка = Обучающая выборка
- Алгоритм обучения = Метод обучения
- Модель алгоритмов = Модель зависимости
- Корректный алгоритм
- Функция потерь
- Эмпирический риск = Минимизация эмпирического риска = ERM
- Максимум правдоподобия = Метод максимума правдоподобия = Максимизация правдоподобия = Правдоподобие
Статистика
- Категория:Прикладная статистика
- Категория:Статистические тесты
- Категория:Параметрические статистические тесты
- Категория:Непараметрические статистические тесты
- Прикладная статистика
- Проверка статистических гипотез
- Статистика (функция выборки)
- Статистический критерий = Статистический тест
- Уровень значимости = Значимость
- Нулевая гипотеза
- P-Value = пи-величина = пи-значение
- Квантиль
- Критерий Стьюдента
- Вариационный ряд
- Критерий Уилкоксона-Манна-Уитни = Критерий Манна-Уитни = Критерий Уилкоксона = Критерий Вилкоксона
- Критерий знаков
- Коэффициент эксцесса
- Коэффициент асимметрии
- Критерий однородности
- Критерий согласия
- Критерий Колмогорова-Смирнова
- Критерий хи-квадрат
- Точный тест Фишера
Теория вычислительного обучения
- Категория:Теория вычислительного обучения
- Теория статистического обучения = Теория вычислительного обучения = COLT
- Контрольная выборка
- Тестовая выборка
- Эмпирическое предсказание
- Обобщающая способность = Переобучение = Переподгонка = Оверфиттинг = Overfitting
- Теория Вапника-Червоненкиса
- Функция роста = Коэффициент разнообразия = Shattering
- Ёмкость = Размерность Вапника-Червоненкиса = VC-dimension = VCdim
- Структурная минимизация риска
- Минимум длины описания = MDL
- Сложность выборки
- Скользящий контроль = Кросс-валидация = CV
- Информационный критерий Акаике = Критерий Акаике = AIC
- Байесовский информационный критерий = BIC
Байесовская теория классификации
- Категория:Байесовская теория классификации
- Байесовский классификатор = Оптимальный байесовский классификатор
- Восстановление распределения вероятностей
- Наивный байесовский классификатор
- Линейный дискриминант Фишера
- Смесь вероятностных распределений = Разделение смеси распределений = Расщепление смеси распределений
- EM-алгоритм
- Метод радиальных базисных функций = Сеть радиальных базисных функций = RBF
- Метод парзеновского окна = Парзеновское окно = Окно Парзена
Классификация на основе сходства
- Категория:Метрические алгоритмы классификации (классификация на основе сходства, similarity-based classification)
- Гипотеза компактности
- Матрица расстояний
- Метрика = Функция расстояния = Сходство
- Метод ближайших соседей = kNN
- Метод потенциальных функций
- Метод радиальных базисных функций = Сеть радиальных базисных функций = RBF
- Метод парзеновского окна = Парзеновское окно = Окно Парзена
- Проклятие размерности
- CBR = Case based reasoning = Рассуждение на основе прецедентов (?)
Классификация на основе разделимости
- Линейный классификатор, Категория:Линейные классификаторы
- Машина опорных векторов = Метод опорных векторов = SVM
- Логистическая регрессия
- Ядро
- Отступ = Зазор
- Распределение отступов
Байесовский вывод
Нейронные сети
- Категория:Нейронные сети
- Нейронная сеть = ANN
- Модель МакКаллока-Питтса
- Персептрон = Перцептрон = Персептрон Розенблатта = Перцептрон Розенблатта
- Задача XOR
- Однослойный персептрон = Однослойный перцептрон
- Многослойный персептрон = Многослойный перцептрон
- Метод стохастического градиента
- Метод обратного распространения ошибки = Backpropagation = Backprop
- Сокращение весов = Редукция весов(?) = Weight decay
- Проблема паралича = Паралич сети
- Оптимальное прореживание нейронных сетей = OBD = Оптимальное усечение сети(?) = Оптимальное упрощение сети(?)
- Оптимальная хирургия мозга(?) = OBS (??)
- Конкурентное обучение
- Нейронная сеть Кохонена = Сеть Кохонена
- Самоорганизующаяся карта Кохонена = Карта Кохонена = SOM
- Сеть встречного распространения
- Ассоциативная память
- Сеть Гроссберга
- Сеть Хопфилда
- Сеть Хэмминга
Логические алгоритмы классификации
- Категория:Логические алгоритмы классификации
- Логическая закономерность
- Статистическая закономерность
- Информативность
- Индукция правил
- Ассоциативные правила = правила ассоциации
- Решающий список
- Решающее дерево
- Дерево регрессии
- Критерий ветвления
- Решающий лес
- Редукция решающего дерева = Постредукция = Предредукция
- Алгоритм вычисления оценок
- Тестовый алгоритм
- Принцип частичной прецедентности
Кластерный анализ
- Категория:Кластеризация
- Кластеризация = Кластерный анализ
- Кластер
- Графовые алгоритмы кластеризации
- Кратчайший незамкнутый путь = Минимальное остовное дерево
- Статистические алгоритмы кластеризации
- Алгоритм ФОРЕЛЬ
- Алгоритм k средних = k-means
- Иерархическая кластеризация
- Таксономия
- Дендрограмма
- Нейронная сеть Кохонена = Сеть Кохонена
- Ансамбль кластеризаторов
- Многомерное шкалирование = MDS
- Диаграмма Шеппарда
- Карта сходства
- Сегментация
Корреляционный анализ и регрессия
- Категория:Регрессия
- Регрессия = Регрессионный анализ
- Линейная регрессия
- Шаговая регрессия
- Криволинейная регрессия
- Корреляция
- Ранговая корреляция
- Корреляционный анализ
- Метод наименьших квадратов
- Мультиколлинеарность
- Обобщенная линейная модель = GLM
- Коррелограмма
Прогнозирование
- Категория:Прогнозирование
- Прогнозирование
- Временной ряд
- Авторегрессия
- Скользящее среднее
- ARIMA
- ARMA
- GARCH
Сокращение размерности
- Категория:Сокращение размерности
- Селекция признаков
- Синтез признаков = Извлечение признаков
- Метод главных компонент = PCA
- Метод независимых компонент = ICA
- Шаговая регрессия = AddDel = Add-Del
- Лассо
- LARS
- Метод группового учета аргументов = МГУА
- Самоорганизация моделей
- Внутренний критерий
- Внешний критерий
- Генетический алгоритм
- Эволюционный алгоритм
- Случайный поиск
- Стохастический локальный поиск = Локальный стохастический поиск = Локальный случайный поиск = Случайный локальный поиск = SLS
- Случайный поиск с адаптацией = СПА
- Комбинаторный взрыв
Алгоритмические композиции
- Категория:Композиции алгоритмов = Алгоритмические композиции
- Алгоритмическая композиция = Ансамбль алгоритмов
- Базовый алгоритм
- Метод комитетов
- Бустинг
- Бэггинг
- Метод случайных подпространств = RSM
- Смесь экспертов = Смесь алгоритмов = ME
- Область компетентности
- Алгебраический подход к проблеме распознавания
- Теория универсальных и локальных ограничений
- Алгоритмический оператор
- Корректирующая операция
- Решающее правило
Предварительный анализ данных
- Категория:Предварительный анализ данных
- Предварительный анализ данных = Разведочный анализ данных
- Нормальзация данных
- Визуализация данных
- Понимание данных
Projection pursuit
Интеллектуальный анализ данных
- Категория:Интеллектуальный анализ данных и статья Интеллектуальный анализ данных
- Интеллектуальный анализ данных = Data Mining
- Анализ текста = Text Mining
- Анализ веба = Web Mining
- Анализ контента = Web Content Mining
- Анализ структуры веба = Web Structure Mining
- Анализ посещаемости = Web Usage Mining
- Коллаборативная фильтрация
- Анализ клиентских сред
- Рекомендующие системы
- Персонализация
- Управление взаимоотношениями с клиентами = CRM
- Анализ рыночных корзин
Теории, научные школы
Предметные области
- Медицинская диагностика
- Техническая диагностика
- Дифференциальная диагностика
- Кредитный скоринг
- Предсказание ухода клиентов
- Обнаружение мошенничества
- Прогнозирование продаж
- Персонализация
Внутренняя кухня MachineLearning.ru
Служебные страницы
- MachineLearning:Концепция ресурса
- MachineLearning:Инструктаж
- MachineLearning:ЧаВО
- MachineLearning:Справка
- Шаблон:Новости
- MachineLearning:Портал сообщества
- MachineLearning:Вниманию участников
- Категория:Научные направления
- MachineLearning:Публикации и библиографии
Интересные спецстраницы
- Некатегоризованные страницы — зайти и категоризировать!
- Некатегоризованные категории — аналогично!
- Популярные страницы — их качество доводить до блеска!
- Требуемые страницы — писать или искать писателей!
- Категория:Незавершённые статьи — дописывать или искать дописывателей!
- Список участников — кто у нас новенький? у кого страничка появилась?
- Статистика — сколько нас, сколько мы уже накатали, и что из этого чаще читают?
- Динамика — как быстро мы растём?
- MediaWiki:Edittools
Шаблоны
- Все доступные шаблоны
- Шаблон:Заглавная страница Основные категории
- Шаблон:Врезка
- Шаблон:eqno и Шаблон:eqref — для нумерации формул справа
Основные шаблоны для библиографий:
- Шаблон:Монография
- Шаблон:Статья
- Шаблон:Тезисы
- Шаблон:Диссертация
- Шаблон:ВКР
- Шаблон:Учебник
- Шаблон:Отчёт
- Шаблон:Документ
- Шаблон:Публикация
Вспомогательные шаблоны для библиографий:
- Шаблон:книга — оформление библиографической записи, из Википедии
- Шаблон:биб.статья — оформление библиографической записи, из Википедии
- Шаблон:переводы — одно и то же на всех языках, пример: {{переводы|{{{язык}}}|Т|Vol}}
- Шаблон:russian, Шаблон:english — позволяют сократить синтаксис: {{{{{язык}}}|Т|Vol}}
- Шаблон:ВсеАвторы — формирование списка авторов в библиографических записях
- Шаблон:BibtexAuthors — формирование списка авторов в BibTeX-записях
- Шаблон:Подробнее — формирование ссылки на страницу с описанием публикации
- Википедия:Проект:Библиография — у Большого Брата проблема оформления библиографий тоже пока не решена...
Программирование в шаблонах:
Литература
- Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с. (подробнее)
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 448 с. (подробнее)
- Журавлёв, Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики: Вып.33. — 1978. — С. 5–68. (подробнее)
- Журавлёв, Ю. И., Рязанов, В. В., Сенько, О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: ФАЗИС, 2006. — 176 с. (подробнее)
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — 270 с. — ISBN 5-86134-060-9 (подробнее)
- Зиновьев, А. Ю. Визуализация многомерных данных. — Издательство Красноярского государственного технического университета, 2000. — 180 с. (подробнее)
- Рудаков, К. В. Алгебраическая теория универсальных и локальных ограничений для алгоритмов распознавания: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр АН СССР, 1992. — 274 с. (подробнее)
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
Мои подразделы
Vokov/CV | Vokov/Publications | |
Vokov/Иллюзия простоты выбора | Vokov/Интервью для InTalent.pro | Vokov/Интервью для Кота Шрёдингера 2017-10-04 |
Vokov/Интервью для Новой газеты 2019-02-25 | Vokov/Интервью для ПостНауки 2017-09-27 | Vokov/Интервью для РИА Новости 2020-05-25 |
Vokov/Научпоп | Vokov/Некоторые задачи интеллектуального анализа данных (лекция) | |
Vokov/Песочница | Vokov/Планы по развитию MachineLearning.RU | Vokov/Публикации |
Cсылки
- Домашняя страница К. В. Воронцова на сайте ВЦ РАН.
- K.Vorontsov homepage — то же, там же, но на английском.
- FRC.
- Forecsys.