Участник:Vokov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(ожирение подзаголовков)
(подстраницизация лишнего)
Строка 486: Строка 486:
# Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН.
# Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН.
# Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН.
# Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН.
-
 
-
== Планы по развитию MachineLearning.RU ==
 
-
 
-
=== Сильно недописанные статьи ===
 
-
*[[Интеллектуальный анализ данных]]
 
-
*[[Решающее дерево]]
 
-
*[[Переобучение]]
 
-
*[[Выборка]]
 
-
*[[Коллаборативная фильтрация]]
 
-
*[[Прогнозирование плотности]]
 
-
 
-
=== Немного недописанные статьи ===
 
-
*[[Обучение с учителем]]
 
-
*[[Машинное обучение]]
 
-
*[[Модель зависимости]]
 
-
*[[Алгоритм обучения]] = [[Метод обучения]]
 
-
*[[Классификация]]
 
-
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
 
-
*[[Теория Вапника-Червоненкиса]]
 
-
*[[Наивный байесовский классификатор]]
 
-
*[[Линейный классификатор]]
 
-
*[[Логическая закономерность]]
 
-
*[[LaTeX]]
 
-
*[[BibTeX]]
 
-
 
-
=== Статьи, нуждающиеся в доработке ===
 
-
*[[Персептрон]]
 
-
 
-
=== Базовые понятия ===
 
-
*[[:Категория:Машинное обучение]] и статья [[Машинное обучение]]
 
-
*[[Обучение по прецедентам]] = [[Машинное обучение]]
 
-
*[[Обучение с учителем]]
 
-
*[[Обучение без учителя]]
 
-
*[[:Категория:Классификация]]
 
-
*[[Классификация]] = [[Дискриминантный анализ]]
 
-
*[[Объект]] = [[Прецедент]]
 
-
*[[Признак]]
 
-
*[[Признаковое описание]]
 
-
*[[Шкала измерения]]
 
-
*[[Выборка]] = [[Обучающая выборка]]
 
-
*[[Алгоритм обучения]] = [[Метод обучения]]
 
-
*[[Модель алгоритмов]] = [[Модель зависимости]]
 
-
*[[Корректный алгоритм]]
 
-
*[[Функция потерь]]
 
-
*[[Эмпирический риск]] = [[Минимизация эмпирического риска]] = [[ERM]]
 
-
*[[Максимум правдоподобия]] = [[Метод максимума правдоподобия]] = [[Максимизация правдоподобия]] = [[Правдоподобие]]
 
-
 
-
=== Статистика ===
 
-
*[[:Категория:Прикладная статистика]]
 
-
*[[:Категория:Статистические тесты]]
 
-
*[[:Категория:Параметрические статистические тесты]]
 
-
*[[:Категория:Непараметрические статистические тесты]]
 
-
*[[Прикладная статистика]]
 
-
*[[Проверка статистических гипотез]]
 
-
*[[Статистика (функция выборки)]]
 
-
*[[Статистический критерий]] = [[Статистический тест]]
 
-
*[[Уровень значимости]] = [[Значимость]]
 
-
*[[Нулевая гипотеза]]
 
-
*[[P-Value]] = [[пи-величина]] = [[пи-значение]]
 
-
*[[Квантиль]]
 
-
*[[Критерий Стьюдента]]
 
-
*[[Вариационный ряд]]
 
-
*[[Критерий Уилкоксона-Манна-Уитни]] = [[Критерий Манна-Уитни]] = [[Критерий Уилкоксона]] = [[Критерий Вилкоксона]]
 
-
*[[Критерий знаков]]
 
-
*[[Коэффициент эксцесса]]
 
-
*[[Коэффициент асимметрии]]
 
-
*[[Критерий однородности]]
 
-
*[[Критерий согласия]]
 
-
*[[Критерий Колмогорова-Смирнова]]
 
-
*[[Критерий хи-квадрат]]
 
-
*[[Точный тест Фишера]]
 
-
 
-
=== Теория вычислительного обучения ===
 
-
*[[:Категория:Теория вычислительного обучения]]
 
-
*[[Теория статистического обучения]] = [[Теория вычислительного обучения]] = [[COLT]]
 
-
*[[Контрольная выборка]]
 
-
*[[Тестовая выборка]]
 
-
*[[Эмпирическое предсказание]]
 
-
*[[Обобщающая способность]] = [[Переобучение]] = [[Переподгонка]] = [[Оверфиттинг]] = [[Overfitting]]
 
-
*[[Теория Вапника-Червоненкиса]]
 
-
*[[Функция роста]] = [[Коэффициент разнообразия]] = [[Shattering]]
 
-
*[[Ёмкость]] = [[Размерность Вапника-Червоненкиса]] = [[VC-dimension]] = [[VCdim]]
 
-
*[[Структурная минимизация риска]]
 
-
*[[Минимум длины описания]] = [[MDL]]
 
-
*[[Сложность выборки]]
 
-
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
 
-
*[[Информационный критерий Акаике]] = [[Критерий Акаике]] = [[AIC]]
 
-
*[[Байесовский информационный критерий]] = [[BIC]]
 
-
 
-
=== Байесовская теория классификации ===
 
-
*[[:Категория:Байесовская теория классификации]]
 
-
*[[Байесовский классификатор]] = [[Оптимальный байесовский классификатор]]
 
-
*[[Восстановление распределения вероятностей]]
 
-
*[[Наивный байесовский классификатор]]
 
-
*[[Линейный дискриминант Фишера]]
 
-
*[[Смесь вероятностных распределений]] = [[Разделение смеси распределений]] = [[Расщепление смеси распределений]]
 
-
*[[EM-алгоритм]]
 
-
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
 
-
*[[Метод парзеновского окна]] = [[Парзеновское окно]] = [[Окно Парзена]]
 
-
 
-
=== Классификация на основе сходства ===
 
-
*[[:Категория:Метрические алгоритмы классификации]] (классификация на основе сходства, similarity-based classification)
 
-
*[[Гипотеза компактности]]
 
-
*[[Матрица расстояний]]
 
-
*[[Метрика]] = [[Функция расстояния]] = [[Сходство]]
 
-
*[[Метод ближайших соседей]] = [[kNN]]
 
-
*[[Метод потенциальных функций]]
 
-
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
 
-
*[[Метод парзеновского окна]] = [[Парзеновское окно]] = [[Окно Парзена]]
 
-
*[[Проклятие размерности]]
 
-
*[[CBR]] = [[Case based reasoning]] = [[Рассуждение на основе прецедентов]] (?)
 
-
*[[Алгоритм STOLP]]
 
-
*[[Алгоритм FRiS-STOLP]], [[функция конкурентного сходства]]
 
-
 
-
=== Классификация на основе разделимости ===
 
-
*[[Линейный классификатор]], [[:Категория:Линейные классификаторы]]
 
-
*[[Машина опорных векторов]] = [[Метод опорных векторов]] = [[SVM]]
 
-
*[[Логистическая регрессия]]
 
-
*[[Ядро]]
 
-
*[[Отступ]] = [[Зазор]]
 
-
*[[Распределение отступов]]
 
-
 
-
=== Байесовский вывод ===
 
-
*[[:Категория:Байесовский вывод]]
 
-
*[[Байесовский вывод]]
 
-
*[[Метод релевантных векторов]] = [[RVM]]
 
-
*[[Байесовская сеть]]
 
-
 
-
=== Нейронные сети ===
 
-
*[[:Категория:Нейронные сети]]
 
-
*[[Нейронная сеть]] = [[ANN]]
 
-
*[[Модель МакКаллока-Питтса]]
 
-
*[[Персептрон]] = [[Перцептрон]] = [[Персептрон Розенблатта]] = [[Перцептрон Розенблатта]]
 
-
*[[Задача XOR]]
 
-
*[[Однослойный персептрон]] = [[Однослойный перцептрон]]
 
-
*[[Многослойный персептрон]] = [[Многослойный перцептрон]]
 
-
*[[Метод стохастического градиента]]
 
-
*[[Метод обратного распространения ошибки]] = [[Backpropagation]] = [[Backprop]]
 
-
*[[Сокращение весов]] = [[Редукция весов]](?) = [[Weight decay]]
 
-
*[[Проблема паралича]] = [[Паралич сети]]
 
-
*[[Оптимальное прореживание нейронных сетей]] = [[OBD]] = [[Оптимальное усечение сети]](?) = [[Оптимальное упрощение сети]](?)
 
-
*[[Оптимальная хирургия мозга]](?) = [[OBS]] (??)
 
-
*[[Конкурентное обучение]]
 
-
*[[Нейронная сеть Кохонена]] = [[Сеть Кохонена]]
 
-
*[[Самоорганизующаяся карта Кохонена]] = [[Карта Кохонена]] = [[SOM]]
 
-
*[[Сеть встречного распространения]]
 
-
*[[Ассоциативная память]]
 
-
*[[Сеть Гроссберга]]
 
-
*[[Сеть Хопфилда]]
 
-
*[[Сеть Хэмминга]]
 
-
 
-
=== Логические алгоритмы классификации ===
 
-
*[[:Категория:Логические алгоритмы классификации]]
 
-
*[[Логическая закономерность]]
 
-
*[[Статистическая закономерность]]
 
-
*[[Информативность]]
 
-
*[[Индукция правил]]
 
-
*[[Ассоциативные правила]] = [[правила ассоциации]]
 
-
*[[Решающий список]]
 
-
*[[Решающее дерево]]
 
-
*[[Дерево регрессии]]
 
-
*[[Критерий ветвления]]
 
-
*[[Решающий лес]]
 
-
*[[Редукция решающего дерева]] = [[Постредукция]] = [[Предредукция]]
 
-
*[[Алгоритм вычисления оценок]]
 
-
*[[Тестовый алгоритм]]
 
-
*[[Принцип частичной прецедентности]]
 
-
 
-
=== Кластерный анализ ===
 
-
*[[:Категория:Кластеризация]]
 
-
*[[Кластеризация]] = [[Кластерный анализ]]
 
-
*[[Кластер]]
 
-
*[[Графовые алгоритмы кластеризации]]
 
-
*[[Кратчайший незамкнутый путь]] = [[Минимальное остовное дерево]]
 
-
*[[Статистические алгоритмы кластеризации]]
 
-
*[[Алгоритм ФОРЕЛЬ]]
 
-
*[[Алгоритм k средних]] = [[k-means]]
 
-
*[[Иерархическая кластеризация]]
 
-
*[[Таксономия]]
 
-
*[[Дендрограмма]]
 
-
*[[Нейронная сеть Кохонена]] = [[Сеть Кохонена]]
 
-
*[[Ансамбль кластеризаторов]]
 
-
*[[Многомерное шкалирование]] = [[MDS]]
 
-
*[[Диаграмма Шеппарда]]
 
-
*[[Карта сходства]]
 
-
*[[Сегментация]]
 
-
 
-
=== Корреляционный анализ и регрессия ===
 
-
*[[:Категория:Регрессия]]
 
-
*[[Регрессия]] = [[Регрессионный анализ]]
 
-
*[[Линейная регрессия]]
 
-
*[[Шаговая регрессия]]
 
-
*[[Криволинейная регрессия]]
 
-
*[[Корреляция]]
 
-
*[[Ранговая корреляция]]
 
-
*[[Корреляционный анализ]]
 
-
*[[Метод наименьших квадратов]]
 
-
*[[Мультиколлинеарность]]
 
-
*[[Обобщенная линейная модель]] = [[GLM]]
 
-
*[[Коррелограмма]]
 
-
 
-
=== Прогнозирование ===
 
-
*[[:Категория:Прогнозирование]]
 
-
*[[Прогнозирование]]
 
-
*[[Временной ряд]]
 
-
*[[Авторегрессия]]
 
-
*[[Скользящее среднее]]
 
-
*[[ARIMA]]
 
-
*[[ARMA]]
 
-
*[[GARCH]]
 
-
 
-
=== Сокращение размерности ===
 
-
*[[:Категория:Сокращение размерности]]
 
-
*[[Селекция признаков]]
 
-
*[[Синтез признаков]] = [[Извлечение признаков]]
 
-
*[[Метод главных компонент]] = [[PCA]]
 
-
*[[Метод независимых компонент]] = [[ICA]]
 
-
*[[Шаговая регрессия]] = [[AddDel]] = [[Add-Del]]
 
-
*[[Лассо]]
 
-
*[[LARS]]
 
-
*[[Метод группового учета аргументов]] = [[МГУА]]
 
-
*[[Самоорганизация моделей]]
 
-
*[[Внутренний критерий]]
 
-
*[[Внешний критерий]]
 
-
*[[Генетический алгоритм]]
 
-
*[[Эволюционный алгоритм]]
 
-
*[[Случайный поиск]]
 
-
*[[Стохастический локальный поиск]] = [[Локальный стохастический поиск]] = [[Локальный случайный поиск]] = [[Случайный локальный поиск]] = [[SLS]]
 
-
*[[Случайный поиск с адаптацией]] = [[СПА]]
 
-
*[[Комбинаторный взрыв]]
 
-
 
-
=== Алгоритмические композиции ===
 
-
*[[:Категория:Композиции алгоритмов]] = [[Алгоритмические композиции]]
 
-
*[[Композиция алгоритмов]] = [[Алгоритмическая композиция]]
 
-
*[[Ансамбль алгоритмов]]
 
-
*[[Базовый алгоритм]]
 
-
*[[Метод комитетов]]
 
-
*[[Бустинг]]
 
-
*[[Бэггинг]]
 
-
*[[Метод случайных подпространств]] = [[RSM]]
 
-
*[[Смесь экспертов]] = [[Смесь алгоритмов]] = [[ME]]
 
-
*[[Область компетентности]]
 
-
*[[Алгебраический подход к проблеме распознавания]]
 
-
*[[Теория универсальных и локальных ограничений]]
 
-
*[[Алгоритмический оператор]]
 
-
*[[Корректирующая операция]]
 
-
*[[Решающее правило]]
 
-
 
-
=== Предварительный анализ данных ===
 
-
*[[:Категория:Предварительный анализ данных]]
 
-
*[[Предварительный анализ данных]] = [[Разведочный анализ данных]]
 
-
*[[Нормальзация данных]]
 
-
*[[Визуализация данных]]
 
-
*[[Понимание данных]]
 
-
Projection pursuit
 
-
 
-
=== Интеллектуальный анализ данных ===
 
-
*[[:Категория:Интеллектуальный анализ данных]] и статья [[Интеллектуальный анализ данных]]
 
-
*[[Интеллектуальный анализ данных]] = [[Data Mining]]
 
-
*[[Анализ текста]] = [[Text Mining]]
 
-
*[[Анализ веба]] = [[Web Mining]]
 
-
*[[Анализ контента]] = [[Web Content Mining]]
 
-
*[[Анализ структуры веба]] = [[Web Structure Mining]]
 
-
*[[Анализ посещаемости]] = [[Web Usage Mining]]
 
-
*[[Коллаборативная фильтрация]]
 
-
*[[Анализ клиентских сред]]
 
-
*[[Рекомендующие системы]]
 
-
*[[Персонализация]]
 
-
*[[Управление взаимоотношениями с клиентами]] = [[CRM]]
 
-
*[[Анализ рыночных корзин]]
 
-
 
-
=== Теории, научные школы ===
 
-
*[[Теория возможности]]
 
-
*[[Теория нечётких множеств]]
 
-
 
-
=== Предметные области ===
 
-
*[[Медицинская диагностика]]
 
-
*[[Техническая диагностика]]
 
-
*[[Дифференциальная диагностика]]
 
-
*[[Кредитный скоринг]]
 
-
*[[Предсказание ухода клиентов]]
 
-
*[[Обнаружение мошенничества]]
 
-
*[[Прогнозирование продаж]]
 
-
*[[Персонализация]]
 
-
 
-
== Внутренняя кухня MachineLearning.ru ==
 
-
 
-
=== Служебные страницы ===
 
-
* [[MachineLearning:Концепция ресурса]]
 
-
* [[MachineLearning:Инструктаж]]
 
-
* [[MachineLearning:Правила именования статей]] — порядок выбора названий страниц при их создании.
 
-
* [[MachineLearning:Категоризация]] — порядок создания категорий.
 
-
* [[MachineLearning:Публикации и библиографии]] — порядок создания страниц о публикациях.
 
-
* [[MachineLearning:Авторское право]] — некоторые юридические аспекты работы с Ресурсом.
 
-
* [[MachineLearning:Политика конфиденциальности]] — некоторые аспекты информационной безопасности.
 
-
* [[MachineLearning:Учебный процесс]] — рекомендации студентам и преподавателям.
 
-
* [[:Категория:MachineLearning:Руководства]] — всё выше перечисленное и, быть может, ещё что-то.
 
-
* [[MachineLearning:Справка]]
 
-
* [[MachineLearning:ЧаВО]]
 
-
* [[MachineLearning:Портал сообщества]]
 
-
* [[MachineLearning:Вниманию участников]]
 
-
* [[Шаблон:Новости]] и [[Новости]]
 
-
* [[:Категория:Научные направления]]
 
-
 
-
=== Интересные спецстраницы ===
 
-
* [[Special:Uncategorizedpages|Некатегоризованные страницы]] — зайти и категоризировать!
 
-
* [[Special:Uncategorizedcategories|Некатегоризованные категории]] — аналогично!
 
-
* [[Special:Popularpages|Популярные страницы]] — их качество доводить до блеска!
 
-
* [[Special:Wantedpages|Требуемые страницы]] — писать или искать писателей!
 
-
* [[:Категория:Незавершённые статьи]] — дописывать или искать дописывателей!
 
-
* [[Special:Listusers|Список участников]] — кто у нас новенький? у кого страничка появилась?
 
-
* [[Special:Statistics|Статистика]] — сколько нас, сколько мы уже накатали, и что из этого чаще читают?
 
-
* [[MachineLearning:Динамика|Динамика]] — как быстро мы растём?
 
-
* [[MediaWiki:Edittools]] — панель «Быстрая вставка» под окном редактирования
 
-
* [[MediaWiki:NewUserMessage]] — приветственное сообщение новому пользователю
 
-
 
-
=== Шаблоны ===
 
-
* [[Special:Allpages/Шаблон:|'''Все доступные шаблоны''']]
 
-
* [[Шаблон:Заглавная страница Основные категории]]
 
-
 
-
'''Мои шаблоны'''
 
-
* [[Шаблон:eqno]], [[Шаблон:eqref]] — нумерации формул справа и ссылка на нумерованную формулу
 
-
* [[Шаблон:tip]], [[Шаблон:stop]], [[Шаблон:UnderConstruction]],[[Шаблон:well]], [[Шаблон:notice]] — объявления разных цветов с галочкой
 
-
* [[Шаблон:ins]], [[Шаблон:del]], [[Шаблон:rem]] — эмуляция режима правки MS Word
 
-
* [[Шаблон:todo]], [[Шаблон:TodoEndList]] — для оформления [[MachineLearning:ToDo]] и любых других списков планов
 
-
* [[Шаблон:Врезка]] — врезка справа, как в Википедии
 
-
* [[Шаблон:Задание]] — предупреждение, что статья является непроверенной учебной работой
 
-
* [[Шаблон:ЗаданиеВыполнено]] — предупреждение, что статья была сделана в рамках учебной работы
 
-
 
-
'''Основные шаблоны для библиографий:'''
 
-
* [[Шаблон:Монография]]
 
-
* [[Шаблон:Статья]]
 
-
* [[Шаблон:Тезисы]]
 
-
* [[Шаблон:Диссертация]]
 
-
* [[Шаблон:ВКР]]
 
-
* [[Шаблон:Учебник]]
 
-
* [[Шаблон:Отчёт]]
 
-
* [[Шаблон:Документ]]
 
-
* [[Шаблон:Публикация]]
 
-
 
-
'''Вспомогательные шаблоны для библиографий:'''
 
-
* [[Шаблон:книга]] — оформление библиографической записи, из [http://ru.wikipedia.org/wiki/%D0%A8%D0%B0%D0%B1%D0%BB%D0%BE%D0%BD:%D0%9A%D0%BD%D0%B8%D0%B3%D0%B0 Википедии]
 
-
* [[Шаблон:биб.статья]] — оформление библиографической записи, из [http://ru.wikipedia.org/wiki/%D0%A8%D0%B0%D0%B1%D0%BB%D0%BE%D0%BD:%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F Википедии]
 
-
* [[Шаблон:переводы]] — одно и то же на всех языках, пример: <nowiki>{{переводы|{{{язык}}}|Т|Vol}}</nowiki>
 
-
* [[Шаблон:russian]], [[Шаблон:english]] — позволяют сократить синтаксис: <nowiki>{{{{{язык}}}|Т|Vol}}</nowiki>
 
-
* [[Шаблон:ВсеАвторы]] — формирование списка авторов в библиографических записях
 
-
* [[Шаблон:BibtexAuthors]] — формирование списка авторов в [[BibTeX]]-записях
 
-
* [[Шаблон:Подробнее]] — формирование ссылки на страницу с описанием публикации
 
-
* [http://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%8F Википедия:Проект:Библиография] — у Большого Брата проблема оформления библиографий тоже пока не решена...
 
-
 
-
'''Программирование в шаблонах:'''
 
-
* [http://meta.wikimedia.org/wiki/ParserFunctions Справка по условным функциям]
 
-
* [http://meta.wikimedia.org/wiki/Help:Magic_words Волшебные слова]
 
-
 
-
== Литература (страницы публикаций) ==
 
-
# {{П:Вапник 74}}
 
-
# {{П:Вапник 79}}
 
-
# {{П:Журавлёв 1978 Об алгебраическом подходе}}
 
-
# {{П:Журавлёв 2006 Распознавание}}
 
-
# {{П:Загоруйко 1999 Прикладные методы анализа данных и знаний}}
 
-
# {{П:Зиновьев 2000 Визуализация многомерных данных}}
 
-
# {{П:Рудаков 1992 Алгебраическая теория}}
 
-
# {{П:Hastie 2001 The Elements of Statistical Learning}}
 
== Cсылки ==
== Cсылки ==

Версия 17:09, 8 октября 2011

Содержание

Изображение:VorontsovFace.jpg    Воронцов Константин Вячеславович

д.ф.-м.н.
Зам. директора по науке ЗАО «Форексис», www.forecsys.ru.
С.н.с. Вычислительного центра РАН.
Зам. зав. каф. «Интеллектуальные системы» ФУПМ МФТИ.
Доц. каф. «Математические методы прогнозирования» ВМиК МГУ.
Преподаватель Школы анализа данных Яндекс.

Один из идеологов и Администраторов ресурса MachineLearning.RU.

Прочие подробности — на подстранице Curriculum vitæ.

Мне можно написать письмо.


Учебные материалы

Курсы лекций

Семинары

Рекомендации для студентов и аспирантов

Рекомендации для преподавателей

Выступления на конференциях и семинарах

  • 12 сентября 2011. Комбинаторная теория переобучения и поиск логических закономерностей. Доклад на конференции ММРО-15, Петрозаводск. (PDF, 1403 КБ).
  • 27,29 июня 2011. Recent Advances on Generalization Bounds. Tutorial. International conference PReMI-2011 Part 1 (PDF, 1.0 MБ), Part 2 (PDF, 1.5 MБ). Tight Combinatorial Generalization Bounds for Threshold Conjunction Rules (PDF, 0.6 MБ, на английском).
  • 12 января 2011. Интеллектуальный анализ данных и объектно-ориентированное программирование. Лекция на Зимней компьютерной школе 2011, МФТИ. (PDF, 960 КБ).
  • 7 ноября 2010. Generalization bounds based on the splitting and connectivity properties of a set of classifiers. International conference PRIA-10 (PDF, 1.4 MБ, на английском).
  • 20 октября 2010. Точные комбинаторные оценки обобщающей способности онлайнового обучения. Конференция ИОИ-8 (PDF, 400 KБ).
  • 18 октября 2010. Комбинаторный подход к выводу точных оценок вероятности переобучения. Конференция ИОИ-8 (PDF, 1.2 MБ).
  • 22 апреля 2010. Комбинаторная теория надёжности обучения по прецедентам. Защита докторской диссертации. (PDF, 1760 КБ). Учёный совет квалифицировал работу как новое направление в теории статистического обучения.
  • 3 марта 2010. Интеллектуальный анализ данных и распознавание образов. Теоретические и практические проблемы. Доклад на семинаре «Глобальные изменения климата» (руководители академик Г.И.Марчук, академик В.П.Дымников), Москва, ИВМ. (PDF, 828 КБ).
  • 13 января 2010. Задачи и методы машинного обучения. Лекция на Зимней компьютерной школе 2010, МФТИ. (PDF, 1023 КБ).
  • 22 сентября 2009. Комбинаторный подход к проблеме переобучения. Доклад на конференции ММРО-14, Суздаль. (PDF, 1106 КБ).
  • 27 июля 2009. Методы машинного обучения, основанные на индукции правил (логические методы классификации). Доклад на семинаре Знания и онтологии ELSEWHERE, Москва, ВШЭ. (PDF, 1202 КБ).
  • 10 ноября 2008. Методы коллаборативной фильтрации и их применение. Выступление на семинаре Б.Г.Миркина, ВШЭ. (PDF, 1083 КБ).
  • 17 сентября 2008. Пути повышения точности оценок обобщающей способности (комбинаторный подход). Пленарный доклад на международной конференции РОАИ-9-2008, Нижний Новгород. Презентация на английском (PDF, 846 КБ), на русском (PDF, 844 КБ), тезисы доклада на русском (PDF, 243 КБ).
  • 17 сентября 2008. Презентация ресурса www.MachineLearning.ru в рамках международной конференции РОАИ-9-2008, Нижний Новгород. (PDF, 285 КБ, на английском).
  • 13 июня 2008. Вики-ресурс MachineLearning.RU: концепция и перспективы, круглый стол в рамках конференции ИОИ-2008, Крым, Алушта. (PDF, 198 КБ).
  • 12 июня 2008. Слабая вероятностная аксиоматика, оценки надёжности эмпирических предсказаний, расслоение и различность алгоритмов. Конференция ИОИ-2008, Крым, Алушта. (PDF, 950 КБ)
  • 28 апреля 2008. О некоторых задачах интеллектуального анализа данных — одна лекция в рамках курса «Современные проблемы прикладной математики» для студентов 5 курса ВМиК МГУ. (PDF, 764Кб).
  • 28 апреля 2008. Ломоносовские чтения 2008. Оценки надёжности эмпирических предсказаний (комбинаторный подход). (PDF, 804 КБ).
  • 20 august 2007. 7th Open German/Russian Workshop (OGRW-7) on Pattern Recognition and Image Understanding, Ettlingen, Germany. Combinatorial Approach to Generalization Bounds Tightening. (PDF, 1895 KБ, на английском).
  • 5 ноября 2005. ММРО-12. Измерение локальной эффективной функции роста в задачах поиска логических закономерностей. (PDF, 285 КБ), вместе с речью — (PDF, 308 КБ).

Научные интересы

Всё, что скрывается за терминами «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации, а также практический анализ данных в разнообразных областях (экономика, медицина, техника, биоинформатика, интернет).

Теория обобщающей способности

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Её даже выделяют в отдельную дисциплину — теорию вычислительного обучения. Если алгоритм, восстанавливающий некоторую неизвестную зависимость, построен по конечной обучающей выборке прецедентов, то как предсказать качество его работы на контрольной выборке, состоящей из новых прецедентов? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным (VC theory) и получили верхние оценки вероятности ошибки обученного алгоритма (VC-bounds). Эти оценки позволили обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Если алгоритм имеет избыточное число параметров («степеней свободы»), то он может слишком точно настроиться на конкретную обучающую выборку в ущерб качеству восстановления зависимости в целом. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности. К сожалению, оценки вероятности ошибки чрезвычайно завышены (осторожны, пессимистичны), что может приводить к переупрощению модели в методе СМР. Несмотря на 40-летние усилия многих ученых и существенное усложнение математического аппарата, точные оценки до сих пор не были получены.

Комбинаторная теория переобучения — это принципиально новый подход, основанный на слабой вероятностной аксиоматике, впервые позволивший получить точные (не завышенные, не асимптотические) комбинаторные оценки вероятности переобучения и показать ключевую роль эффектов расслоения и сходства в семействах алгоритмов. Пока что точные оценки получены лишь для ряда модельных семейств алгоритмов, обладающих некоторой регулярной структурой. Для реальных смейств удалось получить верхние оценки расслоения-связности — SC-оценки (splitting and connectivity bounds). Они завышены в разы, тогда как VC-оценки завышены на 5–8 порядков. Для некоторых модельных семейств SC-оценки являются точными. Тем не менее, проблемы остаются, и дело не только в завышенности оценок. Во-первых, SC-оценки могут быть ненаблюдаемыми, то есть в них могут входить некоторые функции от скрытых контрольных данных. Эти функции вполне можно оценивать по наблюдаемым обучающим данным, но это дополнительная работа. Во-вторых, SC-оценки могут быть вычислительно неэффективными и требовать неадекватно больших затрат памяти и времени. Получение приближённых или асимптотических SC-оценок гарантированной точности также является отдельной работой.

Пока имеется лишь два примера практического применения комбинаторных оценок обобщающей способности:

  • Модификация критериев информативности для уменьшения переобучения конъюнктивных закономерностей в логических алгоритмах классификации (Андрей Ивахненко).
  • Эффективный алгоритм отбора эталонных объектов в методе ближайших соседей (Максим Иванов).

Основная цель дальнейших исследований — доведение комбинаторной теории переобучения до уровня практической применимости.

Основные направления исследований:

  • разработка математической техники для перехода от ненаблюдаемых оценок к наблюдаемым (возможно, как на основе комбинаторики, так и на основе теории концентрации вероятностной меры);
  • исследование комбинаторно-статистических свойств графа расслоения-связности модельных и реальных семейств алгоритмов.
  • получение оценок вероятности переобучения через наблюдаемый профиль расслоения-связности;
  • разработка эффективных методов оценивания нижних слоёв профиля расслоения-связности в конкретных методах обучения;
  • разработка логических алгоритмов классификации с управляемой переобученностью логических закономерностей;
  • развитие понятия «плотности» семейства алгоритмов и изучение возможности аппроксимации «плотных» семейств их «разреженными» подсемействами малой мощности;
  • развитие понятия «комбинаторного отступа» и его использование для повышения обобщающей способности линейных классификаторов;
  • развитие понятия локальной радемахеровской сложности для более аккуратного учёта эффектов расслоения и сходства;
  • обобщение понятий расслоения и сходства алгоритмов для непрерывных функций потерь;
  • разработка эффективных метрических алгоритмов классификации на основе комбинаторных оценок полного скользящего контроля;
  • исследование связи профилей компактности с функциями конкурентного сходства;
  • разработка методики тестирования и анализа обобщающей способности для «Полигона алгоритмов классификации».

Публикации:

Лучшее изложение с добавлением последних результатов:

Ключевые слова: overfitting, generalization bounds, computational learning theory, Vapnik-Chervonenkis theory, local Rademacher complexity.

Комбинаторная (перестановочная) статистика

Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл оценивать (предсказывать).

Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке, причём все перестановки равновероятны. Событие — это бинарная функция на множестве всех перестановок выборки. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).

В слабой аксиоматике удаётся переформулировать значительную часть фундаментальных результатов теории вероятностей и математической статистики, оносящихся к конечным выборкам независимых наблюдений. В их числе: закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие непараметрические, ранговые и перестановочные статические критерии, теория обобщающей способности, теория информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Многие результаты сильно упрощаются, освобождаясь от второстепенных технических усложнений, связанных с теорией меры. Например, отпадает необходимость введения различных типов сходимости.

Основные направления исследований:

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические тесты;
  • эффективные алгоритмы вычисления комбинаторных оценок;
  • исследование других вероятностных предположений, кроме равновероятности всех перестановок;
  • множественное тестирование статистических гипотез и его связь с проблемой переобучения.

Ключевые слова: exchangeability, permutational statistics, concentration of probability measure.

Анализ текстов и информационный поиск

Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при поиске научной информации, в особенности новой или характеризующейся употреблением неизвестной пользователю терминологии. Научный поиск должен быть смысловым, то есть ориентированным на тематику, а не на точное совпадение слов. Кроме того, он должен обеспечивать полноту поиска, но не по всему Интернету, а только по документам, содержащим верифицированное научное знание. Google Scholar, пожалуй, наиболее адекватен данной совокупности требований, однако в нём нет тематического поиска, слабо представлен русскоязычный сегмент, и нет возможности устанавливать соотвествие русской и английской терминологии.

Отслеживание новых направлений, терминологии и сообществ в настоящее время практически не автоматизировано, требует больших затрат времени и высокой квалификации. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен.

В настоящее время ведутся работы по созданию тематической поисковой системы на основе автоматического выделения терминов и тем с последующим решением задач классификации, рубрикации и ранжирования текстовых документов.

Основные направления исследований:

  • обучаемые алгоритмы выделения терминов в текстах;
  • обучаемые алгоритмы выделения тематик в коллекциях текстовых документов;
  • каталогизация текстов;
  • классификация текстов по жанрам;
  • обучаемые алгоритмы распознавания структурных элементов в текстах;
  • обучаемые алгоритмы ранжирования результатов поиска.

Ключевые слова: keyphrase extraction, probabilistic latent semantic indexing, documents categorization, learning to rank, research fronts.

Анализ клиентских сред и коллабораций

Основная статья: Анализ клиентских сред

Анализ клиентских сред (АКС) является относительно новой и быстро развивающейся областью интеллектуального анализа данных (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.

Имеется некоторый набор ресурсов (товаров, услуг, предметов), которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь её не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной наукоемкой задачей.

Примеры клиентских сред — электронная библиотека, интернет-магазин, поисковая система. Технология АКС позволяет персонализировать поиск контента, ранжируя результаты поиска в таком порядке, чтобы клиенту было легче находить информацию, необходимую именно ему, именно в данный момент.

Основные направления исследований:

Ключевые слова: collaborative filtering, recommender systems, personalization, web mining, web usage mining, client relationship management, matrix factorization, probabilistic latent semantic indexing.

Адаптивное обучение

Основная статья: Адаптивное обучение

В реальных приложениях всё чаще возникает потребность в алгоритмах классификации и прогнозирования, динамически адаптирующихся к потоку поступающих данных. Если в классической постановке задачи обучающая выборка предполагается фиксированной, независимой, взятой из не меняющегося распределения, то в задачах адаптивного (динамического, оналайнового) обучения объекты поступают в некотором порядке, изменить который нельзя, при этом независимости может не быть, а распределение может меняться со временем. В этих условиях также хотелось бы иметь адекватную теорию обобщающей способности. Однако на практике, как правило, ограничиваются эмпирическими оценками.

Основные направления исследований:

  • адаптивные алгоритмы классификации и прогнозирования;
  • исследование возможности переноса комбинаторной теории переобучения на случай адаптивного обучения;
  • интеллектуальная автоматизация обработки текстовой информации при участии эксперта.
  • онлайновые логические алгоритмы классификации;
  • динамическая оптимизация инвестиционного портфеля;

Ключевые слова: online learning, incremental learning, adaptive learning, reinforcement learning.

Алгоритмические композиции

Основная статья: Композиция алгоритмов

Алгоритмические композиции применяются в сложных задачах, когда имеющиеся базовые алгоритмы не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.

Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять области компетентности различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?

Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН Ю.И.Журавлева. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов бустинга, бэггинга, смесей экспертов и других композитных конструкций.

Основные направления исследований:

Ключевые слова: multiple classifier systems, ensemble learning, classifier fusion, boosting, mixture of experts.

Прогнозирование объёмов продаж

Задачи прогнозирования объёмов продаж в сетях супермаркетов характеризуются огромным количеством временных рядов, фактической невозможностью использования классических ресурсоёмких методов прогнозирования, несимметричностью функции потерь, разнородностью и нестационарностью временных рядов, наличием пропусков и неточностей в данных, возможностью привлечения дополнительной информации о структуре ассортимента, географии продаж, ценах, промо-акциях и поведении конкурентов.

Основные направления исследований:

  • адаптивные методы краткосрочного прогнозирования при несимметричной функции потерь;
  • адаптивные композиции алгоритмов прогнозирования при несимметричной функции потерь;
  • адаптивные методы прогнозирования плотности распределения;
  • адаптивные методы квантильной регрессии;
  • поиск взаимозаменяемых товаров, анализ и прогнозирование каннибализации брендов.

Ключевые слова: sales forecast, density forecast, forecasting under asymmetric loss, quantile regression.

Биоинформатика

Основная статья: Биоинформатика

Основные направления исследований:

  • обработка данных ДНК-микрочипов.
  • распознавание вторичной структуры белка по первичной;

Другие проекты

Публикации

Основное неустаревшее:

Всё остальное:

Софт

Библиотека деловой и научной графики. Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.

Аспиранты и студенты

Аспиранты ФУПМ МФТИ ВМиК МГУ
  • Василий Лексин
  • Павел Ботов
  • Иван Гуз
  • Павел Кудинов
  • Николай Суровенко




  • Никита Спирин
  • Юрий Янович
  • Игорь Литвинов

  • Никита Животовский
  • Александр Мафусалов
  • Александр Фирстенко

  • Михаил Бурмистров
  • Александр Романенко
  • Михаил Кокшаров
  • Александр Колесников
  • Дмитрий Солодкин
  • Марина Дударенко
  • Ольга Исупова

  • Евгений Соколов
  • Валентин Полежаев
  • Иван Шанин
  • Кирилл Гаврилюк

  • Анна Потапенко
  • Тимур Исмагилов
  • Ильдар Шаймарданов

Бакалаврские диссертации

  1. Дмитрий Иванцов. Новые методы технического анализа фьючерсных рынков. 2003. МФТИ.
  2. Рустем Таханов. Некоторые комбинаторные оценки каче-ства обучения по прецедентам. 2004. МФТИ.
  3. Дмитрий Житлухин. О некоторых алгоритмах синтеза неэквивалентных матриц Адамара. 2005. МФТИ.
  4. Андрей Ивахненко. Исследование обобщающей способности логических алгоритмов классификации. 2005. МФТИ.
  5. Василий Лексин. Методы выявления взаимосогласованных структур сходства в системах взаимодействующих объектов. 2005. МФТИ.
  6. Фёдор Ульянов. Связь информативности и обобщающей способности в метрических алгоритмах классификации. 2005. МФТИ.
  7. Сергей Ументаев. Алгоритмы динамического обучения принятию решений в сильно зашумлённых временных рядах. 2005. МФТИ.
  8. Иван Гуз. Алгоритмические композиции с монотонными и выпуклыми корректирующими операциями. 2006. МФТИ.
  9. Александр Маценов. Методы обучения линейных композиций алгоритмов классификации. 2006. МФТИ.
  10. Никита Пустовойтов. Обучение композиций дипольных классификаторов на основе ЕМ-алгоритма. 2007. МФТИ.
  11. Александр Климов. Методы предсказания рейтингов в рекомендующих системах. 2007. МФТИ.
  12. Александр Орлов. Проблема переобучения при отборе признаков в линейной регрессии с фиксированными коэффициентами. 2007. МФТИ.
  13. Артур Коваль. Прогнозирование временных рядов с несимметричным функционалом потерь. 2007. МФТИ.
  14. Александр Ширяев. Выбор опорных множеств в алгоритмах типа вычисления оценок: нейросетевой подход. 2007. ВМК МГУ.
  15. Ирина Лебедева. Об одном подходе к анализу доходности и рейтингованию паевых инвестиционных фондов. 2008. МФТИ.
  16. Александр Фрей. Аналоги неравенства Хёфдинга в слабой вероятностной аксиоматике. 2008. МФТИ.
  17. Кирилл Чувилин. Проблема переобучения при отборе признаков по внешним критериям в многомерной линейной регрессии. 2008. МФТИ.
  18. Пётр Цюрмасто. Влияние различности алгоритмов на обобщающую способность в методе минимизации эмпирического риска. 2008. МФТИ.
  19. Андрей Бадзян. О некоторых комбинаторных аналогах неравенства МакДиармида. 2008. МФТИ.
  20. Анастасия Зухба. Метрические алгоритмы классификации с отбором опорных объектов. 2009. МФТИ.
  21. Павел Минаев. Расширенная методика тестирования алгоритмов классификации. 2009. МФТИ.
  22. Алексей Романенко. Адаптивный выбор оптимальной модели временного ряда на основе множества статистических критериев. 2009. МФТИ.
  23. Алексей Куренной. Распознавание цитат в текстовых фрагментах. 2009. ВМК МГУ.
  24. Никита Спирин. Монотонные композиции алгоритмов ранжирования. 2010. МФТИ.
  25. Юрий Янович. Оценивание скрытого профиля компактности в задачах обучения методом ближайшего соседа. 2010. МФТИ.
  26. Алексей Островский. Эмпирическое исследование линейных и монотонных композиций алгоритмов ранжирования. 2010. МФТИ.
  27. Игорь Литвинов. Адаптивные методы квантильной регрессии для прогнозирования временных рядов. 2010. МФТИ.
  28. Евгений Зайцев. Прогнозирование средних скоростей движения в городской автотранспортной сети. 2011. МФТИ.
  29. Никита Животовский. Вероятность большого отклонения частоты ошибок на тестовой выборке от оценки скользящего контроля. 2011. МФТИ.
  30. Александр Мафусалов. Комбинаторные оценки вероятности переобучения пороговых классификаторов. 2011. МФТИ.
  31. Александр Фирстенко. Методы выделения терминов и тематической классификации текстовых документов. 2011. МФТИ.

Магистерские диссертации

  1. Юрий Карпов. Имитационная модель торгов. 2003. МФТИ.
  2. Дмитрий Иванцов. Применение алгоритмов бустинга для построения комбинированных инвестиционных стратегий. 2005. МФТИ.
  3. Денис Кочедыков. Разработка, реализация и тестирование специализированной библиотеки логических алгоритмов классификации. 2005. ВМК МГУ.
  4. Александр Кругов. Поиск закономерностей и принятие решений по дискретным временным рядам. 2006. МФТИ.
  5. Дмитрий Житлухин. Методы распознавания спама на основе совместного анализа содержимого и действий множества пользователей. 2007. МФТИ.
  6. Андрей Ивахненко. Методы управления обобщающей способностью в логических алгоритмах классификации. 2007. МФТИ.
  7. Василий Лексин. Технология персонализации на основе выявления скрытых характеристик пользователей и ресурсов Интернет. 2007. МФТИ.
  8. Фёдор Ульянов. Оценивание обобщающей способности функций близости при оптимизации модели АВО. 2007. МФТИ.
  9. Сергей Ументаев. Методы отбора информативных слагаемых в сумме временных рядов. 2007. МФТИ.
  10. Иван Гуз. Проблема обобщающей способности и оптимизация профиля монотонности в композициях классификаторов. 2008. МФТИ.
  11. Александр Маценов. Профиль разделимости и обобщающая способность линейных композиций классификаторов. 2008. МФТИ.
  12. Геннадий Федонин. Композиции алгоритмов предсказания рейтингов в системах рекомендаций. 2008. МФТИ.
  13. Никита Пустовойтов. Поиск схожих пользователей социальных сетей методами коллаборативной фильтрации. 2009. МФТИ.
  14. Александр Орлов. Комбинаторные оценки вероятности переобучения для случая произвольной заданной матрицы ошибок. 2009. МФТИ.
  15. Артур Коваль. Построение адаптивных композиций алгоритмов прогнозирования при несимметричной функции потерь. 2009. МФТИ.
  16. Ирина Лебедева. Методы повышения обобщающей способности логических алгоритмов классификации. 2010. МФТИ.
  17. Александр Фрей. Точные оценки вероятности переобучения для рандомизированного метода минимизации эмпирического риска. 2010. МФТИ.
  18. Кирилл Чувилин. Интеллектуальная система автоматизации корректуры текстовых документов в формате LaTeX. 2010. МФТИ.
  19. Пётр Цюрмасто. Точные комбинаторные оценки вероятности переобучения для цепочек алгоритмов. 2010. МФТИ.
  20. Анастасия Зухба. Вычислительная сложность задачи отбора опорных объектов в методе ближайших соседей. 2011. МФТИ.
  21. Павел Минаев. Методика тестирования алгоритмов классификации в системе Полигон и её обоснования. 2011. МФТИ.
  22. Алексей Романенко. Методы агрегирования адаптивных алгоритмов прогнозирования. 2011. МФТИ.

Дипломные работы

  1. Максим Янпольский. Идентификация инвестиционных стратегий участников биржевых торгов. 2002. ВМК МГУ.
  2. Александр Киселев. Классификация участников биржевого рынка по близости к стратегиям технического анализа. 2003. ВМК МГУ.
  3. Андрей Липасти. Метрические алгоритмы анализа биржевых стратегий и поведения участников торгов. 2003. ВМК МГУ.
  4. Денис Старых. Алгоритмы генерации сигналов в потоке торговых данных. 2003. ВМК МГУ.
  5. Денис Якубенков. Применение методов распознавания при построении и настройке имитационной модели биржевых торгов. 2003. ВМК МГУ.
  6. Екатерина Егорова. Сравнительный анализ методов алгебраической коррекции для одного класса алгоритмов прогнозирования. 2005. ВМК МГУ.
  7. Даниил Каневский. Генетические алгоритмы синтеза локальных базисов в алгебраическом подходе к проблеме распознавания. 2005. ВМК МГУ.
  8. Алексей Колосков. Применение комбинаторных оценок обобщающей способности для повышения качества метрических алгоритмов классификации. 2005. ВМК МГУ.
  9. Дмитрий Соколов. Сравнительный анализ обобщающей способности логических алгоритмов классификации. 2005. ВМК МГУ.
  10. Людмила Романюха. Логические алгоритмы классификации в за-дачах кредитного скоринга и оценка риска кредитного портфеля банка. 2006. ВМК МГУ.
  11. Ирек Ахуньянов. Применение модифицированного метода опорных векторов для построения метрических классификаторов. 2008. ВМК МГУ.
  12. Андрей Венжега. Отбор информативных признаков на выборках небольшой длины в задаче линейной регрессии с фиксированными ко-эффициентами. 2009. ВМК МГУ.
  13. Максим Иванов. Эффективные метрические алгоритмы классификации на основе оптимизации профиля компактности. 2009. ВМК МГУ.
  14. Алексей Медведев. Обобщающая способность логических закономерностей. 2009. ВМК МГУ.
  15. Варвара Цурко. Логические алгоритмы классификации: проблема переобучения и применение в задачах медицинской диагностики. 2009. ВМК МГУ.
  16. Григорий Чижик. Распознавание скрытых профилей пользователей и ресурсов в анализе клиентских сред. 2009. ВМК МГУ.
  17. Алексей Гуков. Оценки вероятности переобучения для некоторых связных семейств алгоритмов. 2010. ВМК МГУ.
  18. Алина Карпинская. Методы построения неполносвязных нейронных сетей и их приложения в задачах прогнозирования. 2010. ВМК МГУ.
  19. Василий Ломакин. Поиск взаимосвязей во временных рядах продаж. 2010. ВМК МГУ.
  20. Илья Решетняк. Комбинаторные оценки вероятности переобучения, учитывающие эффекты расслоения и связности в семействах алгоритмов. 2010. ВМК МГУ.
  21. Илья Толстихин. Оценки обобщающей способности и применение логических алгоритмов классификации в задаче распознавания вторичной структуры белка. 2010. ВМК МГУ.
  22. Александр Ерошенко. Применение оценок обобщающей способности в алгоритмах построения решающих деревьев. 2011. ВМК МГУ.
  23. Мария Когадеева. Математическая модель данных микрочипов ДНК и методы оценки её параметров. 2011. ВМК МГУ.
  24. Жанна Кожахметова. Построение карты дорог по данным о треках автотранспортных средств. 2011. ВМК МГУ.
  25. Юрий Логачёв. Методы ранжирования в задаче текстовой релевантности. 2011. ВМК МГУ.
  26. Елена Полежаева. Инкрементные матричные разложения в задачах коллаборативной фильтрации. 2011. ВМК МГУ.
  27. Алёна Шевцова. Отбор информативных признаков в задачах медицинской диагностики. 2011. ВМК МГУ.

Кандидатские диссертации

  1. Андрей Ивахненко. Комбинаторные оценки вероятности переобучения и их применение в логических алгоритмах классификации. МФТИ. 2010.

Запланировано на 2011 год:

  1. Иван Гуз. Комбинаторные оценки обобщающей способности и методы обучения монотонных классификаторов. ВЦ РАН.
  2. Павел Ботов. Точные оценки вероятности переобучения многомерных семейств алгоритмов классификации. ВЦ РАН.
  3. Василий Лексин. Оптимизационные методы идентификации вероятностных моделей клиентских сред. ВЦ РАН.
  4. Денис Кочедыков. Оценки обобщающей способности на основе характеристик расслоения и связности семейств функций. ВЦ РАН.
  5. Павел Кудинов. Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде. ВЦ РАН.

Cсылки

Мои подстраницы

Vokov/CVVokov/Publications
Vokov/Иллюзия простоты выбораVokov/Интервью для InTalent.proVokov/Интервью для Кота Шрёдингера 2017-10-04
Vokov/Интервью для Новой газеты 2019-02-25Vokov/Интервью для ПостНауки 2017-09-27Vokov/Интервью для РИА Новости 2020-05-25
Vokov/НаучпопVokov/Некоторые задачи интеллектуального анализа данных (лекция)
Vokov/ПесочницаVokov/Планы по развитию MachineLearning.RUVokov/Публикации

Написать письмо К.В.Воронцову.

Личные инструменты