Участник:Vokov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 11: Строка 11:
== Научные интересы==
== Научные интересы==
-
Всё, что скрывается за терминами «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации. Практический анализ данных в разнообразных областях (экономика, медицина, техника, интернет).
+
Всё, что скрывается за терминами «[[интеллектуальный анализ данных]]» (data mining) и «[[машинное обучение]]» (machine learning):
 +
[[распознавание образов]],
 +
[[прогнозирование]],
 +
[[математическая статистика]],
 +
дискретная математика,
 +
численные методы оптимизации.
 +
Практический анализ данных в разнообразных областях
 +
(экономика, медицина, техника, интернет).
-
'''Проблема обобщающей способности''' является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке прецедентов, то как предсказать качество его работы на новых объектах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
+
'''Проблема [[обобщающая способность|обобщающей способности]]''' является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке [[прецедент]]ов, то как предсказать качество его работы на новых прецедентах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
-
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения: чрезмерно сложные алгоритмы имеют избыточное число свободных параметров; при обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах всегда присутствуют: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности.
+
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили [[cтатистическая теория обучения|статистическую теорию восстановления зависимостей по эмпирическим данным]]. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом [[переобучение|переобучения]]: чрезмерно сложные алгоритмы имеют избыточное число свободных параметров; при обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах всегда присутствуют: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В [[теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] разработан метод [[структурная минимизация риска|структурной минимизации риска]] (СМР), позволяющий автоматически находить модель оптимальной сложности.
К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.
К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.
Строка 27: Строка 34:
generalization ability, computational learning theory, Vapnik-Chervonenkis theory.
generalization ability, computational learning theory, Vapnik-Chervonenkis theory.
-
'''Комбинаторная статистика.'''
+
'''[[Комбинаторная статистика]].'''
Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно ее и имеет смысл предсказывать.
Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно ее и имеет смысл предсказывать.
Строка 37: Строка 44:
* эффективные алгоритмы вычисления комбинаторных оценок.
* эффективные алгоритмы вычисления комбинаторных оценок.
-
'''Методы обучения алгоритмических композиций''' применяются в сложных задачах, когда имеющиеся (базовые) алгоритмы не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.
+
'''[[Алгоритмические композиции]]''' применяются в сложных задачах, когда имеющиеся [[базовый алгоритм|базовые алгоритмы]] не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.
-
Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять области компетентности различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?
+
Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять [[область компетентности|области компетентности]] различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?
-
Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН Ю.И.Журавлева. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов бустинга, смесей экспертов и других композитных конструкций.
+
Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН [[Журавлёв, Юрий Иванович|Ю.И.Журавлева]]. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов [[бустинг]]а, [[смесь экспертов|смесей экспертов]] и других композитных конструкций.
Основные направления исследований:
Основные направления исследований:
Строка 51: Строка 58:
multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.
multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.
-
'''Анализ клиентских сред''' (АКС) является относительно новой и быстро развивающейся областью интеллектуального анализа данных (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.
+
'''[[Анализ клиентских сред]]''' (АКС) является относительно новой и быстро развивающейся областью [[интеллектуальный анализ данных|интеллектуального анализа данных]] (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.
Имеется некоторый набор ресурсов (товаров, услуг, предметов) которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь ее не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.
Имеется некоторый набор ресурсов (товаров, услуг, предметов) которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь ее не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.
Строка 91: Строка 98:
== Планы по развитию MachineLearning.RU ==
== Планы по развитию MachineLearning.RU ==
-
Статьи по понятиям:
+
=== Базовые понятия ===
 +
*[[Объект]] = [[Прецедент]]
 +
*[[Признак]]
 +
*[[Признаковое описание]]
 +
*[[Шкала измерения]]
*[[Обучение по прецедентам]]
*[[Обучение по прецедентам]]
*[[Обучение с учителем]]
*[[Обучение с учителем]]
*[[Обучение без учителя]]
*[[Обучение без учителя]]
-
*[[Статистическая теория обучения]] = [[Вычислительная теория обучения]] = [[COLT]]
+
*[[Выборка]]
 +
*[[Обучающая выборка]]
*[[Алгоритм обучения]]
*[[Алгоритм обучения]]
*[[Модель алгоритмов]]
*[[Модель алгоритмов]]
Строка 102: Строка 114:
*[[Функция потерь]]
*[[Функция потерь]]
*[[Эмпирический риск]] = [[Минимизация эмпирического риска]] = [[ERM]]
*[[Эмпирический риск]] = [[Минимизация эмпирического риска]] = [[ERM]]
 +
*[[Максимум правдоподобия]]
 +
 +
=== Статистическая теория обучения ===
 +
 +
*[[:Категория:Статистическая теория обучения]] = [[Вычислительная теория обучения]] = [[COLT]]
 +
*[[Контрольная выборка]]
 +
*[[Тестовая выборка]]
 +
*[[Эмпирическое предсказание]]
 +
*[[Обобщающая способность]]
 +
*[[Уровень значимости]]
 +
*[[Теория Вапника-Червоненкиса]]
 +
*[[Структурная минимизация риска]]
 +
*[[Минимум длины описания]] = [[MDL]]
*[[Переподгонка]] = [[переобучение]] = [[оверфиттинг]]
*[[Переподгонка]] = [[переобучение]] = [[оверфиттинг]]
-
*[[Обобщающая способность]]
+
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
*[[Информационный критерий Акаике]] = [[Критерий Акаике]] = [[AIC]]
*[[Информационный критерий Акаике]] = [[Критерий Акаике]] = [[AIC]]
*[[Байесовский информационный критерий]] = [[BIC]]
*[[Байесовский информационный критерий]] = [[BIC]]
-
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
 
-
*[[Временной ряд]]
 
-
*[[Эмпирическое предсказание]]
 
-
*[[Логическая закономерность]]
 
-
*[[Статистическая закономерность]]
 
-
*[[Уровень значимости]]
 
-
*[[Информативность]]
 
-
Методы корреляционного и регрессионного анализа:
+
=== Классификация, распознавание образов ===
-
*[[Регрессия]]
+
*[[Классификация]]
-
*[[Регрессионный анализ]]
+
*[[:Категория:Методы классификации]]
-
*[[Корреляционный анализ]]
+
-
*[[Метод наименьших квадратов]]
+
-
*[[Мультиколлинеарность]]
+
-
*[[Обобщенная линейная модель]] = [[GLM]]
+
-
*[[Коррелограмма]]
+
-
 
+
-
Методы классификации или распознавания образов:
+
-
 
+
-
*[[Классификация (машинное обучение)]]
+
*[[Байесовский классификатор]]
*[[Байесовский классификатор]]
*[[Наивный байесовский классификатор]]
*[[Наивный байесовский классификатор]]
-
*[[Метод максимума правдоподобия]]
+
*[[Байесовский вывод]]
 +
*[[Байесовская сеть]]
*[[Линейный дискриминант Фишера]]
*[[Линейный дискриминант Фишера]]
*[[Смесь вероятностных распределений]]
*[[Смесь вероятностных распределений]]
-
*[[Гипотеза компактности]]
+
*[[EM-алгоритм]]
*[[Метод ближайшего соседа]] = [[kNN]]
*[[Метод ближайшего соседа]] = [[kNN]]
*[[Метод потенциальных функций]]
*[[Метод потенциальных функций]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
*[[Метод парзеновского окна]]
*[[Метод парзеновского окна]]
 +
*[[Гипотеза компактности]]
 +
*[[Матрица расстояний]]
 +
*[[Метрика]] = [[Функция расстояния]] = [[Сходство]]
*[[Проклятие размерности]]
*[[Проклятие размерности]]
*[[Машина опорных векторов]] = [[SVM]]
*[[Машина опорных векторов]] = [[SVM]]
 +
 +
=== Нейронные сети ===
 +
 +
*[[:Категория:Нейронные сети]]
 +
*[[Нейронная сеть]]
*[[Персептрон]]
*[[Персептрон]]
*[[Многослойный персептрон]]
*[[Многослойный персептрон]]
-
*[[Нейронная сеть]]
 
-
*[[Байесовская сеть]]
 
*[[Метод стохастического градиента]]
*[[Метод стохастического градиента]]
*[[Метод обратного распространения ошибки]] = [[Backpropagation]] = [[Backprop]]
*[[Метод обратного распространения ошибки]] = [[Backpropagation]] = [[Backprop]]
 +
 +
=== Логические алгоритмы классификации ===
 +
 +
*[[Логическая закономерность]]
 +
*[[Статистическая закономерность]]
 +
*[[Информативность]]
*[[Индукция правил]]
*[[Индукция правил]]
*[[Ассоциативные правила]] = [[правила ассоциации]]
*[[Ассоциативные правила]] = [[правила ассоциации]]
Строка 157: Строка 179:
*[[Принцип частичной прецедентности]]
*[[Принцип частичной прецедентности]]
-
Кластерный анализ:
+
=== Кластерный анализ ===
 +
*[[:Категория:Методы кластеризации]]
*[[Кластеризация]]
*[[Кластеризация]]
*[[Кластер]]
*[[Кластер]]
Строка 174: Строка 197:
*[[Сегментация]]
*[[Сегментация]]
-
Методы преобразования пространства признаков и выбора моделей:
+
=== Корреляционный и регрессионный анализ ===
 +
*[[:Категория:Методы регрессии]]
 +
*[[Регрессия]]
 +
*[[Регрессионный анализ]]
 +
*[[Корреляция]]
 +
*[[Ранговая корреляция]]
 +
*[[Корреляционный анализ]]
 +
*[[Метод наименьших квадратов]]
 +
*[[Мультиколлинеарность]]
 +
*[[Обобщенная линейная модель]] = [[GLM]]
 +
*[[Коррелограмма]]
 +
 +
=== Прогнозирование ===
 +
 +
*[[:Категория:Методы прогнозирования]]
 +
*[[Прогнозирование]]
 +
*[[Временной ряд]]
 +
 +
=== Сокращение размерности ===
 +
 +
*[[:Категория:Методы сокращения размерности]]
*[[Селекция признаков]]
*[[Селекция признаков]]
-
*[[Синтез признаков]]
+
*[[Синтез признаков]] = [[Извлечение признаков]]
*[[Метод главных компонент]]
*[[Метод главных компонент]]
*[[Метод независимых компонент]]
*[[Метод независимых компонент]]
Строка 184: Строка 227:
*[[Внутренний критерий]]
*[[Внутренний критерий]]
*[[Внешний критерий]]
*[[Внешний критерий]]
-
*[[Структурная минимизация риска]]
 
-
*[[Принцип минимума длины описания]] = [[MDL]]
 
-
*[[Байесовский вывод]]
 
*[[Генетический алгоритм]]
*[[Генетический алгоритм]]
*[[Эволюционный алгоритм]]
*[[Эволюционный алгоритм]]
Строка 195: Строка 235:
*[[Комбинаторный взрыв]]
*[[Комбинаторный взрыв]]
-
Алгоритмические композиции:
+
=== Алгоритмические композиции ===
 +
*[[:Категория:Композиции алгоритмов]] = [[Алгоритмические композиции]]
*[[Алгоритмическая композиция]] = [[Ансамбль алгоритмов]]
*[[Алгоритмическая композиция]] = [[Ансамбль алгоритмов]]
 +
*[[Базовый алгоритм]]
*[[Метод комитетов]]
*[[Метод комитетов]]
*[[Бустинг]]
*[[Бустинг]]
*[[Бэггинг]]
*[[Бэггинг]]
*[[Смесь экспертов]]
*[[Смесь экспертов]]
-
*[[Алгебраический подход (машинное обучение)]]
+
*[[Область компетентности]]
 +
*[[Алгебраический подход]] = *[[Алгебраический подход к проблеме распознавания]]
 +
*[[Теория универсальных и локальных ограничений]]
*[[Алгоритмический оператор]]
*[[Алгоритмический оператор]]
*[[Корректирующая операция]]
*[[Корректирующая операция]]
*[[Решающее правило]]
*[[Решающее правило]]
-
Предварительный анализа данных:
+
=== Предварительный анализа данных ===
*[[Понимание данных]]
*[[Понимание данных]]
*[[Визуализация данных]]
*[[Визуализация данных]]
-
Теории, научные школы:
+
=== Интеллектуальный анализ данных ===
 +
 
 +
*[[:Категория:Интеллектуальный анализ данных]] = [[Data Mining]]
 +
*[[Анализ текста]] = [[Text Mining]]
 +
*[[Анализ веба]] = [[Web Mining]]
 +
*[[Анализ контента]] = [[Web Content Mining]]
 +
*[[Анализ структуры веба]] = [[Web Structure Mining]]
 +
*[[Анализ посещаемости]] = [[Web Usage Mining]]
 +
*[[Коллаборативная фильтрация]]
 +
*[[Анализ клиентских сред]]
 +
*[[Анализ рыночных корзин]]
 +
 
 +
=== Теории, научные школы ===
-
*[[Статистическая теория обучения]]
 
-
*[[Теория Вапника-Червоненкиса]]
 
-
*[[Алгебраический подход к проблеме распознавания]]
 
-
*[[Теория универсальных и локальных ограничений]]
 
*[[Теория возможности]]
*[[Теория возможности]]
*[[Теория нечётких множеств]]
*[[Теория нечётких множеств]]
-
Прикладные задачи интеллектуального анализа данных:
+
=== Прикладные задачи интеллектуального анализа данных ===
 +
*[[Медицинская диагностика]]
 +
*[[Дифференциальная диагностика]]
*[[Кредитный скоринг]]
*[[Кредитный скоринг]]
*[[Предсказание ухода клиентов]]
*[[Предсказание ухода клиентов]]
*[[Обнаружение мошенничества]]
*[[Обнаружение мошенничества]]
*[[Прогнозирование продаж]]
*[[Прогнозирование продаж]]
-
*[[Анализ клиентских сред]]
 
-
*[[Анализ рыночной корзины]]
 
*[[Персонализация]]
*[[Персонализация]]

Версия 23:05, 5 февраля 2008

Воронцов Константин Вячеславович

к.ф.-м.н.
Зам. директора по науке ЗАО Форексис.
Научный сотрудник Вычислительного центра РАН.
Зам. зав. каф. «Интеллектуальные системы» МФТИ.

Содержание

Научные интересы

Всё, что скрывается за терминами «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации. Практический анализ данных в разнообразных областях (экономика, медицина, техника, интернет).

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке прецедентов, то как предсказать качество его работы на новых прецедентах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения: чрезмерно сложные алгоритмы имеют избыточное число свободных параметров; при обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах всегда присутствуют: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности.

К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.

Основные направления исследований:

  • комбинаторная теория обобщающей способности;
  • уточнение оценок обобщающей способности для различных частных случаев;
  • разработка новых алгоритмов обучения на их основе.

Ключевые слова: generalization ability, computational learning theory, Vapnik-Chervonenkis theory.

Комбинаторная статистика. Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно ее и имеет смысл предсказывать.

В частотной постановке удается переформулировать закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие статические критерии, в первую очередь, ранговые критерии, теорию обобщающей способности, теорию информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Однако для их вычисления может потребоваться разработка специальных эффективных алгоритмов.

Основные направления исследований:

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические критерии;
  • эффективные алгоритмы вычисления комбинаторных оценок.

Алгоритмические композиции применяются в сложных задачах, когда имеющиеся базовые алгоритмы не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.

Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять области компетентности различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?

Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН Ю.И.Журавлева. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов бустинга, смесей экспертов и других композитных конструкций.

Основные направления исследований:

  • разработка эффективных алгоритмов построения композиций;
  • повышение обобщающей способности композиций;
  • сравнительный анализ различных методов построения композиций.

Ключевые слова: multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.

Анализ клиентских сред (АКС) является относительно новой и быстро развивающейся областью интеллектуального анализа данных (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.

Имеется некоторый набор ресурсов (товаров, услуг, предметов) которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь ее не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.

Один из типичных примеров клиентской среды — интернет-портал, предоставляющий доступ к большому количеству ресурсов, скажем, интернет-магазин или поисковый сервер. Технология АКС позволяет решать задачи персонализации контента — когда результаты поиска, информационные каталоги, предложения товаров и услуг, и т.д. выстраиваются в таком порядке, чтобы пользователь без труда находил информацию, необходимую именно ему, именно в данный момент.

Основные направления исследований:

  • разработка эффективных алгоритмов АКС;
  • решение задач персонализации контента;
  • и других прикладных задач.

Ключевые слова: client relationship management, web mining, web usage mining, collaborative filtering.

Публикации

Список публикаций

Учебные курсы

Машинное обучение

Софт

ChartLib (документация)

Библиотека деловой и научной графики. Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.

Ссылки

Планы по развитию MachineLearning.RU

Базовые понятия

Статистическая теория обучения

Классификация, распознавание образов

Нейронные сети

Логические алгоритмы классификации

Кластерный анализ

Корреляционный и регрессионный анализ

Прогнозирование

Сокращение размерности

Алгоритмические композиции

Предварительный анализа данных

Интеллектуальный анализ данных

Теории, научные школы

Прикладные задачи интеллектуального анализа данных

Моя песочница

Внутри формул нельзя оставлять пробел в первой позиции строки, иначе вот какие глюки получаются: 
\nu(\mu(X^\ell),X^k) \leq \nu(\mu(X^\ell),X^\ell) 
+ \sqrt{ \frac{h}{\ell} 
\left( 
</p>
<pre>   \ln \frac{2\ell}{h} + 1 
</pre>
<p>\right) 
- \frac{\ln\eta}{\ell} }

<tex>
\nu(\mu(X^\ell),X^k) \leq \nu(\mu(X^\ell),X^\ell) 
+ \sqrt{ \frac{h}{\ell} 
\left( 
    \ln \frac{2\ell}{h} + 1 
\right) 
- \frac{\ln\eta}{\ell} }
</tex>

Теберь без пробелов: 
\nu(\mu(X^\ell),X^k) \leq \nu(\mu(X^\ell),X^\ell) 
+ \sqrt{ \frac{h}{\ell} 
\left( 
\ln \frac{2\ell}{h} + 1 
\right) 
- \frac{\ln\eta}{\ell} }

Если попытаться поместить эту формулу в таблицу, снова вылезает паразитное </p>, и формулу приходится набивать в одну строку.
Личные инструменты