Участник:Vokov

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 8: Строка 8:
Научный сотрудник [[Вычислительный центр РАН|Вычислительного центра РАН]].
Научный сотрудник [[Вычислительный центр РАН|Вычислительного центра РАН]].
<br/>
<br/>
-
Зам. зав. каф. «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[МФТИ]].
+
Зам. зав. каф. «[[Интеллектуальные системы (кафедра МФТИ)|Интеллектуальные системы]]» [[ФУПМ]] [[МФТИ]].
<br/>
<br/>
Доц. каф. «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК МГУ]].
Доц. каф. «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК МГУ]].
Строка 42: Строка 42:
[[математическая статистика]],
[[математическая статистика]],
дискретная математика,
дискретная математика,
-
численные методы оптимизации.
+
[[Методы оптимизации|численные методы оптимизации]].
Практический анализ данных в разнообразных областях
Практический анализ данных в разнообразных областях
-
(экономика, медицина, техника, интернет).
+
([[Приложения в экономике|экономика]],
 +
[[Приложения в медицине|медицина]],
 +
[[Приложения в технике|техника]],
 +
[[Анализ веба|интернет]]).
=== Теория обобщающей способности ===
=== Теория обобщающей способности ===
-
Проблема [[обобщающая способность|обобщающей способности]] является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке [[прецедент]]ов, то как предсказать качество его работы на новых прецедентах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
+
Проблема [[обобщающая способность|обобщающей способности]] является ключевой и в то же время наиболее сложной в машинном обучении.
 +
Если алгоритм обучен по конечной [[выборка|выборке]] [[прецедент]]ов, то как предсказать качество его работы на новых прецедентах?
 +
Почему это вообще возможно?
 +
Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?
-
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили [[cтатистическая теория обучения|статистическую теорию восстановления зависимостей по эмпирическим данным]]. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом [[переобучение|переобучения]]: чрезмерно сложные алгоритмы имеют избыточное число свободных параметров; при обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах всегда присутствуют: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В [[теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] разработан метод [[структурная минимизация риска|структурной минимизации риска]] (СМР), позволяющий автоматически находить модель оптимальной сложности.
+
Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили [[теория Вапника-Червоненкиса|статистическую теорию восстановления зависимостей по эмпирическим данным]].
 +
Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт:
 +
по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться.
 +
Ухудшение связано с эффектом [[переобучение|переобучения]].
 +
Чрезмерно сложные алгоритмы имеют избыточное число свободных параметров.
 +
При обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей.
 +
Погрешности в реальных задачах присутствуют всегда:
 +
во-первых, это ошибки измерения (шум),
 +
во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью.
 +
В&nbsp;[[теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] разработан метод [[структурная минимизация риска|структурной минимизации риска]] (СМР), позволяющий автоматически находить модель оптимальной сложности.
-
К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.
+
К сожалению, статистические оценки чрезвычайно сильно завышены.
 +
В методе СМР это часто влечет переупрощение модели.
 +
Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.
Основные направления исследований:
Основные направления исследований:
Строка 64: Строка 81:
=== Комбинаторная статистика ===
=== Комбинаторная статистика ===
-
Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно ее и имеет смысл предсказывать.
+
Это направление логично вытекает из предыдущего и является его обобщением.
 +
Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности.
 +
{{S|В задачах}} анализа данных мы всегда имеем дело с выборками конечной длины.
 +
Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?».
 +
Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно.
 +
Вероятность события — абстрактная идеализированная величина.
 +
Частота события — это как раз то, что реально измеряется в эксперименте.
 +
Именно её и имеет смысл предсказывать.
[[Слабая вероятностная аксиоматика]] основана на одной единственной аксиоме:
[[Слабая вероятностная аксиоматика]] основана на одной единственной аксиоме:
рассматривается конечная выборка ''неслучайных объектов'', которые появляются в ''случайном порядке''.
рассматривается конечная выборка ''неслучайных объектов'', которые появляются в ''случайном порядке''.
-
''Вероятность события'' определяется как доля перестановок выборки, при которых выполняется заданное условие.
+
''Событие'' — это бинарная функция на множестве разбиений.
 +
''Вероятность события'' определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).
В слабой аксиоматике удаётся переформулировать закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие статические критерии, в первую очередь, ранговые критерии, теорию обобщающей способности, теорию информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Однако для их вычисления может потребоваться разработка специальных эффективных алгоритмов.
В слабой аксиоматике удаётся переформулировать закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие статические критерии, в первую очередь, ранговые критерии, теорию обобщающей способности, теорию информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Однако для их вычисления может потребоваться разработка специальных эффективных алгоритмов.
Строка 74: Строка 99:
Основные направления исследований:
Основные направления исследований:
* выяснение границ применимости слабой вероятностной аксиоматики;
* выяснение границ применимости слабой вероятностной аксиоматики;
-
* точные (комбинаторные) статистические критерии;
+
* точные (комбинаторные) [[статистический тест|статистические критерии]];
* эффективные алгоритмы вычисления комбинаторных оценок.
* эффективные алгоритмы вычисления комбинаторных оценок.
=== Алгоритмические композиции ===
=== Алгоритмические композиции ===
-
[[Алгоритмические композиции]] применяются в сложных задачах, когда имеющиеся [[базовый алгоритм|базовые алгоритмы]] не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.
+
[[Алгоритмические композиции]] применяются в сложных задачах, когда имеющиеся [[базовый алгоритм|базовые алгоритмы]] не дают желаемого качества обучения.
 +
{{S|В таких}} случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.
-
Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять [[область компетентности|области компетентности]] различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?
+
Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами.
 +
Можно усреднять с весами.
 +
Можно выделять [[область компетентности|области компетентности]] различных алгоритмов, и в каждой области использовать свое распределение весов.
 +
Можно строить композиции алгоритмов с помощью нелинейных операций.
 +
Какой из этих методов лучше?
 +
{{S|В каких}} задачах?
 +
Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции?
 +
Можно ли приспособить для этого стандартные методы обучения?
 +
Как оценивать и целенаправленно улучшать обобщающую способность композиции?
 +
Как при этом сделать число алгоритмов в композиции поменьше?
-
Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН [[Журавлёв, Юрий Иванович|Ю.И.Журавлева]]. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов [[бустинг]]а, [[смесь экспертов|смесей экспертов]] и других композитных конструкций.
+
Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН [[Журавлёв, Юрий Иванович|Ю.И.Журавлева]].
 +
{{S|В зарубежных}} исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов [[бустинг]]а, [[бэггинг]]а, [[смесь экспертов|смесей экспертов]] и других композитных конструкций.
Основные направления исследований:
Основные направления исследований:
* разработка эффективных алгоритмов построения композиций;
* разработка эффективных алгоритмов построения композиций;
* повышение обобщающей способности композиций;
* повышение обобщающей способности композиций;
 +
* композиции [[логическая закономерность|логических закономерностей]];
* сравнительный анализ различных методов построения композиций.
* сравнительный анализ различных методов построения композиций.
Строка 95: Строка 132:
=== Анализ клиентских сред ===
=== Анализ клиентских сред ===
-
[[Анализ клиентских сред]] (АКС) является относительно новой и быстро развивающейся областью [[интеллектуальный анализ данных|интеллектуального анализа данных]] (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.
+
[[Анализ клиентских сред]] (АКС) является относительно новой и быстро развивающейся областью [[интеллектуальный анализ данных|интеллектуального анализа данных]] (data mining).
 +
{{S|В современном}} бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.
-
Имеется некоторый набор ресурсов (товаров, услуг, предметов) которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь ее не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.
+
Имеется некоторый набор ресурсов (товаров, услуг, предметов), которыми пользуется огромное количество клиентов.
 +
Все действия пользователей протоколируются в электронном виде.
 +
Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь её не так просто ввиду огромного объема данных.
 +
Какие ресурсы наиболее популярны, и среди каких групп клиентов?
 +
Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется?
 +
Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания?
 +
Эти и другие задачи решаются в системах [[CRM|управления взаимоотношениями с клиентами]] (client relationship management, CRM).
 +
Создание математического обеспечения для них является актуальной и наукоемкой задачей.
-
Один из типичных примеров клиентской среды — интернет-портал, предоставляющий доступ к большому количеству ресурсов, скажем, интернет-магазин или поисковый сервер. Технология АКС позволяет решать задачи персонализации контента — когда результаты поиска, информационные каталоги, предложения товаров и услуг, и т.д. выстраиваются в таком порядке, чтобы пользователю легче было находить информацию, необходимую именно ему, именно в данный момент.
+
Один из типичных примеров клиентской среды — интернет-портал, предоставляющий доступ к большому количеству ресурсов, скажем, интернет-магазин или поисковый сервер.
 +
Технология АКС позволяет решать задачи персонализации контента — когда результаты поиска, информационные каталоги, предложения товаров и услуг, и т.д. выстраиваются в таком порядке, чтобы пользователю легче было находить информацию, необходимую именно ему, именно в данный момент.
Основные направления исследований:
Основные направления исследований:
-
* разработка эффективных алгоритмов АКС;
+
* разработка эффективных алгоритмов АКС и [[коллаборативная фильтрация|коллаборативной фильтрации]];
-
* решение задач персонализации контента;
+
* решение задач [[персонализация|персонализации]];
-
* и других прикладных задач.
+
* разработка [[рекомендующая система|рекомендующих систем]].
Ключевые слова:
Ключевые слова:
-
client relationship management, web mining, web usage mining, collaborative filtering.
+
client relationship management, web mining, web usage mining, collaborative filtering, recommender systems.
== Публикации ==
== Публикации ==
Строка 141: Строка 187:
=== Интересные спецстраницы ===
=== Интересные спецстраницы ===
-
* [[Special:Uncategorizedpages|Некатегоризованные страницы]]
+
* [[Special:Uncategorizedpages|Некатегоризованные страницы]] — зайти и категоризировать!
-
* [[Special:Uncategorizedcategories|Некатегоризованные категории]]
+
* [[Special:Uncategorizedcategories|Некатегоризованные категории]] — аналогично!
-
* [[Special:Popularpages|Популярные страницы]]
+
* [[Special:Popularpages|Популярные страницы]] — их качество доводить до блеска!
-
* [[Special:Wantedpages|Требуемые страницы]]
+
* [[Special:Wantedpages|Требуемые страницы]] — писать или искать писателей!
-
* [[Special:Listusers|Список участников]]
+
* [[Special:Listusers|Список участников]] — кто у нас новенький? у кого страничка появилась?
-
* [[Special:Statistics|Статистика]]
+
* [[Special:Statistics|Статистика]] — как растём?
=== Шаблоны ===
=== Шаблоны ===
Строка 169: Строка 215:
*[[Выборка]]
*[[Выборка]]
*[[Теория надёжности обучения по прецедентам (курс лекций, К.В.Воронцов)/Расслоение семейства алгоритмов]]
*[[Теория надёжности обучения по прецедентам (курс лекций, К.В.Воронцов)/Расслоение семейства алгоритмов]]
-
*[[Модель зависимости]]
 
=== Немного недописанные статьи ===
=== Немного недописанные статьи ===
-
*[[Машинное обучение]]
 
*[[Обучение с учителем]]
*[[Обучение с учителем]]
 +
*[[Машинное обучение]]
 +
*[[Модель зависимости]]
*[[Классификация]]
*[[Классификация]]
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
Строка 182: Строка 228:
=== Базовые понятия ===
=== Базовые понятия ===
-
 
+
*[[Обучение по прецедентам]] = [[Машинное обучение]]
 +
*[[Обучение с учителем]]
 +
*[[Обучение без учителя]]
 +
*[[:Категория:Классификация]]
 +
*[[Классификация]] = [[Дискриминантный анализ]]
*[[Объект]] = [[Прецедент]]
*[[Объект]] = [[Прецедент]]
*[[Признак]]
*[[Признак]]
*[[Признаковое описание]]
*[[Признаковое описание]]
*[[Шкала измерения]]
*[[Шкала измерения]]
-
*[[Обучение по прецедентам]]
+
*[[Выборка]] = [[Обучающая выборка]]
-
*[[Обучение с учителем]]
+
-
*[[Обучение без учителя]]
+
-
*[[Выборка]]
+
-
*[[Обучающая выборка]]
+
*[[Алгоритм обучения]] = [[Метод обучения]]
*[[Алгоритм обучения]] = [[Метод обучения]]
*[[Модель алгоритмов]] = [[Модель зависимости]]
*[[Модель алгоритмов]] = [[Модель зависимости]]
Строка 197: Строка 243:
*[[Функция потерь]]
*[[Функция потерь]]
*[[Эмпирический риск]] = [[Минимизация эмпирического риска]] = [[ERM]]
*[[Эмпирический риск]] = [[Минимизация эмпирического риска]] = [[ERM]]
-
*[[Максимум правдоподобия]]
+
*[[Максимум правдоподобия]] = [[Метод максимума правдоподобия]] = [[Максимизация правдоподобия]] = [[Правдоподобие]]
 +
 
 +
=== Статистика ===
 +
*[[:Категория:Прикладная статистика]]
 +
*[[Прикладная статистика]]
 +
*[[Уровень значимости]] = [[Значимость]]
 +
*[[:Категория:Статистические критерии]]
 +
*[[Статистический критерий]] = [[Статистический тест]]
 +
*[[Критерий однородности]]
 +
*[[Критерий согласия]]
 +
*[[Критерий Колмогорова-Смирнова]]
 +
*[[Критерий хи-квадрат]]
 +
*[[Критерий Стьюдента]]
 +
*[[Критерий Уилкоксона]] = [[Критерий Вилкоксона]]
 +
*[[Точный тест Фишера]]
=== Теория вычислительного обучения ===
=== Теория вычислительного обучения ===
-
 
*[[:Категория:Теория вычислительного обучения]]
*[[:Категория:Теория вычислительного обучения]]
*[[Теория статистического обучения]] = [[Теория вычислительного обучения]] = [[COLT]]
*[[Теория статистического обучения]] = [[Теория вычислительного обучения]] = [[COLT]]
Строка 206: Строка 265:
*[[Тестовая выборка]]
*[[Тестовая выборка]]
*[[Эмпирическое предсказание]]
*[[Эмпирическое предсказание]]
-
*[[Обобщающая способность]] = [[Переобучение]] = [[Переподгонка]] = [[оверфиттинг]]
+
*[[Обобщающая способность]] = [[Переобучение]] = [[Переподгонка]] = [[Оверфиттинг]] = [[Overfitting]]
-
*[[Уровень значимости]]
+
*[[Теория Вапника-Червоненкиса]]
*[[Теория Вапника-Червоненкиса]]
 +
*[[Функция роста]] = [[Коэффициент разнообразия]] = [[Shattering]]
 +
*[[Ёмкость]] = [[Размерность Вапника-Червоненкиса]] = [[VC-dimension]] = [[VCdim]]
*[[Структурная минимизация риска]]
*[[Структурная минимизация риска]]
*[[Минимум длины описания]] = [[MDL]]
*[[Минимум длины описания]] = [[MDL]]
 +
*[[Сложность выборки]]
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
*[[Скользящий контроль]] = [[Кросс-валидация]] = [[CV]]
*[[Информационный критерий Акаике]] = [[Критерий Акаике]] = [[AIC]]
*[[Информационный критерий Акаике]] = [[Критерий Акаике]] = [[AIC]]
*[[Байесовский информационный критерий]] = [[BIC]]
*[[Байесовский информационный критерий]] = [[BIC]]
-
=== Классификация, распознавание образов ===
+
=== Байесовская теория классификации ===
-
 
+
-
*[[:Категория:Классификация]]
+
-
*[[Классификация]] = [[Дискриминантный анализ]]
+
-
 
+
-
=== Классификация, распознавание образов ===
+
*[[:Категория:Байесовская теория классификации]]
*[[:Категория:Байесовская теория классификации]]
*[[Байесовский классификатор]] = [[Оптимальный байесовский классификатор]]
*[[Байесовский классификатор]] = [[Оптимальный байесовский классификатор]]
Строка 228: Строка 284:
*[[EM-алгоритм]]
*[[EM-алгоритм]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
-
*[[Метод парзеновского окна]]
+
*[[Метод парзеновского окна]] = [[Парзеновское окно]] = [[Окно Парзена]]
=== Классификация на основе сходства ===
=== Классификация на основе сходства ===
Строка 238: Строка 294:
*[[Метод потенциальных функций]]
*[[Метод потенциальных функций]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
*[[Метод радиальных базисных функций]] = [[Сеть радиальных базисных функций]] = [[RBF]]
-
*[[Метод парзеновского окна]]
+
*[[Метод парзеновского окна]] = [[Парзеновское окно]] = [[Окно Парзена]]
*[[Проклятие размерности]]
*[[Проклятие размерности]]
*[[CBR]] = [[Case based reasoning]] = [[Рассуждение на основе прецедентов]] (?)
*[[CBR]] = [[Case based reasoning]] = [[Рассуждение на основе прецедентов]] (?)
Строка 245: Строка 301:
*[[:Категория:Линейные классификаторы]]
*[[:Категория:Линейные классификаторы]]
*[[Машина опорных векторов]] = [[Метод опорных векторов]] = [[SVM]]
*[[Машина опорных векторов]] = [[Метод опорных векторов]] = [[SVM]]
-
*[[Однослойный персептрон]]
+
*[[Логистическая регрессия]]
 +
*[[Ядро]]
 +
*[[Отступ]] = [[Зазор]]
 +
*[[Распределение отступов]]
=== Байесовский вывод ===
=== Байесовский вывод ===
Строка 256: Строка 315:
*[[:Категория:Нейронные сети]]
*[[:Категория:Нейронные сети]]
*[[Нейронная сеть]] = [[ANN]]
*[[Нейронная сеть]] = [[ANN]]
-
*[[Персептрон]]
+
*[[Модель МакКаллока-Питтса]]
 +
*[[Персептрон]] = [[Персептрон Розенблатта]]
 +
*[[Задача XOR]]
*[[Однослойный персептрон]]
*[[Однослойный персептрон]]
*[[Многослойный персептрон]]
*[[Многослойный персептрон]]
*[[Метод стохастического градиента]]
*[[Метод стохастического градиента]]
*[[Метод обратного распространения ошибки]] = [[Backpropagation]] = [[Backprop]]
*[[Метод обратного распространения ошибки]] = [[Backpropagation]] = [[Backprop]]
-
*[[OBD]] = [[Оптимальное усечение сети]]
+
*[[Оптимальное усечение сети]] = [[Оптимальное упрощение сети]] = [[Оптимальное повреждение сети]] = [[OBD]] (??)
 +
*[[Оптимальная хирургия мозга]] = [[OBS]] (??)
 +
*[[Конкурентное обучение]]
 +
*[[Нейронная сеть Кохонена]] = [[Сеть Кохонена]]
 +
*[[Самоорганизующаяся карта Кохонена]] = [[Карта Кохонена]] = [[SOM]]
 +
*[[Ассоциативная память]]
 +
*[[Сеть Гроссберга]]
 +
*[[Сеть Хопфилда]]
 +
*[[Сеть Хэмминга]]
=== Дискретные (логические) алгоритмы классификации ===
=== Дискретные (логические) алгоритмы классификации ===
Строка 275: Строка 344:
*[[Критерий ветвления]]
*[[Критерий ветвления]]
*[[Решающий лес]]
*[[Решающий лес]]
-
*[[Редукция решающего дерева]]
+
*[[Редукция решающего дерева]] = [[Постредукция]] = [[Предредукция]]
*[[Алгоритм вычисления оценок]]
*[[Алгоритм вычисления оценок]]
*[[Тестовый алгоритм]]
*[[Тестовый алгоритм]]
Строка 281: Строка 350:
=== Кластерный анализ ===
=== Кластерный анализ ===
-
 
*[[:Категория:Кластеризация]]
*[[:Категория:Кластеризация]]
*[[Кластеризация]] = [[Кластерный анализ]]
*[[Кластеризация]] = [[Кластерный анализ]]
*[[Кластер]]
*[[Кластер]]
*[[Графовые алгоритмы кластеризации]]
*[[Графовые алгоритмы кластеризации]]
 +
*[[Кратчайший незамкнутый путь]] = [[Минимальное остовное дерево]]
*[[Статистические алгоритмы кластеризации]]
*[[Статистические алгоритмы кластеризации]]
*[[Алгоритм ФОРЕЛЬ]]
*[[Алгоритм ФОРЕЛЬ]]
Строка 292: Строка 361:
*[[Таксономия]]
*[[Таксономия]]
*[[Дендрограмма]]
*[[Дендрограмма]]
-
*[[Нейронная сеть Кохонена]]
+
*[[Нейронная сеть Кохонена]] = [[Сеть Кохонена]]
*[[Ансамбль кластеризаторов]]
*[[Ансамбль кластеризаторов]]
*[[Многомерное шкалирование]] = [[MDS]]
*[[Многомерное шкалирование]] = [[MDS]]
 +
*[[Диаграмма Шеппарда]]
*[[Карта сходства]]
*[[Карта сходства]]
*[[Сегментация]]
*[[Сегментация]]
=== Корреляционный и регрессионный анализ ===
=== Корреляционный и регрессионный анализ ===
-
 
*[[:Категория:Регрессия]]
*[[:Категория:Регрессия]]
*[[Регрессия]] = [[Регрессионный анализ]]
*[[Регрессия]] = [[Регрессионный анализ]]
 +
*[[Линейная регрессия]]
 +
*[[Шаговая регрессия]]
 +
*[[Криволинейная регрессия]]
*[[Корреляция]]
*[[Корреляция]]
*[[Ранговая корреляция]]
*[[Ранговая корреляция]]
Строка 311: Строка 383:
=== Прогнозирование ===
=== Прогнозирование ===
-
 
*[[:Категория:Прогнозирование]]
*[[:Категория:Прогнозирование]]
*[[Прогнозирование]]
*[[Прогнозирование]]
*[[Временной ряд]]
*[[Временной ряд]]
 +
*[[Авторегрессия]]
 +
*[[Скользящее среднее]]
 +
*[[ARIMA]]
 +
*[[ARMA]]
 +
*[[GARCH]]
=== Сокращение размерности ===
=== Сокращение размерности ===
-
 
*[[:Категория:Сокращение размерности]]
*[[:Категория:Сокращение размерности]]
*[[Селекция признаков]]
*[[Селекция признаков]]
*[[Синтез признаков]] = [[Извлечение признаков]]
*[[Синтез признаков]] = [[Извлечение признаков]]
-
*[[Метод главных компонент]]
+
*[[Метод главных компонент]] = [[PCA]]
-
*[[Метод независимых компонент]]
+
*[[Метод независимых компонент]] = [[ICA]]
 +
*[[Шаговая регрессия]] = [[AddDel]] = [[Add-Del]]
*[[Метод группового учета аргументов]] = [[МГУА]]
*[[Метод группового учета аргументов]] = [[МГУА]]
*[[Самоорганизация моделей]]
*[[Самоорганизация моделей]]
Строка 330: Строка 406:
*[[Эволюционный алгоритм]]
*[[Эволюционный алгоритм]]
*[[Случайный поиск]]
*[[Случайный поиск]]
-
*[[Стохастический локальный поиск]]
+
*[[Стохастический локальный поиск]] = [[Локальный стохастический поиск]] = [[Локальный случайный поиск]] = [[Случайный локальный поиск]] = [[SLS]]
-
*[[Случайный поиск с адаптацией]]
+
*[[Случайный поиск с адаптацией]] = [[СПА]]
-
*[[Локальный случайный поиск]]
+
*[[Комбинаторный взрыв]]
*[[Комбинаторный взрыв]]
=== Алгоритмические композиции ===
=== Алгоритмические композиции ===
-
 
*[[:Категория:Композиции алгоритмов]] = [[Алгоритмические композиции]]
*[[:Категория:Композиции алгоритмов]] = [[Алгоритмические композиции]]
*[[Алгоритмическая композиция]] = [[Ансамбль алгоритмов]]
*[[Алгоритмическая композиция]] = [[Ансамбль алгоритмов]]
Строка 343: Строка 417:
*[[Бустинг]]
*[[Бустинг]]
*[[Бэггинг]]
*[[Бэггинг]]
-
*[[Смесь экспертов]]
+
*[[Метод случайных подпространств]] = [[RSM]]
 +
*[[Смесь экспертов]] = [[Смесь алгоритмов]] = [[ME]]
*[[Область компетентности]]
*[[Область компетентности]]
*[[Алгебраический подход к проблеме распознавания]]
*[[Алгебраический подход к проблеме распознавания]]
Строка 352: Строка 427:
=== Предварительный анализ данных ===
=== Предварительный анализ данных ===
-
 
*[[:Категория:Предварительный анализ данных]]
*[[:Категория:Предварительный анализ данных]]
*[[Предварительный анализ данных]] = [[Разведочный анализ данных]]
*[[Предварительный анализ данных]] = [[Разведочный анализ данных]]
Строка 371: Строка 445:
*[[Коллаборативная фильтрация]]
*[[Коллаборативная фильтрация]]
*[[Анализ клиентских сред]]
*[[Анализ клиентских сред]]
 +
*[[Рекомендующие системы]]
 +
*[[Персонализация]]
 +
*[[Управление взаимоотношениями с клиентами]] = [[CRM]]
*[[Анализ рыночных корзин]]
*[[Анализ рыночных корзин]]
=== Теории, научные школы ===
=== Теории, научные школы ===
-
 
*[[Алгебраический подход к проблеме распознавания]]
*[[Алгебраический подход к проблеме распознавания]]
*[[Теория возможности]]
*[[Теория возможности]]
Строка 380: Строка 456:
=== Прикладные задачи интеллектуального анализа данных ===
=== Прикладные задачи интеллектуального анализа данных ===
-
 
*[[Медицинская диагностика]]
*[[Медицинская диагностика]]
 +
*[[Техническая диагностика]]
*[[Дифференциальная диагностика]]
*[[Дифференциальная диагностика]]
*[[Кредитный скоринг]]
*[[Кредитный скоринг]]
Строка 391: Строка 467:
== Мои подразделы ==
== Мои подразделы ==
{{Служебная:Prefixindex/Участник:Vokov/}}
{{Служебная:Prefixindex/Участник:Vokov/}}
-
<!--
 
-
*[[Участник:Vokov/Песочница]]
 
-
*[[Слабая вероятностная аксиоматика]]
 
-
-->
 
----
----
[[Категория:Страницы участников|V]]
[[Категория:Страницы участников|V]]

Версия 18:46, 29 апреля 2008

Содержание

Воронцов Константин Вячеславович

к.ф.-м.н.
Зам. директора по науке ЗАО Форексис.
Научный сотрудник Вычислительного центра РАН.
Зам. зав. каф. «Интеллектуальные системы» ФУПМ МФТИ.
Доц. каф. «Математические методы прогнозирования» ВМиК МГУ.

Один из идеологов и Администраторов ресурса MachineLearning.RU.

Прочие подробности — на подстранице Curriculum vitæ.


Учебные курсы

Лекции, выступления

Научные интересы

Всё, что скрывается за терминами «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning): распознавание образов, прогнозирование, математическая статистика, дискретная математика, численные методы оптимизации. Практический анализ данных в разнообразных областях (экономика, медицина, техника, интернет).

Теория обобщающей способности

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Если алгоритм обучен по конечной выборке прецедентов, то как предсказать качество его работы на новых прецедентах? Почему это вообще возможно? Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В.Н.Вапник и А.Я.Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным. Они получили верхние оценки вероятности ошибок обученного алгоритма, позволившие обосновать давно замеченный эмпирический факт: по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Чрезмерно сложные алгоритмы имеют избыточное число свободных параметров. При обучении этих параметров по выборке алгоритм настраивается не только на восстановление зависимости, но и на воспроизведение разного рода погрешностей. Погрешности в реальных задачах присутствуют всегда: во-первых, это ошибки измерения (шум), во-вторых, что гораздо существеннее, это невязка между используемой моделью и неизвестной истинной зависимостью. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности.

К сожалению, статистические оценки чрезвычайно сильно завышены. В методе СМР это часто влечет переупрощение модели. Несмотря на 40-летние усилия многих ученых, точные оценки качества обучения до сих пор не получены.

Основные направления исследований:

  • комбинаторная теория обобщающей способности;
  • уточнение оценок обобщающей способности для различных частных случаев;
  • разработка новых алгоритмов обучения на их основе.

Ключевые слова: generalization ability, computational learning theory, Vapnik-Chervonenkis theory.

Комбинаторная статистика

Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл предсказывать.

Слабая вероятностная аксиоматика основана на одной единственной аксиоме: рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке. Событие — это бинарная функция на множестве разбиений. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т.е. событие имеет место).

В слабой аксиоматике удаётся переформулировать закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие статические критерии, в первую очередь, ранговые критерии, теорию обобщающей способности, теорию информации. Во многих случаях получаемые оценки являются точными, т.е. не асимптотическими и не завышенными. Однако для их вычисления может потребоваться разработка специальных эффективных алгоритмов.

Основные направления исследований:

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические критерии;
  • эффективные алгоритмы вычисления комбинаторных оценок.

Алгоритмические композиции

Алгоритмические композиции применяются в сложных задачах, когда имеющиеся базовые алгоритмы не дают желаемого качества обучения. В таких случаях строят композиции алгоритмов, стараясь, чтобы ошибки различных алгоритмов скомпенсировали друг друга.

Самый простой пример композиции — усреднение ответов, выдаваемых базовыми алгоритмами. Можно усреднять с весами. Можно выделять области компетентности различных алгоритмов, и в каждой области использовать свое распределение весов. Можно строить композиции алгоритмов с помощью нелинейных операций. Какой из этих методов лучше? В каких задачах? Как обучать базовые алгоритмы, учитывая, что они будут работать не по-отдельности, а в составе композиции? Можно ли приспособить для этого стандартные методы обучения? Как оценивать и целенаправленно улучшать обобщающую способность композиции? Как при этом сделать число алгоритмов в композиции поменьше?

Идея алгоритмических композиций была выдвинута в середине 70-х годов в работах академика РАН Ю.И.Журавлева. В зарубежных исследованиях это тема стала чрезвычайно популярной в 90-е годы, после изобретения алгоритмов бустинга, бэггинга, смесей экспертов и других композитных конструкций.

Основные направления исследований:

  • разработка эффективных алгоритмов построения композиций;
  • повышение обобщающей способности композиций;
  • композиции логических закономерностей;
  • сравнительный анализ различных методов построения композиций.

Ключевые слова: multiple classifier systems, ensemble learning, classifier fusion, mixture of experts.

Анализ клиентских сред

Анализ клиентских сред (АКС) является относительно новой и быстро развивающейся областью интеллектуального анализа данных (data mining). В современном бизнесе чрезвычайно востребовано решение следующей задачи, точнее даже группы задач.

Имеется некоторый набор ресурсов (товаров, услуг, предметов), которыми пользуется огромное количество клиентов. Все действия пользователей протоколируются в электронном виде. Эти данные содержат ценнейшую информацию, необходимую для повышения качества оказываемых услуг, однако извлечь её не так просто ввиду огромного объема данных. Какие ресурсы наиболее популярны, и среди каких групп клиентов? Возможно ли угадать интересы клиента и сформировать для него персональное предложение, от которого он с высокой вероятностью не откажется? Как выявить клиентов, собирающихся в ближайшее время отказаться от обслуживания? Эти и другие задачи решаются в системах управления взаимоотношениями с клиентами (client relationship management, CRM). Создание математического обеспечения для них является актуальной и наукоемкой задачей.

Один из типичных примеров клиентской среды — интернет-портал, предоставляющий доступ к большому количеству ресурсов, скажем, интернет-магазин или поисковый сервер. Технология АКС позволяет решать задачи персонализации контента — когда результаты поиска, информационные каталоги, предложения товаров и услуг, и т.д. выстраиваются в таком порядке, чтобы пользователю легче было находить информацию, необходимую именно ему, именно в данный момент.

Основные направления исследований:

Ключевые слова: client relationship management, web mining, web usage mining, collaborative filtering, recommender systems.

Публикации

Список публикаций

Софт

Библиотека деловой и научной графики. Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView.exe для просмотра CHD-файлов.

Внешние ссылки

Ссылки внутри MachineLearning.RU

Служебные страницы

Интересные спецстраницы

Шаблоны

Программирование в шаблонах:

Категории

Планы по развитию MachineLearning.RU

Сильно недописанные статьи

Немного недописанные статьи

Статьи, нуждающиеся в доработке

Базовые понятия

Статистика

Теория вычислительного обучения

Байесовская теория классификации

Классификация на основе сходства

Классификация на основе разделимости

Байесовский вывод

Нейронные сети

Дискретные (логические) алгоритмы классификации

Кластерный анализ

Корреляционный и регрессионный анализ

Прогнозирование

Сокращение размерности

Алгоритмические композиции

Предварительный анализ данных

Projection pursuit

Интеллектуальный анализ данных

Теории, научные школы

Прикладные задачи интеллектуального анализа данных

Мои подразделы

Vokov/CVVokov/Publications
Vokov/Иллюзия простоты выбораVokov/Интервью для InTalent.proVokov/Интервью для Кота Шрёдингера 2017-10-04
Vokov/Интервью для Новой газеты 2019-02-25Vokov/Интервью для ПостНауки 2017-09-27Vokov/Интервью для РИА Новости 2020-05-25
Vokov/НаучпопVokov/Некоторые задачи интеллектуального анализа данных (лекция)
Vokov/ПесочницаVokov/Планы по развитию MachineLearning.RUVokov/Публикации

Личные инструменты