Машинное обучение

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Машинное обучение''' (Machine Learning) — обширный подраздел [[Искусственный интеллект|искусственного интел...)
Строка 1: Строка 1:
'''Машинное обучение''' (Machine Learning) — обширный подраздел [[Искусственный интеллект|искусственного интеллекта]], изучающий методы построения [[алгоритм]]ов, способных обучаться. Различают два типа обучения. ''Обучение по прецедентам'', или ''индуктивное обучение'', основано на выявлении закономерностей в [[выборка|эмпирических данных]]. ''Дедуктивное обучение'' предполагает формализацию знаний экспертов и их перенос в компьютер в виде [[база знаний|базы знаний]]. Дедуктивное обучение принято относить к области [[Экспертная система|экспертных систем]], поэтому термины ''машинное обучение'' и ''обучение по прецедентам'' можно считать синонимами.
'''Машинное обучение''' (Machine Learning) — обширный подраздел [[Искусственный интеллект|искусственного интеллекта]], изучающий методы построения [[алгоритм]]ов, способных обучаться. Различают два типа обучения. ''Обучение по прецедентам'', или ''индуктивное обучение'', основано на выявлении закономерностей в [[выборка|эмпирических данных]]. ''Дедуктивное обучение'' предполагает формализацию знаний экспертов и их перенос в компьютер в виде [[база знаний|базы знаний]]. Дедуктивное обучение принято относить к области [[Экспертная система|экспертных систем]], поэтому термины ''машинное обучение'' и ''обучение по прецедентам'' можно считать синонимами.
-
Машинное обучение находится на стыке [[математическая статистика|математической статистики]], [[методы оптимизации|методов оптимизации]] и [[дискретная математика|дискретной математики]], но имеет также и собственную специфику, связанную с проблемами [[вычислительная эффективность|вычислительной эффективности]] и [[переобучение|переобучения]]. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с [[Извлечение информации|извлечением информации]], [[интеллектуальный анализ данных|интеллектуальным анализом данных]] (''Data Mining'').
+
''Машинное обучение'' находится на стыке [[математическая статистика|математической статистики]], [[методы оптимизации|методов оптимизации]] и классических математических дисциплин, но имеет также и собственную специфику, связанную с проблемами [[вычислительная эффективность|вычислительной эффективности]] и [[переобучение|переобучения]]. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с [[Извлечение информации|извлечением информации]], [[интеллектуальный анализ данных|интеллектуальным анализом данных]] (''Data Mining'').
 +
 
 +
''Машинное обучение'' — не только математическая, но и практическая, инженерная дисциплина. Чистая теория, как правило, не приводит сразу к методам и алгоритмам, применимым на практике. Чтобы заставить их хорошо работать, приходится изобретать дополнительные [[эвристика|эвристики]], компенсирующие несоотвествие сделанных в теории предположений условиям реальных задач. Практически ни одно исследование в ''машинном обучении'' не обходится без ''эксперимента'' на [[модельные данные|модельных]] или [[реальные данные|реальных]] данных, подтверждающего практическую работоспособность метода.
== Приложения ==
== Приложения ==
-
Целью машинного обучения является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности.
+
Целью ''машинного обучения'' является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности.
 +
''Машинное обучение'' имеет широкий спектр приложений:
 +
* [[:Категория:Приложения в биоинформатике]]
 +
* [[:Категория:Приложения в медицине]]
 +
** [[Медицинская диагностика]]
 +
* [[:Категория:Приложения в социологии]]
 +
* [[:Категория:Приложения в экономике]]
 +
** [[Кредитный скоринг]]
 +
** [[Предсказание ухода клиентов]]
 +
** [[Обнаружение мошенничества]]
 +
** [[Биржевой технический анализ]]
 +
** [[Финансовый надзор]]
 +
* [[:Категория:Приложения в технике]]
 +
** [[Техническая диагностика]]
 +
** [[Робототехника]]
 +
** [[Компьютерное зрение]]
 +
** [[Распознавание речи]]
 +
* [[:Категория:Приложения в офисной автоматизации]]
 +
** [[Распознавание текста]]
 +
** [[Обнаружение спама]]
 +
** [[Категоризация документов]]
 +
** [[Распознавание рукописного ввода]]
-
Машинное обучение имеет широкий спектр приложений:
+
Сфера применений ''машинного обучения'' постоянно расширяется. Повсеместная информатизация приводит к накоплению огромных объёмов данных в науке, производстве, бизнесе, транспорте, здравоохранении. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к обучению по прецедентам. Раньше, когда таких данных не было, эти задачи либо вообще не ставились, либо решались совершенно другими методами.
-
* [[Распознавание речи]]
+
-
* [[Распознавание изображений]]
+
-
* [[Распознавание рукописного ввода]]
+
-
* [[Техническая диагностика]]
+
-
* [[Медицинская диагностика]]
+
-
* [[Прогнозирование временных рядов]]
+
-
* [[Биоинформатика]]
+
-
* [[Обнаружение мошенничества]]
+
-
* [[Обнаружение спама]]
+
-
* [[Категоризация документов]]
+
-
* [[Биржевой технический анализ]]
+
-
* [[Финансовый надзор]]
+
-
* [[Кредитный скоринг]]
+
-
* [[Предсказание ухода клиентов]]
+
-
 
+
-
Сфера применений машинного обучения постоянно расширяется. Повсеместная информатизация приводит к накоплению огромных объёмов данных в науке, производстве, бизнесе, транспорте, здравоохранении. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к обучению по прецедентам. Раньше, когда таких данных не было, эти задачи либо вообще не ставились, либо решались совершенно другими методами.
+
== Общая постановка задачи обучения по прецедентам ==
== Общая постановка задачи обучения по прецедентам ==
-
Имеется множество ''объектов'' (ситуаций) и множество возможных ''ответов'' (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность ''прецедентов'' — пар «объект, ответ», называемая ''обучающей выборкой''. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится ''функционал качества''.
+
Дано конечное множество ''прецедентов'' (объектов, ситуаций), по каждому из которых собраны (измерены) некоторые ''данные''. Требуется по этим ''частным'' данным выявить ''общие'' зависимости, закономерности, взаимосвязи, присущие не только этим прецедентам, но вообще всем прецеденты, в том числе тем, которые ещё не наблюдались.
-
 
+
-
Данная постановка является обобщением классических задач [[аппроксимация|аппроксимации]] функций. В классических задачах аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могуть быть неполными, неточными, нечисловыми, разнородными. Эти особенности приводят к большому разнообразию методов машинного обучения.
+
== Типология задач обучения по прецедентам ==
== Типология задач обучения по прецедентам ==
 +
 +
<!-- непродумано, недописано
 +
=== По структуре исходных данных ===
 +
* [[Поиск ассоциативных правил]]
 +
* [[Коллаборативная фильтрация]]
=== Типы входных данных ===
=== Типы входных данных ===
Строка 47: Строка 57:
=== Типы функционалов качества ===
=== Типы функционалов качества ===
 +
-->
* [[Обучение с учителем]] — наиболее распространённый случай. Для каждого прецедента задаётся и объект, и ответ. Функционал качества определяется как средняя ошибка ответов. Предполагается, что искомый алгоритм должен его минимизировать.
* [[Обучение с учителем]] — наиболее распространённый случай. Для каждого прецедента задаётся и объект, и ответ. Функционал качества определяется как средняя ошибка ответов. Предполагается, что искомый алгоритм должен его минимизировать.

Версия 07:41, 26 марта 2008

Машинное обучение (Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

Машинное обучение находится на стыке математической статистики, методов оптимизации и классических математических дисциплин, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining).

Машинное обучение — не только математическая, но и практическая, инженерная дисциплина. Чистая теория, как правило, не приводит сразу к методам и алгоритмам, применимым на практике. Чтобы заставить их хорошо работать, приходится изобретать дополнительные эвристики, компенсирующие несоотвествие сделанных в теории предположений условиям реальных задач. Практически ни одно исследование в машинном обучении не обходится без эксперимента на модельных или реальных данных, подтверждающего практическую работоспособность метода.

Содержание

Приложения

Целью машинного обучения является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности. Машинное обучение имеет широкий спектр приложений:

Сфера применений машинного обучения постоянно расширяется. Повсеместная информатизация приводит к накоплению огромных объёмов данных в науке, производстве, бизнесе, транспорте, здравоохранении. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к обучению по прецедентам. Раньше, когда таких данных не было, эти задачи либо вообще не ставились, либо решались совершенно другими методами.

Общая постановка задачи обучения по прецедентам

Дано конечное множество прецедентов (объектов, ситуаций), по каждому из которых собраны (измерены) некоторые данные. Требуется по этим частным данным выявить общие зависимости, закономерности, взаимосвязи, присущие не только этим прецедентам, но вообще всем прецеденты, в том числе тем, которые ещё не наблюдались.

Типология задач обучения по прецедентам

  • Обучение с учителем — наиболее распространённый случай. Для каждого прецедента задаётся и объект, и ответ. Функционал качества определяется как средняя ошибка ответов. Предполагается, что искомый алгоритм должен его минимизировать.
  • Обучение без учителя, в частности, кластеризация. Для каждого прецедента задаётся только объект. Требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов. Функционалы качества могут определяться по-разному, например, как отношение средних межкластерных и внутрикластерных расстояний.
  • Обучение с подкреплением. Роль объектов играют пары «ситуация, принятое решение», ответами являются значения функционала качества, характеризующего правильность принятых решений (реакцию среды). Данный подход используется при самообучении роботов.
  • Активное обучение отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующий объект, на котором станет известен верный ответ. См. также Планирование экспериментов.

Методы

Использованная литература

  1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  2. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
  3. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  4. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  5. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  6. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  7. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
  8. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
  9. Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.
  10. Schölkopf B., Smola A.J. Learning with Kernels. Support Vector Machines, Regularization, Optimization, and Beyond. — MIT Press, Cambridge, MA, 2002 ISBN 13-978-0-262-19475-4 [1]
  11. Vapnik V.N. Statistical learning theory. — N.Y.: John Wiley & Sons, Inc., 1998. [2]
  12. Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). - Morgan Kaufmann, 2005 ISBN 0-12-088407-0 [3]

Курсы лекций

Личные инструменты