Обучение без учителя

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Обучение без учителя (Unsupervised learning) — один из разделов машинного обучения. Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.

Типология задач обучения без учителя

Типы входных данных

Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

Типы задач обучения без учителя

Задачи кластеризации

Выборка объектов разбивается на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний.

Методы решения

Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии (относящихся к категории обучения с учителем). Идея заключается в том, чтобы сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод, например, приблизить целевую зависимость константой.

Методы решения

Задачи поиска правил ассоциации

Исходная информация представляется в виде признаковых описаний. Задача состоит в том, чтобы найти такие наборы признаков, и такие значения этих признаков, которые особенно часто (неслучайно часто) встречаются в признаковых описаниях объектов.

Методы решения

Анализ рыночных корзин

Задача восполнения пропущенных данных

Исходная информация представляется в виде признаковых описаний. Значения некоторых признаков для некоторых объектов могут отсутствовать. Такие случаи часто возникают на практике. Например, экспериментатор может не записать результат наблюдения; респондент может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и т. д. Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. Для заполнения отсутствующих значений часто применяют следующий подход. Считая данный признак целевым, строят алгоритм, прогнозирующий его значение в зависимости от других признаков. Пропущенные значения заполняют прогнозами. Эта операция проделывается со всеми признаками, имеющими пропущенные значения. Данная задача решается методами обучения с учителем:

если признак количественный, применяются методы восстановления регрессии;
если признак качественный (номинальный), применяются методы классификации.

Задачи сокращения размерности

Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим. Задача состоит в том, чтобы представить эти данные в пространстве меньшей размерности, по возможности, минимизировав потери информации.

Методы решения

Задачи визуализации данных

Некоторые методы кластеризации и снижения размерности строят представления выборки в пространстве размерности два. Это позволяет отображать многомерные данные в виде плоских графиков и анализировать их визуально, что способствует лучшему пониманию данных и самой сути решаемой задачи.

Методы решения

Некоторые приложения

Социологические исследования: формирование представительных подвыборок при организации социологических опросов.
Маркетинговые исследования: разбиение множества всех клиентов на кластеры для выявления типичных предпочтений.
Анализ рыночных корзин: выявление сочетаний товаров, часто встречающихся вместе в покупках клиентов.

Литература

Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Категории

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B5%D0%B7_%D1%83%D1%87%D0%B8%D1%82%D0%B5%D0%BB%D1%8F»

Категории: Машинное обучение | Энциклопедия анализа данных

@@ Строка 1: / Строка 1: @@
-'''Обучение без учителя''' (Unsupervised learning) —
+'''Обучение без учителя''' (Unsupervised learning) — один из разделов [[машинное обучение|машинного обучения]]. Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
-один из разделов [[машинное обучение|машинного обучения]].
-Изучает широкий класс задач обработки данных, в которых
-известны только описания множества объектов (обучающей выборки),
-и требуется обнаружить внутренние
-взаимосвязи, зависимости, закономерности, существующие между объектами.
-Обучение без учителя часто противопоставляется
+Обучение без учителя часто противопоставляется [[обучение с учителем|обучению с учителем]], когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.
-[[обучение с учителем|обучению с учителем]],
-когда для каждого обучающего объекта задаётся «правильный ответ»,
-и требуется найти зависимость между объектами и ответами.
 == Типология задач обучения без учителя ==
@@ Строка 22: / Строка 14: @@
 * [[Кластеризация]]
 * [[Поиск правил ассоциации]]
-* [[Пропущенные данные|Восполнение пропущенных данных]]
+* [[Заполнение пропущенных значений]]
 * [[Сокращение размерности]]
 * [[Визуализация данных]]
@@ Строка 28: / Строка 20: @@
 === Задачи кластеризации ===
-Выборка объектов разбивается на непересекающиеся подмножества,
+Выборка объектов разбивается на непересекающиеся подмножества, называемые [[кластер]]ами, так, чтобы каждый кластер состоял из схожих объектов,
-называемые [[кластер]]ами, так, чтобы
+а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний.
-каждый кластер состоял из схожих объектов,
-а объекты разных кластеров существенно отличались.
-Исходная информация представляется в виде матрицы расстояний.
 ;Методы решения:
@@ Строка 40: / Строка 29: @@
 * [[Нейронная сеть Кохонена]]
-Кластеризация может играть вспомогательную роль
+Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии (относящихся к категории ''обучения с учителем'').
-при решении задач классификации и регрессии
+Идея заключается в том, чтобы сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод,
-(относящихся к категории ''обучения с учителем'').
-Идея заключается в том, чтобы сначала разбить выборку на кластеры,
-затем к каждому кластеру применить какой-нибудь совсем простой метод,
 например, приблизить ''целевую зависимость'' константой.
@@ Строка 63: / Строка 49: @@
 === Задача восполнения пропущенных данных ===
-Исходная информация представляется в виде признаковых описаний.
+Исходная информация представляется в виде [[признак]]овых описаний. Значения некоторых признаков для некоторых [[объект]]ов могут отсутствовать. Такие случаи часто возникают на практике. Например, экспериментатор может не записать результат наблюдения; [[респондент]] может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и&nbsp;т.&nbsp;д. Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. Для заполнения отсутствующих значений часто применяют следующий подход. Считая данный признак целевым, строят [[алгоритм]], прогнозирующий его значение в зависимости от других признаков. Пропущенные значения заполняют прогнозами.
-Значения некоторых признаков для некоторых объектов могут отсутствовать.
+Эта операция проделывается со всеми признаками, имеющими пропущенные значения. Данная задача решается методами [[обучение с учителем|обучения с учителем]]:
-Такие случаи часто возникают на практике.
+* если признак количественный, применяются методы [[регрессия|восстановления регрессии]];
-Например, экпериментатор может не записать результат наблюдения; [[респондент]] может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и&nbsp;т.&nbsp;д.
+* если признак качественный (номинальный), применяются методы [[классификация|классификации]].
-Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью.
-Для заполнения отсутствующих значений часто применяют следующий подход.
-Считая данный признак целевым, строят алгоритм, прогнозирующий его значение в зависимости от других признаков.
-Пропущенные значения заполняют прогнозами.
-Эта операция проделывается со всеми признаками, имеющими пропущенные значения.
-Данная задача решается методами [[обучение с учителем|обучения с учителем]]:
-если признак количественный, приеняются методы [[регрессия|восстановления регрессии]];
-если признак качественный (номинальный), приеняются методы [[классификация|классификации]].
 === Задачи сокращения размерности ===
 Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим.
-Задача состоит в том, чтобы
+Задача состоит в том, чтобы представить эти данные в пространстве меньшей размерности, по возможности, минимизировав потери информации.
-представить эти данные в пространстве меньшей размерности,
-по возможности, минимизировав потери информации.
 ;Методы решения:
@@ Строка 97: / Строка 73: @@
 * [[Дендрограмма]]
 * [[Нейронная сеть Кохонена|Самоорганизующаяся карта Кохонена]]
+* [[Нейронная сеть Кохонена|Упругие карты]]
 * [[Карта сходства]]
@@ Строка 107: / Строка 84: @@
 == Литература ==
-# ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
+# ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
-# ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
+# ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
-# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
+# ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
-# ''Журавлев Ю. И., Рязанов В. В., Сенько О. В.'' «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
+# ''Журавлев Ю. И., Рязанов В. В., Сенько О. В.'' «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
-# ''Загоруйко Н. Г.'' Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
+# ''Загоруйко Н. Г.'' Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
-# ''Мандель И. Д.'' Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
+# {{книга
-# ''Шлезингер М., Главач В.'' Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
+|автор = Зиновьев А. Ю.
-# ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
+|заглавие = Визуализация многомерных данных
+|ссылка = http://pca.narod.ru/ZINANN.htm
+|место = Красноярск
+|издательство = Изд. Красноярского государственного технического университета
+|год = 2000
+|страниц = 180
+}}
+# ''Мандель И. Д.'' Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
+# ''Шлезингер М., Главач В.'' Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
+# ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
 == Категории ==
 [[Категория:Машинное обучение]]
 [[Категория:Энциклопедия анализа данных]]