Обучение без учителя
Материал из MachineLearning.
м |
(→Типы задач обучения без учителя: уточнение) |
||
(5 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | '''Обучение без учителя''' (Unsupervised learning) | + | '''Обучение без учителя''' (Unsupervised learning) — один из разделов [[машинное обучение|машинного обучения]]. Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами. |
- | один из разделов [[машинное обучение|машинного обучения]]. | + | |
- | Изучает широкий класс задач обработки данных, в которых | + | |
- | известны только описания множества объектов (обучающей выборки), | + | |
- | и требуется обнаружить внутренние | + | |
- | взаимосвязи, зависимости, закономерности, существующие между объектами. | + | |
- | Обучение без учителя часто противопоставляется | + | Обучение без учителя часто противопоставляется [[обучение с учителем|обучению с учителем]], когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами. |
- | [[обучение с учителем|обучению с учителем]], | + | |
- | когда для каждого обучающего объекта задаётся «правильный ответ», | + | |
- | и требуется найти зависимость между объектами и ответами. | + | |
== Типология задач обучения без учителя == | == Типология задач обучения без учителя == | ||
Строка 22: | Строка 14: | ||
* [[Кластеризация]] | * [[Кластеризация]] | ||
* [[Поиск правил ассоциации]] | * [[Поиск правил ассоциации]] | ||
- | * [[ | + | * [[Заполнение пропущенных значений]] |
* [[Сокращение размерности]] | * [[Сокращение размерности]] | ||
* [[Визуализация данных]] | * [[Визуализация данных]] | ||
Строка 28: | Строка 20: | ||
=== Задачи кластеризации === | === Задачи кластеризации === | ||
- | Выборка объектов разбивается на непересекающиеся подмножества, | + | Выборка объектов разбивается на непересекающиеся подмножества, называемые [[кластер]]ами, так, чтобы каждый кластер состоял из схожих объектов, |
- | называемые [[кластер]]ами, так, чтобы | + | а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний. |
- | каждый кластер состоял из схожих объектов, | + | |
- | а объекты разных кластеров существенно отличались. | + | |
- | Исходная информация представляется в виде матрицы расстояний. | + | |
;Методы решения: | ;Методы решения: | ||
Строка 40: | Строка 29: | ||
* [[Нейронная сеть Кохонена]] | * [[Нейронная сеть Кохонена]] | ||
- | Кластеризация может играть вспомогательную роль | + | Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии (относящихся к категории ''обучения с учителем''). |
- | при решении задач классификации и регрессии | + | Идея заключается в том, чтобы сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод, |
- | (относящихся к категории ''обучения с учителем''). | + | |
- | Идея заключается в том, чтобы сначала разбить выборку на кластеры, | + | |
- | затем к каждому кластеру применить какой-нибудь совсем простой метод, | + | |
например, приблизить ''целевую зависимость'' константой. | например, приблизить ''целевую зависимость'' константой. | ||
Строка 63: | Строка 49: | ||
=== Задача восполнения пропущенных данных === | === Задача восполнения пропущенных данных === | ||
- | Исходная информация представляется в виде | + | Исходная информация представляется в виде [[признак]]овых описаний. Значения некоторых признаков для некоторых [[объект]]ов могут отсутствовать. Такие случаи часто возникают на практике. Например, экспериментатор может не записать результат наблюдения; [[респондент]] может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и т. д. Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. Для заполнения отсутствующих значений часто применяют следующий подход. Считая данный признак целевым, строят [[алгоритм]], прогнозирующий его значение в зависимости от других признаков. Пропущенные значения заполняют прогнозами. |
- | Значения некоторых признаков для некоторых | + | Эта операция проделывается со всеми признаками, имеющими пропущенные значения. Данная задача решается методами [[обучение с учителем|обучения с учителем]]: |
- | Такие случаи часто возникают на практике. | + | * если признак количественный, применяются методы [[регрессия|восстановления регрессии]]; |
- | Например, | + | * если признак качественный (номинальный), применяются методы [[классификация|классификации]]. |
- | Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. | + | |
- | Для заполнения отсутствующих значений часто применяют следующий подход. | + | |
- | Считая данный признак целевым, строят алгоритм, прогнозирующий его значение в зависимости от других признаков. | + | |
- | Пропущенные значения заполняют прогнозами. | + | |
- | Эта операция проделывается со всеми признаками, имеющими пропущенные значения. | + | |
- | Данная задача решается методами [[обучение с учителем|обучения с учителем]]: | + | |
- | если признак количественный, | + | |
- | если признак качественный (номинальный), | + | |
=== Задачи сокращения размерности === | === Задачи сокращения размерности === | ||
Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим. | Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим. | ||
- | Задача состоит в том, чтобы | + | Задача состоит в том, чтобы представить эти данные в пространстве меньшей размерности, по возможности, минимизировав потери информации. |
- | представить эти данные в пространстве меньшей размерности, | + | |
- | по возможности, минимизировав потери информации. | + | |
;Методы решения: | ;Методы решения: | ||
Строка 96: | Строка 72: | ||
;Методы решения: | ;Методы решения: | ||
* [[Дендрограмма]] | * [[Дендрограмма]] | ||
- | * [[Самоорганизующаяся карта Кохонена]] | + | * [[Нейронная сеть Кохонена|Самоорганизующаяся карта Кохонена]] |
+ | * [[Нейронная сеть Кохонена|Упругие карты]] | ||
* [[Карта сходства]] | * [[Карта сходства]] | ||
Строка 107: | Строка 84: | ||
== Литература == | == Литература == | ||
- | # ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: основы моделирования и первичная обработка данных. | + | # ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. |
- | # ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: исследование зависимостей. | + | # ''Айвазян С. А., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985. |
- | # ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. | + | # ''Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.'' Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. |
- | # ''Журавлев Ю. И., Рязанов В. В., Сенько О. В.'' «Распознавание». Математические методы. Программная система. Практические применения. | + | # ''Журавлев Ю. И., Рязанов В. В., Сенько О. В.'' «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8. |
- | # ''Загоруйко Н. Г.'' Прикладные методы анализа данных и знаний. | + | # ''Загоруйко Н. Г.'' Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9. |
- | # ''Мандель И. Д.'' Кластерный анализ. | + | # {{книга |
- | # ''Шлезингер М., Главач В.'' Десять лекций по статистическому и структурному распознаванию. | + | |автор = Зиновьев А. Ю. |
- | # ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. | + | |заглавие = Визуализация многомерных данных |
+ | |ссылка = http://pca.narod.ru/ZINANN.htm | ||
+ | |место = Красноярск | ||
+ | |издательство = Изд. Красноярского государственного технического университета | ||
+ | |год = 2000 | ||
+ | |страниц = 180 | ||
+ | }} | ||
+ | # ''Мандель И. Д.'' Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7. | ||
+ | # ''Шлезингер М., Главач В.'' Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2. | ||
+ | # ''Hastie T., Tibshirani R., Friedman J.'' The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5. | ||
== Категории == | == Категории == | ||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
[[Категория:Энциклопедия анализа данных]] | [[Категория:Энциклопедия анализа данных]] |
Текущая версия
Обучение без учителя (Unsupervised learning) — один из разделов машинного обучения. Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.
Содержание |
Типология задач обучения без учителя
Типы входных данных
- Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
- Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
Типы задач обучения без учителя
- Кластеризация
- Поиск правил ассоциации
- Заполнение пропущенных значений
- Сокращение размерности
- Визуализация данных
Задачи кластеризации
Выборка объектов разбивается на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний.
- Методы решения
- Графовые алгоритмы кластеризации
- Статистические алгоритмы кластеризации
- Иерархическая кластеризация или таксономия
- Нейронная сеть Кохонена
Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии (относящихся к категории обучения с учителем). Идея заключается в том, чтобы сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод, например, приблизить целевую зависимость константой.
- Методы решения
Задачи поиска правил ассоциации
Исходная информация представляется в виде признаковых описаний. Задача состоит в том, чтобы найти такие наборы признаков, и такие значения этих признаков, которые особенно часто (неслучайно часто) встречаются в признаковых описаниях объектов.
- Методы решения
Задача восполнения пропущенных данных
Исходная информация представляется в виде признаковых описаний. Значения некоторых признаков для некоторых объектов могут отсутствовать. Такие случаи часто возникают на практике. Например, экспериментатор может не записать результат наблюдения; респондент может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и т. д. Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. Для заполнения отсутствующих значений часто применяют следующий подход. Считая данный признак целевым, строят алгоритм, прогнозирующий его значение в зависимости от других признаков. Пропущенные значения заполняют прогнозами. Эта операция проделывается со всеми признаками, имеющими пропущенные значения. Данная задача решается методами обучения с учителем:
- если признак количественный, применяются методы восстановления регрессии;
- если признак качественный (номинальный), применяются методы классификации.
Задачи сокращения размерности
Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим. Задача состоит в том, чтобы представить эти данные в пространстве меньшей размерности, по возможности, минимизировав потери информации.
- Методы решения
Задачи визуализации данных
Некоторые методы кластеризации и снижения размерности строят представления выборки в пространстве размерности два. Это позволяет отображать многомерные данные в виде плоских графиков и анализировать их визуально, что способствует лучшему пониманию данных и самой сути решаемой задачи.
- Методы решения
Некоторые приложения
- Социологические исследования: формирование представительных подвыборок при организации социологических опросов.
- Маркетинговые исследования: разбиение множества всех клиентов на кластеры для выявления типичных предпочтений.
- Анализ рыночных корзин: выявление сочетаний товаров, часто встречающихся вместе в покупках клиентов.
Литература
- Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
- Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
- Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
- Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
- Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.