Частичное обучение

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 5: Строка 5:
Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных.
Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных.
Частичное обучение является компромисом между [[обучение без учителя|обучением без учителя]] (без каких-либо размеченных обучающих данных) и [[обучение с учителем|обучением с учителем]] (с полностью размеченным набором обучения).
Частичное обучение является компромисом между [[обучение без учителя|обучением без учителя]] (без каких-либо размеченных обучающих данных) и [[обучение с учителем|обучением с учителем]] (с полностью размеченным набором обучения).
-
Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост точности обучения.
+
Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост качества обучения.
 +
Под качеством обучения подразумевается некий функционал качества, например, среднеквадратичная ошибка.
Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения.
Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения.
Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог.
Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог.
В подобных ситуациях ценность частичного обучения сложно переоценить.
В подобных ситуациях ценность частичного обучения сложно переоценить.
-
Примером частичного обучения может послужить сообучение: два или более обучаемых используют один и тот же набор данных, но каждый при обучении использует различные — в идеале независимые — наборы признаков объектов.
+
Примером частичного обучения может послужить сообучение: два или более обучаемых алгоритма используют один и тот же набор данных, но каждый при обучении использует различные — в идеале некоррелированные — наборы признаков объектов.
-
Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения модели максимального правдоподобия обычно используется [[EM-алгоритм]].
+
Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения оценки максимального правдоподобия обычно используется [[EM-алгоритм]].
-
== Смотри также ==
+
== См. также ==
* [[Трансдуктивное обучение]]
* [[Трансдуктивное обучение]]
* [http://en.wikipedia.org/wiki/Constrained_clustering Constrained clustering]
* [http://en.wikipedia.org/wiki/Constrained_clustering Constrained clustering]

Версия 21:00, 5 ноября 2008

Частичное обучение (semi-supervised lerning) — один из методов машинного обучения, использующий при обучении как размеченные, так и неразмеченные данные.


Статья нуждается в переработке. См. обсуждение.


Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных. Частичное обучение является компромисом между обучением без учителя (без каких-либо размеченных обучающих данных) и обучением с учителем (с полностью размеченным набором обучения). Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост качества обучения. Под качеством обучения подразумевается некий функционал качества, например, среднеквадратичная ошибка. Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения. Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог. В подобных ситуациях ценность частичного обучения сложно переоценить.

Примером частичного обучения может послужить сообучение: два или более обучаемых алгоритма используют один и тот же набор данных, но каждый при обучении использует различные — в идеале некоррелированные — наборы признаков объектов.

Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения оценки максимального правдоподобия обычно используется EM-алгоритм.

См. также

Ссылки

Wikipedia: Semi-supervised learning

Категории

Личные инструменты