Частичное обучение
Материал из MachineLearning.
Строка 5: | Строка 5: | ||
Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных. | Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных. | ||
Частичное обучение является компромисом между [[обучение без учителя|обучением без учителя]] (без каких-либо размеченных обучающих данных) и [[обучение с учителем|обучением с учителем]] (с полностью размеченным набором обучения). | Частичное обучение является компромисом между [[обучение без учителя|обучением без учителя]] (без каких-либо размеченных обучающих данных) и [[обучение с учителем|обучением с учителем]] (с полностью размеченным набором обучения). | ||
- | Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост | + | Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост качества обучения. |
+ | Под качеством обучения подразумевается некий функционал качества, например, среднеквадратичная ошибка. | ||
Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения. | Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения. | ||
Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог. | Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог. | ||
В подобных ситуациях ценность частичного обучения сложно переоценить. | В подобных ситуациях ценность частичного обучения сложно переоценить. | ||
- | Примером частичного обучения может послужить сообучение: два или более обучаемых используют один и тот же набор данных, но каждый при обучении использует различные — в идеале | + | Примером частичного обучения может послужить сообучение: два или более обучаемых алгоритма используют один и тот же набор данных, но каждый при обучении использует различные — в идеале некоррелированные — наборы признаков объектов. |
- | Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения | + | Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения оценки максимального правдоподобия обычно используется [[EM-алгоритм]]. |
- | == | + | == См. также == |
* [[Трансдуктивное обучение]] | * [[Трансдуктивное обучение]] | ||
* [http://en.wikipedia.org/wiki/Constrained_clustering Constrained clustering] | * [http://en.wikipedia.org/wiki/Constrained_clustering Constrained clustering] |
Версия 21:00, 5 ноября 2008
Частичное обучение (semi-supervised lerning) — один из методов машинного обучения, использующий при обучении как размеченные, так и неразмеченные данные.
Статья нуждается в переработке. См. обсуждение. |
Обычно используется небольшое количество размеченных и значительный объём неразмеченных данных. Частичное обучение является компромисом между обучением без учителя (без каких-либо размеченных обучающих данных) и обучением с учителем (с полностью размеченным набором обучения). Было замечено, что неразмеченные данные, будучи использованными совместно с небольшим количеством размеченных данных, могут обеспечить значительный прирост качества обучения. Под качеством обучения подразумевается некий функционал качества, например, среднеквадратичная ошибка. Сбор размеченных данных для задачи обучения зачастую требует, чтобы квалифицированный эксперт вручную классифицировал объекты обучения. Затраты, связанные с процессом разметки, могут сделать построение полностью размеченного набора прецедентов невозможным, в то время как сбор неразмеченных данных сравнительно недорог. В подобных ситуациях ценность частичного обучения сложно переоценить.
Примером частичного обучения может послужить сообучение: два или более обучаемых алгоритма используют один и тот же набор данных, но каждый при обучении использует различные — в идеале некоррелированные — наборы признаков объектов.
Альтернативный подход заключается в моделировании совместного распределения признаков и меток. В таком случае для неразмеченых данных метки могут трактоваться как пропущенные данные. Для построения оценки максимального правдоподобия обычно используется EM-алгоритм.
См. также
Ссылки
Wikipedia: Semi-supervised learning