Трансдуктивное обучение

Материал из MachineLearning.

(Различия между версиями)

Версия 18:30, 4 ноября 2008

Трансдуктивное обучение

В отличии от индукции, являющейся рассуждением от частного (наблюдаемых объектов обучения) к общему (закономерностям общего характера), трансдукцией называют выводы о частных случаях (тестовых данных) на основании частных случаев (данных обучения). Различия между этими методами построения выводов особенно интересны, когда прогноз, полученный с помощью трансдуктивной модели, невозможно получить, используя модель индуктивную. Заметим, что подобные ситуации возникают, когда в результате трансдутивного вывода на различных тестовых наборах получаются взаимно противоречивые прогнозы.

Понятие трансдукции было введено Владимиром Вапником в девяностых годах двадцатого века. По мнению Вапника трансдукция может быть отнесена к индукции, поскольку индукция требует решения общей задачи (восстановления функции) перед решением задачи более конкретной (вычисление результатов для новых объектов): «Решая интересующую Вас задачу, не стоит решать более общую задачу на промежуточном шаге. Постарайтесь получить ответ, который Вам действительно нужен, а не более общий.»

Примером обучения, не являющегося индуктивным, может быть случай двоичной классификации, в котором входные данные склонны разделяться на две группы. Большой объём контрольных данных может помочь в поиске кластеров, давая полезную информацию о метках классов. Те же выводы не могут быть достигнуты с помощью модели, восстанавливающей функцию лишь на основании обучающей выборки. Может показаться, что это пример тесно связанного с трансдукцией частичного обучения, но у Вапника была несколько иная мотивация. Примером алгоритма этой категории может послужить трансдуктивная машина опорных векторов (Transductive Support Vector Machine, TSVM).

Третья возможная причина, ведущая к трансдукции, возникает при необходимости в приближении. Если построение точного ответа вычислительно невозможно, то можно по крайней мере попытаться убедиться в том, что приближения хороши на тестовых данных. В этом случае тестовые данные могут иметь произвольное распределение (необязательно связанное с распределением обучающих данных), что недопустимо в случае частичного обучения. Примером алгоритма, подпадающего под эту категорию, может является Машина Байесовых Комитетов (Bayesian Committee Machine, BCM).