Обучаемая векторизация данных
Материал из MachineLearning.
(→Информативность) |
(→Желательные свойства представления) |
||
| Строка 189: | Строка 189: | ||
Не существует единственного представления, оптимального для всех задач. Его качество определяется целью, для которой оно строится. | Не существует единственного представления, оптимального для всех задач. Его качество определяется целью, для которой оно строится. | ||
| - | + | === Информативность === | |
Представление должно сохранять сведения, необходимые для решения целевой задачи. | Представление должно сохранять сведения, необходимые для решения целевой задачи. | ||
Версия 15:42, 1 июля 2026
Обучаемая векторизация данных (англ. representation learning, learning representations) — построение параметрического отображения, которое преобразует исходный объект в числовое признаковое представление и настраивается по данным вместе с решением прикладной задачи.
Пусть объект может быть изображением, текстом, звуковым сигналом, графом или другим сложно структурированным объектом. Обучаемая векторизация задаётся отображением
где — обучаемые параметры, а
— векторное представление объекта.
Поверх полученного представления строится модель
решающая задачу классификации, регрессии, ранжирования, генерации или поиска. Полная модель имеет вид
В классическом машинном обучении признаки часто задаются человеком заранее. При обучаемой векторизации параметры преобразования определяются автоматически из данных. Благодаря этому модель может самостоятельно находить признаки, полезные для заданного критерия качества.
Векторизация и признаковое описание
Большинство алгоритмов машинного обучения работают не непосредственно с объектами реального мира, а с их числовыми описаниями.
Объекту ставится в соответствие набор признаков:
Например, изображение можно описать яркостью пикселей, контурами, цветовыми гистограммами или геометрическими характеристиками. Документ можно описать частотами слов, а вершину графа — свойствами самой вершины и её соседей.
Такое преобразование называют векторизацией. Однако следует различать два случая.
Фиксированная векторизация задаётся до обучения основной модели:
Параметры классификатора или регрессии обучаются, но само описание остаётся неизменным.
Обучаемая векторизация содержит параметры:
Эти параметры настраиваются по данным. Изменение функции потерь влияет не только на итоговый классификатор, но и на то, какие признаки будут выделяться из исходного объекта.
Обучаемая векторизация не обязательно уменьшает размерность данных. Пространство представлений может иметь меньшую, равную или большую размерность по сравнению с исходным описанием. Существенно не число координат само по себе, а информация, которую они кодируют.
Классический и сквозной подходы
Классический конвейер распознавания можно представить в виде последовательности:
где преобразование разрабатывается отдельно от модели
.
Например, система распознавания изображений могла включать:
- удаление шума;
- выделение контуров;
- поиск характерных точек;
- вычисление геометрических дескрипторов;
- обучение классификатора по полученным признакам.
Каждый этап создавался и настраивался отдельно. Такой подход позволяет явно использовать знания предметной области, но качество всей системы существенно зависит от того, насколько удачно были выбраны признаки.
В глубоком обучении часто применяется сквозная, или end-to-end, схема:
Параметры всех этапов оптимизируются по единой функции потерь:
Здесь — функция потерь,
— регуляризатор, а
— коэффициент регуляризации.
Сквозное обучение не означает полного отсутствия предварительной обработки или априорных предположений. Они переносятся в архитектуру сети, способ разбиения данных, функцию потерь, аугментации и другие элементы процедуры обучения.
Например, свёрточная архитектура заранее предполагает, что локальные закономерности могут встречаться в разных частях изображения. Поэтому обучаемая векторизация не устраняет инженерные решения, а изменяет их уровень: вместо ручного задания конкретных признаков исследователь задаёт структуру пространства, в котором эти признаки будут обучаться.
Обучаемое представление в нейронной сети
Пусть полносвязная нейронная сеть состоит из слоёв:
Каждый промежуточный вектор является новым представлением исходного объекта. Его координаты вычисляются не вручную, а определяются весами
, смещениями
и функциями активации
.
Например, представлением объекта перед выходным классификатором может служить
Тогда последний слой выполняет сравнительно простое преобразование:
При обучении ошибка выхода распространяется через все слои методом обратного распространения ошибки. Градиент по параметрам векторизатора имеет вид
Таким образом, признаки изменяются в направлении, уменьшающем ошибку итоговой задачи.
Почему промежуточное представление полезно
Исходное пространство данных может быть неудобным для построения простой модели.
Например, два изображения одного объекта могут существенно различаться по значениям пикселей из-за:
- сдвига;
- поворота;
- освещения;
- масштаба;
- фона;
- положения камеры.
В пространстве пикселей расстояние между ними может быть большим. Задача векторизатора состоит в том, чтобы преобразовать их в представления, в которых значимые для задачи свойства становятся более доступными.
После преобразования сложная зависимость
может приближённо сводиться к более простой зависимости
Например, классы, не разделимые линейной поверхностью в исходном пространстве, могут стать линейно разделимыми в пространстве обученных представлений.
Следовательно, глубокая модель обучает не только правило принятия решения. Она одновременно обучает систему координат, в которой это решение становится проще.
Иерархия представлений
Глубокая нейронная сеть строит последовательность представлений:
Каждый слой использует признаки предыдущего слоя и создаёт признаки следующего уровня.
В задачах обработки изображений ранние слои свёрточных сетей часто реагируют на локальные изменения яркости, края и текстуры. Более поздние слои могут кодировать сочетания частей объектов и признаки, непосредственно связанные с целевыми классами.
Это описание не является строгим законом. Конкретный смысл координат зависит от архитектуры, данных, функции потерь и способа обучения. Нельзя автоматически считать, что каждый следующий слой соответствует более «абстрактному» человеческому понятию.
Тем не менее композиционная структура даёт сети возможность многократно преобразовывать данные и повторно использовать ранее найденные закономерности.
Связь с глубиной нейронной сети
Теоремы об универсальной аппроксимации показывают, что сеть с одним скрытым слоем и достаточным числом нейронов может приближать широкий класс функций. Однако из этого не следует, что неглубокая сеть всегда является вычислительно эффективной или легко обучаемой.
Глубокая сеть может представлять функцию как композицию более простых преобразований:
Если структура задачи также является композиционной, такое представление может потребовать меньше параметров, чем попытка выразить всю зависимость одним широким слоем.
Глубина важна не только как способ увеличить число параметров. Она задаёт число последовательных этапов преобразования представлений.
При этом увеличение глубины само по себе не гарантирует хорошего результата. Слишком глубокая или плохо спроектированная сеть может испытывать затухание градиентов, численную неустойчивость и переобучение. Для обучения глубоких представлений применяются функции активации ReLU, нормализация, остаточные связи, подходящая инициализация и регуляризация.
Желательные свойства представления
Не существует единственного представления, оптимального для всех задач. Его качество определяется целью, для которой оно строится.
Информативность
Представление должно сохранять сведения, необходимые для решения целевой задачи.
В идеальном случае условное распределение ответа после векторизации почти не теряет информации:
При этом представление может удалять свойства объекта, не влияющие на ответ.
Компактность
Полезная информация должна быть выражена сравнительно небольшим числом координат или простой структурой зависимостей.
Компактность облегчает обучение последующих моделей, хранение представлений и поиск похожих объектов. Однако чрезмерное сжатие может удалить важную информацию.
Инвариантность
Если преобразование объекта не меняет его смысл для задачи, желательно, чтобы представление изменялось мало:
Для классификации изображений такими преобразованиями могут быть небольшие изменения освещения или положения объекта.
Инвариантность полезна только относительно действительно несущественных изменений. Если направление объекта или порядок слов влияют на ответ, удаление этой информации ухудшит модель.
Эквивариантность
Иногда требуется не игнорировать преобразование, а предсказуемо отражать его в представлении:
Например, при сдвиге изображения пространственная карта признаков может сдвигаться соответствующим образом. Такое свойство называется эквивариантностью.
Разделимость
Объекты разных классов должны быть различимы, а близкие по смыслу объекты — иметь близкие представления.
Для линейного классификатора полезно, чтобы целевые классы становились линейно разделимыми в пространстве .
Устойчивость
Небольшое допустимое изменение входа не должно вызывать неконтролируемого скачка представления:
Это требование зависит от выбранного понятия близости. Два изображения могут быть близкими по пикселям, но иметь различный смысл, либо сильно различаться по пикселям и изображать один объект.
Переносимость
Представление считается переносимым, если оно полезно не только для задачи, на которой обучалось, но и для новых задач.
Переносимость особенно важна при предварительном обучении крупных моделей на больших наборах данных с последующим дообучением на небольших специализированных выборках.
Способы обучения представлений
Обучение с учителем
При обучении с учителем векторизатор настраивается по известным ответам :
Такое представление обычно хорошо приспособлено к конкретной целевой переменной. Однако оно может удалять сведения, которые не нужны данной задаче, но могли бы быть полезны в других задачах.
Например, сеть для различения кошек и собак может не сохранять информацию о породе, возрасте или фоне изображения.
Автокодирование
Автокодировщик состоит из кодировщика
и декодировщика
Параметры обучаются восстанавливать вход:
Если пространство ограничено или к модели добавлена регуляризация, кодировщик вынужден выделять устойчивые закономерности данных.
Простое копирование входа не создаёт полезного представления. Поэтому применяются узкие скрытые слои, шум во входных данных, разреживание, вероятностные ограничения и другие способы предотвращения тривиального решения.
Самостоятельное обучение
При самостоятельном обучении целевые ответы строятся автоматически из самих данных.
Примеры вспомогательных задач:
- восстановление скрытых частей объекта;
- предсказание следующего элемента последовательности;
- предсказание контекста слова;
- определение взаимного расположения фрагментов;
- восстановление одной модальности по другой;
- сравнение различных преобразований одного объекта.
Такое обучение позволяет использовать большие объёмы неразмеченных данных. Полученный векторизатор затем применяется в задачах с небольшим числом размеченных примеров.
Контрастивное обучение
В контрастивном обучении задаются положительные и отрицательные пары.
Положительная пара содержит разные представления одного объекта или семантически связанных объектов. Отрицательная пара содержит объекты, которые требуется различать.
Один из вариантов контрастивной функции потерь имеет вид
где — мера сходства,
— температурный параметр,
— положительный пример, а
— отрицательные примеры.
Критически важным является способ формирования пар. Если две аугментации одного изображения считаются положительной парой, модель обучается быть инвариантной к этим аугментациям.
Следовательно, выбор преобразований фактически определяет, какие свойства объекта будут считаться существенными.
Метрическое обучение
При метрическом обучении непосредственно формируется геометрия пространства представлений.
Для тройки
где — опорный объект,
— похожий объект, а
— непохожий, можно использовать тройную функцию потерь:
Параметр задаёт требуемый зазор между положительной и отрицательной парами.
Такие представления применяются в поиске изображений, распознавании лиц, рекомендательных системах и идентификации объектов.
Многозадачное обучение
Если один векторизатор используется в нескольких задачах, общий критерий может иметь вид
Общая часть сети вынуждена находить признаки, полезные одновременно для нескольких целей. Это может повысить переносимость представления, но конфликтующие задачи способны мешать друг другу.
Представления изображений
В классическом компьютерном зрении признаки часто проектировались вручную. Использовались контуры, углы, локальные дескрипторы и гистограммы направлений градиентов.
В свёрточной нейронной сети векторизация обучается из изображений:
Свёрточные слои используют локальность и совместное применение одних весов в разных участках изображения. Это уменьшает число параметров и задаёт полезное индуктивное предположение о пространственной структуре данных.
Выходом векторизатора может быть:
- единый вектор изображения;
- пространственная карта признаков;
- набор векторов для отдельных областей;
- представления объектов, найденных на изображении.
Поэтому термин «векторизация» не всегда означает получение ровно одного вектора. В более общем смысле результатом может быть матрица или тензор признаков.
Представления текста
Простейшее векторное представление текста — частотный вектор слов. Он не обучается совместно с задачей и почти не учитывает порядок слов.
Обучаемое вложение сопоставляет каждому элементу словаря вектор:
Матрица вложений
содержит по одному вектору для каждого из элементов словаря.
Статическое вложение назначает слову один и тот же вектор во всех контекстах. Контекстный векторизатор вычисляет представление слова с учётом окружающей последовательности:
Поэтому одинаковое слово в разных предложениях может иметь разные представления.
Архитектуры рекуррентных сетей и трансформеров строят последовательность контекстных векторов. Для классификации документа они могут агрегироваться в единый вектор, а для перевода, разметки или генерации обрабатываться по отдельности.
Представления графов
Для графа требуется учитывать свойства вершин и структуру связей.
Графовая нейронная сеть строит представления вершин путём обмена сообщениями с соседями:
Здесь — множество соседей вершины
, а
— операция агрегирования.
После нескольких слоёв вектор вершины содержит информацию о некоторой окрестности. Векторы вершин могут использоваться непосредственно либо агрегироваться в представление всего графа.
Такие методы применяются для молекул, социальных сетей, рекомендательных систем и графов знаний.
Представления разных модальностей
Мультимодальная модель может отображать изображения, тексты, звук и другие типы данных в согласованное пространство:
Если изображение и его описание относятся к одному содержанию, обучение сближает их представления. Благодаря этому становится возможным искать изображения по тексту, сопоставлять данные разных типов и переносить сведения между модальностями.
Общее пространство не означает, что все свойства модальностей становятся одинаковыми. Оно кодирует прежде всего те отношения, которые поддерживаются обучающим критерием.
Обучаемая векторизация и Embedding
Термины близки, но не полностью взаимозаменяемы.
Embedding обычно называют вектор, соответствующий отдельному объекту, токену, вершине или категории. Он может храниться непосредственно в таблице параметров или вычисляться моделью.
Обучаемая векторизация — более широкое понятие. Она включает весь параметрический процесс преобразования исходных данных в признаки:
Например:
- строка матрицы словарных вложений является embedding;
- последовательность слоёв трансформера является обучаемым векторизатором;
- контекстный вектор слова на выходе трансформера является embedding;
- свёрточная сеть до классификационной головы является векторизатором изображения.
Таким образом, embedding является результатом или частным механизмом обучаемой векторизации.
Предварительное обучение и перенос
Векторизатор можно сначала обучить на большой исходной выборке, а затем использовать в другой задаче.
Пусть предварительно получены параметры . Возможны несколько режимов применения.
Фиксация векторизатора:
после чего обучается только новая модель .
Частичное дообучение: изменяются только последние слои векторизатора.
Полное дообучение: совместно обновляются и
.
Фиксация параметров требует меньше данных и вычислений, но ограничивает адаптацию. Полное дообучение более гибко, однако может привести к переобучению или разрушению полезных свойств исходного представления.
Оценивание качества представлений
Представление нельзя полноценно оценить только по виду его координат. Обычно проверяется, насколько хорошо оно работает в последующих задачах.
Линейное оценивание
Векторизатор фиксируется, а поверх него обучается линейная модель:
Высокое качество линейного классификатора означает, что необходимая информация доступна в сравнительно простой форме.
Однако линейное оценивание не измеряет все свойства представления. Информация может присутствовать в , но быть нелинейно закодированной.
Дообучение
Векторизатор дообучается на новой задаче. Оценивается итоговое качество и количество данных, необходимое для его достижения.
Полезное представление обычно позволяет быстрее адаптироваться и требует меньше размеченных примеров.
Поиск ближайших соседей
Для каждого объекта находятся ближайшие представления по косинусному или евклидову расстоянию. Затем анализируется, соответствуют ли геометрически близкие точки семантически похожим объектам.
Результат существенно зависит от выбранной метрики и нормировки векторов.
Перенос между наборами данных
Модель обучается на одном распределении и проверяется на другом. Такой эксперимент показывает, насколько признаки зависят от конкретной выборки, фона, устройства записи и других побочных факторов.
Диагностические задачи
Из представления пытаются предсказать отдельные свойства исходного объекта. Это позволяет выяснить, какая информация сохранилась в векторе.
Наличие информации ещё не означает, что основная модель фактически использует её при принятии решения.
Вырождение представлений
Некоторые критерии допускают тривиальное решение
для всех объектов . Все представления становятся одинаковыми, а полезная информация исчезает. Это явление называют коллапсом представлений.
Для предотвращения коллапса применяют:
- отрицательные примеры;
- предсказание различных частей объекта;
- ограничения на дисперсию координат;
- асимметричные архитектуры;
- остановку градиента в одной из ветвей;
- реконструкцию исходных данных;
- нормировку и дополнительные регуляризаторы.
Само отсутствие численной расходимости не гарантирует, что модель выучила содержательное представление.
Ложные признаки и короткие пути
Векторизатор оптимизирует заданную функцию потерь, а не человеческое понимание объекта. Поэтому он может использовать закономерность, которая формально помогает на обучающей выборке, но не соответствует предполагаемой причине.
Например, классификатор изображений может определять класс по фону, водяному знаку или особенностям камеры. Такие признаки называют короткими путями, или shortcuts.
На исходной тестовой выборке модель может показывать высокое качество, если побочная закономерность сохраняется. После изменения условий она перестаёт работать.
Для обнаружения коротких путей применяют:
- проверку на внешних данных;
- целенаправленное изменение фона и стиля;
- контрфактические примеры;
- анализ ошибок по подгруппам;
- удаление подозрительных признаков;
- обучение на более разнообразных данных.
Утечка информации
Утечка возникает, если при построении представления используется информация, недоступная в момент реального применения.
Например, вектор временного объекта не должен включать сведения из будущего. Представление пациента для прогнозирования диагноза не должно использовать результаты исследования, выполненного после постановки диагноза.
Утечка может появиться не только в исходных признаках, но и при:
- предварительном обучении на тестовых данных;
- нормировке по всей выборке;
- построении словаря до разделения данных;
- выборе аугментаций с учётом тестовых ответов;
- подборе модели по тестовой метрике.
Модель с утечкой часто демонстрирует высокое экспериментальное качество, которое не воспроизводится в реальной эксплуатации.
Неоднозначность представлений
Координаты обученного вектора обычно не имеют единственной обязательной интерпретации.
Пусть линейный выход модели равен
Для обратимой матрицы можно заменить представление на
и одновременно заменить выходную матрицу на
Тогда
Предсказания останутся теми же, хотя отдельные координаты представления изменятся.
Поэтому нейрон с конкретным номером не обязательно соответствует единственному человеческому понятию. Интерпретация должна учитывать возможные вращения, масштабирования и другие преобразования пространства.
Ограничения
Обучаемая векторизация обладает рядом ограничений.
- Качество признаков зависит от обучающей выборки.
- Представление оптимизируется под заданную функцию потерь и может игнорировать другие свойства.
- Большая размерность вектора не гарантирует высокой информативности.
- Близость в пространстве представлений зависит от выбранного критерия обучения.
- Представление может кодировать нежелательные корреляции и систематические смещения.
- Координаты вектора часто трудно интерпретировать.
- При изменении распределения данных полезность представления может уменьшаться.
- Для обучения сложных векторизаторов могут требоваться большие вычислительные ресурсы.
- Векторы способны сохранять конфиденциальную информацию об исходных данных.
Следовательно, обучаемая векторизация не является автоматическим извлечением «истинных» свойств объекта. Она создаёт представление, полезное относительно определённых данных, архитектуры и цели.
Философская интерпретация
В классическом подходе исследователь сначала решает, какими признаками описывать объект, а затем обучает модель по этим признакам. В глубоком обучении часть выбора признакового языка передаётся алгоритму.
Можно сказать, что модель обучает не только ответ, но и способ восприятия данных.
Однако этот способ восприятия не является нейтральным. Он определяется:
- доступными наблюдениями;
- функцией потерь;
- архитектурой модели;
- аугментациями;
- правилами формирования пар;
- ограничениями и регуляризаторами.
Поэтому обученное представление является операциональным: оно выделяет свойства, помогающие выполнять заданную процедуру. Из успешности модели не следует, что её внутренние координаты совпадают с естественными категориями мира или человеческими понятиями.
Обучаемая векторизация сокращает объём ручного проектирования признаков, но не отменяет постановку задачи. Напротив, выбор критерия обучения становится способом определить, какую информацию модель будет считать значимой.
Заключение
Обучаемая векторизация данных — один из основных принципов глубокого обучения. Исходный сложно структурированный объект преобразуется параметрической моделью в числовое представление, пригодное для классификации, регрессии, поиска, генерации и других задач.
В многослойной нейронной сети каждый скрытый слой создаёт новое представление. Метод обратного распространения ошибки позволяет настраивать эти представления по итоговому критерию качества.
Полезный вектор должен сохранять целевую информацию, отбрасывать несущественные изменения и обеспечивать удобную геометрию для последующей модели. При этом качество представления всегда зависит от задачи: универсально лучшего признакового пространства не существует.
Обучаемая векторизация не просто заменяет ручные признаки автоматическими. Она объединяет выделение признаков и принятие решения в единую оптимизационную задачу. Именно эта возможность стала одной из главных причин практического успеха глубоких нейронных сетей.
См. также
- Признак
- Признаковое описание объекта
- Embedding
- Глубокое обучение
- Искусственная нейронная сеть
- Многослойный персептрон
- Обратное распространение ошибки
- Автокодировщик
- Самостоятельное обучение
- Контрастивное обучение
- Перенос обучения
- Свёрточная нейронная сеть
- Трансформер
- Графовая нейронная сеть
Литература
- Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors // Nature. — 1986. — Т. 323. — С. 533—536.
- LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE. — 1998. — Т. 86. — № 11. — С. 2278—2324.
- Hinton G. E., Salakhutdinov R. R. Reducing the Dimensionality of Data with Neural Networks // Science. — 2006. — Т. 313. — № 5786. — С. 504—507.
- Bengio Y., Courville A., Vincent P. Representation Learning: A Review and New Perspectives // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2013. — Т. 35. — № 8. — С. 1798—1828.
- Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems. — 2012. — Т. 25. — С. 1097—1105.
- Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. — 2013. — Т. 26. — С. 3111—3119.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. — 2019. — С. 4171—4186.
- Chen T., Kornblith S., Norouzi M., Hinton G. A Simple Framework for Contrastive Learning of Visual Representations // Proceedings of the 37th International Conference on Machine Learning. — 2020. — Т. 119. — С. 1597—1607.
- Воронцов К. В. Философия. Введение в искусственный интеллект2026-07-01.

