Вариационный байесовский вывод

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM OpenAI GPT-5 и проверена участником Platon Usaсhev 22:39, 15 июня 2026 (MSD)

Вариационный байесовский вывод (англ. variational Bayesian inference, variational inference) — класс методов приближённого байесовского вывода, в которых вычисление апостериорного распределения заменяется задачей оптимизации. Метод особенно полезен в вероятностных моделях с латентными переменными, где точный вывод требует суммирования или интегрирования по большому числу скрытых состояний.

Пусть наблюдения обозначены через $x$ , латентные переменные и параметры — через $z$ . В байесовской модели интерес представляет апостериорное распределение

$p(z|x)=\frac{p(x,z)}{p(x)}.$

$p(x)=\int p(x,z)dz.$

Главная трудность обычно связана не с числителем $p(x,z)$ , который задаётся моделью, а с нормировочной константой $p(x)$ , называемой также правдоподобием данных или маргинальным правдоподобием. В сложных моделях этот интеграл не вычисляется аналитически. Вариационный подход строит более простое распределение $q(z)$ из заранее выбранного семейства $Q$ и подбирает его так, чтобы оно было близко к истинному $p(z|x)$ .

Основная идея

Наиболее распространённая постановка минимизирует дивергенцию Кульбака — Лейблера

$D_{KL}(q(z),p(z|x))=\int q(z)\log\frac{q(z)}{p(z|x)}dz.$

Так как истинное апостериорное распределение содержит неизвестное $p(x)$ , напрямую минимизировать эту величину нельзя. Вместо этого максимизируют нижнюю оценку логарифма маргинального правдоподобия, или ELBO (англ. evidence lower bound):

$L(q)=E_q(\log p(x,z))-E_q(\log q(z)).$

Связь между ELBO и апостериорным распределением выражается тождеством

$\log p(x)=L(q)+D_{KL}(q(z),p(z|x)).$

Поскольку дивергенция Кульбака — Лейблера неотрицательна, $L(q)$ действительно является нижней оценкой $\log p(x)$ . Максимизация ELBO эквивалентна минимизации $D_{KL}(q(z),p(z|x))$ по выбранному семейству распределений. Если семейство $Q$ слишком бедное, оптимальное $q$ всё равно может заметно отличаться от истинного апостериорного распределения; если слишком богатое, оптимизация становится трудной.

Факторизованные приближения

Классический вариант вариационного вывода использует среднеполевое приближение (англ. mean-field approximation):

$q(z)=\prod_{j=1}^m q_j(z_j).$

Предположение означает не то, что истинные латентные переменные независимы, а то, что независимость вводится как вычислительное приближение. Для такого семейства часто можно получить координатные обновления:

$\log q_j^*(z_j)=E_{q_{-j}}(\log p(x,z))+C.$

где математическое ожидание берётся по всем вариационным множителям, кроме $q_j$ . Эта формула лежит в основе координатного вариационного вывода для моделей экспоненциального семейства: поочерёдно обновляются распределения отдельных блоков латентных переменных, а значение ELBO растёт до локального максимума.

По структуре такие обновления напоминают EM-алгоритм: в обоих случаях есть чередование шагов, связанных с латентными переменными и параметрами модели. Однако EM обычно ищет точечную оценку параметров, тогда как вариационный байесовский вывод поддерживает приближённое распределение неопределённости по латентным переменным и, при байесовской постановке, по параметрам.

Сравнение с методами Монте-Карло

Ближайшая альтернатива вариационному выводу — методы MCMC, например сэмплирование Гиббса. Они строят выборку из апостериорного распределения и при достаточно длинной цепи могут давать асимптотически точные оценки. Их слабое место — высокая вычислительная цена, трудности диагностики сходимости и плохое перемешивание цепей в многомодальных распределениях.

Вариационный вывод, напротив, обычно быстрее и лучше масштабируется на большие выборки, потому что сводится к детерминированной или стохастической оптимизации. Цена этой скорости — систематическая ошибка приближения. Минимизация $D_{KL}(q,p)$ часто приводит к тому, что $q$ концентрируется на одной области высокой плотности и занижает дисперсии. Поэтому вариационные апостериорные интервалы не следует автоматически интерпретировать как точные байесовские доверительные области.

Стохастический и амортизованный вывод

Для больших наборов данных используют стохастический вариационный вывод. Если логарифм совместной плотности раскладывается по объектам выборки, ELBO можно оптимизировать по мини-батчам, получая шумные, но дешёвые оценки градиента. В моделях с условно-сопряжённой структурой такие методы часто сочетают с натуральным градиентом, что ускоряет обучение тематических моделей, байесовских смесей и вероятностной матричной факторизации.

В глубоких генеративных моделях распространён амортизованный вариационный вывод. Вместо того чтобы хранить отдельные вариационные параметры для каждого объекта, вводят параметризованное отображение

$q_\phi(z|x)$

обычно реализованное нейронной сетью. Оно по наблюдению $x$ сразу выдаёт параметры приближённого апостериорного распределения. Такая идея используется в вариационных автокодировщиках: генеративная сеть задаёт $p_\theta(x|z)$ , а сеть вывода приближает $p_\theta(z|x)$ . Чтобы оптимизировать ELBO градиентными методами, часто применяют репараметризацию латентной переменной, например $z=\mu_\phi(x)+\sigma_\phi(x)\epsilon$ , где $\epsilon$ имеет фиксированное стандартное распределение.

Практическое использование

Вариационный байесовский вывод применяют в тематическом моделировании, байесовских смесях распределений, скрытых марковских моделях, вероятностных графовых моделях, рекомендательных системах и глубоких генеративных моделях. В латентном размещении Дирихле вариационный вывод стал одним из стандартных способов оценивать распределения тем в документах и распределения слов в темах.

На практике качество вариационного вывода зависит от нескольких решений:

выбора семейства $Q$ : диагональное нормальное приближение проще, но хуже передаёт зависимости между переменными;
инициализации: ELBO обычно невыпукла, поэтому разные запуски могут приводить к разным локальным максимумам;
способа оценки градиентов: стохастические оценки требуют контроля дисперсии;
проверки результата: полезно сравнивать предсказательные распределения, ELBO на отложенной выборке и, для малых подзадач, результаты MCMC.

Вариационный вывод особенно уместен, когда нужно быстро обучать вероятностную модель на больших данных или многократно выполнять вывод для новых объектов. Если же главная цель — точная оценка хвостов распределения, редких событий или строгая калибровка неопределённости, одного вариационного приближения может быть недостаточно.

Достоинства и ограничения

К достоинствам метода относятся:

масштабируемость по числу объектов;
связь с оптимизацией, позволяющая использовать градиентные методы и автоматическое дифференцирование;
возможность применять байесовские модели там, где точный вывод невозможен;
естественное расширение к нейросетевым генеративным моделям.

Основные ограничения:

зависимость результата от выбранного вариационного семейства;
риск сходимости к плохому локальному максимуму ELBO;
возможное занижение неопределённости из-за асимметрии $D_{KL}(q,p)$ ;
сложность диагностики: высокий ELBO не всегда означает хорошее приближение ко всем важным характеристикам апостериорного распределения.

Таким образом, вариационный байесовский вывод следует понимать не как универсальную замену MCMC, а как вычислительно эффективный компромисс между выразительностью байесовских моделей и стоимостью точного вывода.

См. также

Литература

Jordan M. I., Ghahramani Z., Jaakkola T. S., Saul L. K. An Introduction to Variational Methods for Graphical Models // Machine Learning. — 1999. — Vol. 37. — P. 183–233.
Wainwright M. J., Jordan M. I. Graphical Models, Exponential Families, and Variational Inference // Foundations and Trends in Machine Learning. — 2008. — Vol. 1, No. 1–2. — P. 1–305.
Blei D. M., Kucukelbir A., McAuliffe J. D. Variational Inference: A Review for Statisticians // Journal of the American Statistical Association. — 2017. — Vol. 112, No. 518. — P. 859–877.
Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Vol. 14. — P. 1303–1347.
Kingma D. P., Welling M. Auto-Encoding Variational Bayes. — ICLR, 2014.
Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — Ch. 10.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%92%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%B2%D1%8B%D0%B2%D0%BE%D0%B4»

Категории: Машинное обучение | Байесовский вывод | Вероятностные модели | Энциклопедия анализа данных

@@ Строка 1: / Строка 1: @@
-{{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником [[Участник:Platon Usaсhev|Platon Usaсhev]] 22:30, 15 июня 2026 (MSD)}}
+{{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником [[Участник:Platon Usaсhev|Platon Usaсhev]] 22:39, 15 июня 2026 (MSD)}}
 '''Вариационный байесовский вывод''' (англ. ''variational Bayesian inference'', ''variational inference'') — класс методов приближённого [[Байесовский вывод|байесовского вывода]], в которых вычисление апостериорного распределения заменяется задачей оптимизации. Метод особенно полезен в вероятностных моделях с латентными переменными, где точный вывод требует суммирования или интегрирования по большому числу скрытых состояний.
@@ Строка 5: / Строка 5: @@
 Пусть наблюдения обозначены через <tex>x</tex>, латентные переменные и параметры — через <tex>z</tex>. В байесовской модели интерес представляет апостериорное распределение
-<tex>
+::<tex>p(z|x)=\frac{p(x,z)}{p(x)}.</tex>
-p(z\mid x)=\frac{p(x,z)}{p(x)}, \qquad
-p(x)=\int p(x,z)\,dz .
-</tex>
-Главная трудность обычно связана не с числителем <tex>p(x,z)</tex>, который задаётся моделью, а с нормировочной константой <tex>p(x)</tex>, называемой также правдоподобием данных или маргинальным правдоподобием. В сложных моделях этот интеграл не вычисляется аналитически. Вариационный подход строит более простое распределение <tex>q(z)</tex> из заранее выбранного семейства <tex>\mathcal Q</tex> и подбирает его так, чтобы оно было близко к истинному <tex>p(z\mid x)</tex>.
+::<tex>p(x)=\int p(x,z)dz.</tex>
+Главная трудность обычно связана не с числителем <tex>p(x,z)</tex>, который задаётся моделью, а с нормировочной константой <tex>p(x)</tex>, называемой также правдоподобием данных или маргинальным правдоподобием. В сложных моделях этот интеграл не вычисляется аналитически. Вариационный подход строит более простое распределение <tex>q(z)</tex> из заранее выбранного семейства <tex>Q</tex> и подбирает его так, чтобы оно было близко к истинному <tex>p(z|x)</tex>.
 == Основная идея ==
@@ Строка 16: / Строка 15: @@
 Наиболее распространённая постановка минимизирует дивергенцию Кульбака — Лейблера
-<tex>
+::<tex>D_{KL}(q(z),p(z|x))=\int q(z)\log\frac{q(z)}{p(z|x)}dz.</tex>
-\operatorname{KL}(q(z)\,\|\,p(z\mid x))
-=\int q(z)\log\frac{q(z)}{p(z\mid x)}\,dz .
-</tex>
 Так как истинное апостериорное распределение содержит неизвестное <tex>p(x)</tex>, напрямую минимизировать эту величину нельзя. Вместо этого максимизируют нижнюю оценку логарифма маргинального правдоподобия, или ELBO (англ. ''evidence lower bound''):
-<tex>
+::<tex>L(q)=E_q(\log p(x,z))-E_q(\log q(z)).</tex>
-\mathcal L(q)
-=\mathbb E_q[\log p(x,z)]-\mathbb E_q[\log q(z)] .
-</tex>
 Связь между ELBO и апостериорным распределением выражается тождеством
-<tex>
+::<tex>\log p(x)=L(q)+D_{KL}(q(z),p(z|x)).</tex>
-\log p(x)
-=\mathcal L(q)+
-\operatorname{KL}(q(z)\,\|\,p(z\mid x)).
-</tex>
-Поскольку дивергенция Кульбака — Лейблера неотрицательна, <tex>\mathcal L(q)</tex> действительно является нижней оценкой <tex>\log p(x)</tex>. Максимизация ELBO эквивалентна минимизации <tex>\operatorname{KL}(q(z)\,\|\,p(z\mid x))</tex> по выбранному семейству распределений. Если семейство <tex>\mathcal Q</tex> слишком бедное, оптимальное <tex>q</tex> всё равно может заметно отличаться от истинного апостериорного распределения; если слишком богатое, оптимизация становится трудной.
+Поскольку дивергенция Кульбака — Лейблера неотрицательна, <tex>L(q)</tex> действительно является нижней оценкой <tex>\log p(x)</tex>. Максимизация ELBO эквивалентна минимизации <tex>D_{KL}(q(z),p(z|x))</tex> по выбранному семейству распределений. Если семейство <tex>Q</tex> слишком бедное, оптимальное <tex>q</tex> всё равно может заметно отличаться от истинного апостериорного распределения; если слишком богатое, оптимизация становится трудной.
 == Факторизованные приближения ==
@@ Строка 42: / Строка 31: @@
 Классический вариант вариационного вывода использует среднеполевое приближение (англ. ''mean-field approximation''):
-<tex>
+::<tex>q(z)=\prod_{j=1}^m q_j(z_j).</tex>
-q(z)=\prod_{j=1}^{m} q_j(z_j).
-</tex>
 Предположение означает не то, что истинные латентные переменные независимы, а то, что независимость вводится как вычислительное приближение. Для такого семейства часто можно получить координатные обновления:
-<tex>
+::<tex>\log q_j^*(z_j)=E_{q_{-j}}(\log p(x,z))+C.</tex>
-\log q_j^*(z_j)=
-\mathbb E_{q_{-j}}[\log p(x,z)]+\operatorname{const},
-</tex>
 где математическое ожидание берётся по всем вариационным множителям, кроме <tex>q_j</tex>. Эта формула лежит в основе координатного вариационного вывода для моделей экспоненциального семейства: поочерёдно обновляются распределения отдельных блоков латентных переменных, а значение ELBO растёт до локального максимума.
@@ Строка 61: / Строка 45: @@
 Ближайшая альтернатива вариационному выводу — методы [[Метод Монте-Карло по схеме марковской цепи|MCMC]], например [[Сэмплирование Гиббса|сэмплирование Гиббса]]. Они строят выборку из апостериорного распределения и при достаточно длинной цепи могут давать асимптотически точные оценки. Их слабое место — высокая вычислительная цена, трудности диагностики сходимости и плохое перемешивание цепей в многомодальных распределениях.
-Вариационный вывод, напротив, обычно быстрее и лучше масштабируется на большие выборки, потому что сводится к детерминированной или стохастической оптимизации. Цена этой скорости — систематическая ошибка приближения. Минимизация <tex>\operatorname{KL}(q\,\|\,p)</tex> часто приводит к тому, что <tex>q</tex> концентрируется на одной области высокой плотности и занижает дисперсии. Поэтому вариационные апостериорные интервалы не следует автоматически интерпретировать как точные байесовские доверительные области.
+Вариационный вывод, напротив, обычно быстрее и лучше масштабируется на большие выборки, потому что сводится к детерминированной или стохастической оптимизации. Цена этой скорости — систематическая ошибка приближения. Минимизация <tex>D_{KL}(q,p)</tex> часто приводит к тому, что <tex>q</tex> концентрируется на одной области высокой плотности и занижает дисперсии. Поэтому вариационные апостериорные интервалы не следует автоматически интерпретировать как точные байесовские доверительные области.
 == Стохастический и амортизованный вывод ==
@@ Строка 69: / Строка 53: @@
 В глубоких генеративных моделях распространён амортизованный вариационный вывод. Вместо того чтобы хранить отдельные вариационные параметры для каждого объекта, вводят параметризованное отображение
-<tex>
+::<tex>q_\phi(z|x)</tex>
-q_\phi(z\mid x),
-</tex>
-обычно реализованное нейронной сетью. Оно по наблюдению <tex>x</tex> сразу выдаёт параметры приближённого апостериорного распределения. Такая идея используется в [[Вариационный автокодировщик|вариационных автокодировщиках]]: генеративная сеть задаёт <tex>p_\theta(x\mid z)</tex>, а сеть вывода приближает <tex>p_\theta(z\mid x)</tex>. Чтобы оптимизировать ELBO градиентными методами, часто применяют репараметризацию латентной переменной, например <tex>z=\mu_\phi(x)+\sigma_\phi(x)\varepsilon</tex>, где <tex>\varepsilon</tex> имеет фиксированное стандартное распределение.
+обычно реализованное нейронной сетью. Оно по наблюдению <tex>x</tex> сразу выдаёт параметры приближённого апостериорного распределения. Такая идея используется в [[Вариационный автокодировщик|вариационных автокодировщиках]]: генеративная сеть задаёт <tex>p_\theta(x|z)</tex>, а сеть вывода приближает <tex>p_\theta(z|x)</tex>. Чтобы оптимизировать ELBO градиентными методами, часто применяют репараметризацию латентной переменной, например <tex>z=\mu_\phi(x)+\sigma_\phi(x)\epsilon</tex>, где <tex>\epsilon</tex> имеет фиксированное стандартное распределение.
 == Практическое использование ==
@@ Строка 81: / Строка 63: @@
 На практике качество вариационного вывода зависит от нескольких решений:
-* выбора семейства <tex>\mathcal Q</tex>: диагональное нормальное приближение проще, но хуже передаёт зависимости между переменными;
+* выбора семейства <tex>Q</tex>: диагональное нормальное приближение проще, но хуже передаёт зависимости между переменными;
 * инициализации: ELBO обычно невыпукла, поэтому разные запуски могут приводить к разным локальным максимумам;
 * способа оценки градиентов: стохастические оценки требуют контроля дисперсии;
@@ Строка 101: / Строка 83: @@
 * зависимость результата от выбранного вариационного семейства;
 * риск сходимости к плохому локальному максимуму ELBO;
-* возможное занижение неопределённости из-за асимметрии <tex>\operatorname{KL}(q\,\|\,p)</tex>;
+* возможное занижение неопределённости из-за асимметрии <tex>D_{KL}(q,p)</tex>;
 * сложность диагностики: высокий ELBO не всегда означает хорошее приближение ко всем важным характеристикам апостериорного распределения.