Теория вероятностей

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Andrei Blinov 18:39, 2 июля 2026 (MSD)

Теория вероятностей — раздел математики, изучающий случайные явления, вероятности событий, случайные величины и их распределения. В машинном обучении теория вероятностей используется для построения вероятностных моделей данных, оценки неопределённости, байесовского вывода, анализа обобщающей способности алгоритмов и формального описания случайных процессов.

Теория вероятностей тесно связана с математической статистикой, машинным обучением, теорией информации, оптимизацией и стохастическими процессами.

Содержание

1 Интуитивное описание
2 Вероятностное пространство
3 События и операции над событиями
4 Случайные величины
5 Распределение вероятностей
6 Математическое ожидание и дисперсия
7 Условная вероятность
8 Независимость
9 Формула полной вероятности и формула Байеса
10 Совместные распределения
11 Часто используемые распределения
12 Предельные теоремы
13 Вероятность в машинном обучении
14 Интерпретации вероятности
15 Типичные ошибки
16 См. также
17 Литература
18 Ссылки

Интуитивное описание

Теория вероятностей даёт язык для описания ситуаций, в которых результат заранее неизвестен, но известна или моделируется структура неопределённости. Примеры таких ситуаций:

выпадение стороны монеты;
ошибка измерения;
принадлежность объекта к классу;
появление слова в тексте;
поведение пользователя;
значение будущего наблюдения в обучающей выборке.

В машинном обучении вероятность часто описывает не только физическую случайность, но и неполноту знания о данных, параметрах модели или будущих наблюдениях. Например, классификатор может выдавать не только метку класса, но и оценку вероятности принадлежности объекта к этому классу.

Вероятностное пространство

Формальная основа теории вероятностей — вероятностное пространство. Оно состоит из трёх объектов:

множества элементарных исходов $\Omega$ ;
набора событий $F$ ;
вероятностной меры $P$ .

Кратко это записывают так:

$(\Omega,F,P).$

Множество $\Omega$ содержит все возможные элементарные исходы случайного эксперимента. Событие — это множество исходов, которому можно приписать вероятность. Вероятностная мера $P$ ставит каждому событию число от 0 до 1.

Основные аксиомы вероятности:

вероятность любого события неотрицательна;
вероятность достоверного события равна 1;
вероятность объединения попарно несовместных событий равна сумме их вероятностей.

В простейшем виде это можно записать так:

$P(A)\geq 0,\quad P(\Omega)=1.$

Если события $A_1,A_2,\ldots$ попарно не пересекаются, то

$P(A_1\cup A_2\cup\ldots)=P(A_1)+P(A_2)+\ldots.$

Эти аксиомы были положены в основу современного математического изложения теории вероятностей А. Н. Колмогоровым.

События и операции над событиями

Событие — утверждение о результате случайного эксперимента. Например, при броске кубика событием может быть «выпало чётное число» или «выпало число больше четырёх».

Для событий определены стандартные операции:

$A\cup B$ — произошло событие $A$ или событие $B$ ;
$A\cap B$ — произошли оба события;
$A^c$ — событие $A$ не произошло.

Из аксиом вероятности следуют полезные свойства:

$P(A^c)=1-P(A).$

$P(A\cup B)=P(A)+P(B)-P(A\cap B).$

Если события $A$ и $B$ несовместны, то $P(A\cap B)=0$ , и формула упрощается:

$P(A\cup B)=P(A)+P(B).$

Случайные величины

Случайная величина — функция, которая каждому исходу случайного эксперимента сопоставляет число. Обычно её обозначают заглавной буквой, например $X$ .

Формально случайную величину можно рассматривать как отображение

$X:\Omega\to R.$

Примеры случайных величин:

число орлов в серии бросков монеты;
ошибка прогноза модели;
значение признака объекта;
время ожидания события;
метка класса, если классы закодированы числами.

Случайные величины бывают дискретными и непрерывными. Дискретная случайная величина принимает конечное или счётное число значений. Непрерывная случайная величина обычно описывается плотностью распределения.

Распределение вероятностей

Распределение вероятностей случайной величины описывает, какие значения она принимает и с какими вероятностями. Для дискретной случайной величины распределение можно задать вероятностями

$P(X=x).$

Для любой случайной величины важна функция распределения:

$F_X(t)=P(X\leq t).$

Если случайная величина непрерывна и имеет плотность распределения $f_X$ , то вероятность попасть в интервал от $a$ до $b$ равна площади под плотностью на этом интервале:

$P(a\leq X\leq b)=\int_a^b f_X(x)dx.$

В машинном обучении распределение вероятностей часто используется как модель генерации данных. Например, предполагается, что объекты обучающей выборки являются наблюдениями из некоторого неизвестного распределения, которое требуется оценить или использовать для построения прогноза.

Математическое ожидание и дисперсия

Математическое ожидание случайной величины — её среднее значение в вероятностном смысле. Для дискретной случайной величины оно задаётся формулой

$E X=\sum_x xP(X=x).$

Если случайная величина имеет плотность $f_X$ , то

$E X=\int x f_X(x)dx.$

Дисперсия измеряет разброс случайной величины вокруг её среднего значения:

$D X=E(X-E X)^2.$

В машинном обучении математическое ожидание часто появляется в определении среднего риска, функции потерь и качества модели. Дисперсия важна при анализе устойчивости оценок, шума в данных и переобучения.

Условная вероятность

Условная вероятность события $A$ при условии события $B$ показывает, насколько вероятно событие $A$ , если известно, что событие $B$ уже произошло. Если $P(B)>0$ , то

$P(A|B)={P(A\cap B)\over P(B)}.$

Условная вероятность является одним из центральных понятий теории вероятностей и машинного обучения. Она используется при построении вероятностных классификаторов, байесовских моделей, графических моделей и методов оценки неопределённости.

Например, в задаче классификации величина $P(y|x)$ может интерпретироваться как вероятность класса $y$ при известном объекте $x$ .

Независимость

События $A$ и $B$ называются независимыми, если знание о наступлении одного из них не меняет вероятность другого. Формально это записывают так:

$P(A\cap B)=P(A)P(B).$

Для случайных величин независимость означает, что совместное распределение раскладывается в произведение отдельных распределений. В машинном обучении предположения независимости часто используются для упрощения моделей. Например, наивный байесовский классификатор предполагает условную независимость признаков при фиксированном классе.

Важно не путать независимость с некоррелированностью. Некоррелированные случайные величины могут быть зависимыми, если связь между ними нелинейна.

Формула полной вероятности и формула Байеса

Пусть события $B_1,B_2,\ldots$ образуют разбиение пространства исходов: в каждом эксперименте происходит ровно одно из них. Тогда для события $A$ выполняется формула полной вероятности:

$P(A)=\sum_i P(A|B_i)P(B_i).$

Формула Байеса позволяет пересчитывать вероятность причины после наблюдения следствия:

$P(B_j|A)={P(A|B_j)P(B_j)\over \sum_i P(A|B_i)P(B_i)}.$

В байесовском выводе эту формулу обычно интерпретируют так:

априорное распределение описывает знания о параметрах до наблюдения данных;
правдоподобие описывает вероятность данных при заданных параметрах;
апостериорное распределение описывает знания о параметрах после наблюдения данных.

Байесовская формула лежит в основе байесовских методов, вероятностных графических моделей и многих методов оценки неопределённости.

Совместные распределения

Если рассматриваются несколько случайных величин, их поведение описывается совместным распределением. Например, для двух дискретных случайных величин $X$ и $Y$ задаются вероятности

$P(X=x,Y=y).$

Из совместного распределения можно получить маргинальные распределения. Для дискретного случая:

$P(X=x)=\sum_y P(X=x,Y=y).$

Условное распределение связывает совместное и маргинальное распределения:

$P(Y=y|X=x)={P(X=x,Y=y)\over P(X=x)}.$

Совместные и условные распределения особенно важны в моделях, где есть скрытые переменные, несколько признаков, несколько целевых переменных или зависимые наблюдения.

Часто используемые распределения

В теории вероятностей и машинном обучении часто встречаются следующие распределения:

распределение Бернулли — модель одного испытания с двумя исходами;
биномиальное распределение — число успехов в серии независимых испытаний;
распределение Пуассона — модель числа редких событий за фиксированный интервал;
равномерное распределение — модель равновероятных значений;
нормальное распределение — базовая модель шума и предельных сумм независимых случайных величин;
экспоненциальное распределение — модель времени ожидания события;
гамма-распределение и бета-распределение — распределения, часто используемые в байесовских моделях.

Выбор распределения является частью моделирования. Он должен отражать природу данных, ограничения задачи и допущения, которые исследователь готов принять.

Предельные теоремы

Предельные теоремы объясняют, почему средние значения и суммы случайных величин ведут себя устойчиво при большом числе наблюдений.

Закон больших чисел утверждает, что среднее независимых одинаково распределённых случайных величин при достаточно общих условиях приближается к математическому ожиданию:

$\bar X_n\to E X.$

Интуитивно это означает, что при увеличении объёма выборки эмпирическое среднее становится всё более надёжной оценкой теоретического среднего.

Центральная предельная теорема объясняет, почему нормальное распределение возникает во многих задачах. Если $X_1,\ldots,X_n$ — независимые одинаково распределённые случайные величины с конечными средним и дисперсией, то нормированная сумма при больших $n$ приближённо имеет нормальное распределение:

${S_n-n\mu\over \sigma\sqrt n}\to N(0,1).$

Эти результаты важны для статистического оценивания, доверительных интервалов, анализа ошибок и многих асимптотических методов машинного обучения.

Вероятность в машинном обучении

В машинном обучении теория вероятностей используется в нескольких основных ролях.

Во-первых, вероятность задаёт модель данных. Часто предполагается, что наблюдения порождены некоторым неизвестным распределением. Цель обучения — построить алгоритм, который хорошо работает не только на обучающей выборке, но и на новых данных из того же или близкого распределения.

Во-вторых, вероятность используется для определения риска. Если $L(y,a(x))$ — функция потерь алгоритма $a$ на объекте $x$ с правильным ответом $y$ , то средний риск можно записать как

$R(a)=E L(y,a(x)).$

На практике истинное распределение данных неизвестно, поэтому риск оценивается по выборке.

В-третьих, вероятность позволяет строить вероятностные модели: байесовские классификаторы, смеси распределений, скрытые марковские модели, вероятностные тематические модели и вероятностные графические модели.

В-четвёртых, теория вероятностей необходима для оценки неопределённости. Это особенно важно в медицинских, финансовых, инженерных и других прикладных задачах, где важно понимать не только прогноз модели, но и степень уверенности в нём.

Интерпретации вероятности

Существуют разные интерпретации вероятности. В частотной интерпретации вероятность связывается с предельной частотой события в длинной серии повторений. В байесовской интерпретации вероятность выражает степень уверенности в утверждении при имеющейся информации.

Обе интерпретации используются в машинном обучении. Частотный подход лежит в основе многих методов статистического оценивания и проверки гипотез. Байесовский подход удобен, когда нужно явно учитывать априорную информацию и получать распределение неопределённости по параметрам модели.

Типичные ошибки

Путать вероятность и частоту. Частота наблюдается в конечной выборке, а вероятность является свойством модели.
Игнорировать условие. Вероятности $P(A)$ и $P(A|B)$ могут сильно отличаться.
Путать независимость и отсутствие корреляции. Нулевая корреляция не всегда означает независимость.
Забывать о распределении данных. Качество модели зависит от того, насколько обучающая и тестовая выборки соответствуют реальному распределению.
Интерпретировать оценку вероятности как гарантию. Событие с вероятностью 0.9 всё равно может не произойти.
Использовать распределение без проверки предположений. Нормальное или независимое распределение ошибок часто является удобной аппроксимацией, но не универсальным законом.

См. также

Литература

Колмогоров А. Н. Основные понятия теории вероятностей. М.: Наука, 1974.
Feller W. An Introduction to Probability Theory and Its Applications. Vol. 1. Wiley, 1968.
Grimmett G., Stirzaker D. Probability and Random Processes. Oxford University Press, 2001.
Durrett R. Probability: Theory and Examples. Cambridge University Press, 2019.

Ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A2%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%B2%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9»

Категории: Теория вероятностей | Математическая статистика | Машинное обучение | Энциклопедия анализа данных

Версия 15:38, 2 июля 2026 (править) Andrei Blinov (Обсуждение \| вклад) (Новая: '''Теория вероятностей''' — раздел математики, изучающий случайные явления, [[вероятность...) ← К предыдущему изменению		Текущая версия (15:39, 2 июля 2026) (править) (отменить) Andrei Blinov (Обсуждение \| вклад)
Строка 1:		Строка 1:
		+	{{well\|Статья написана с использованием LLM '''GPT-5.5 Thinking''' и проверена участником [[Участник:Andrei Blinov\|Andrei Blinov]] 18:39, 2 июля 2026 (MSD)}}
		+
	'''Теория вероятностей''' — раздел [[математика\|математики]], изучающий случайные явления, [[вероятность\|вероятности]] событий, [[случайная величина\|случайные величины]] и их распределения. В машинном обучении теория вероятностей используется для построения вероятностных моделей данных, оценки неопределённости, байесовского вывода, анализа обобщающей способности алгоритмов и формального описания случайных процессов.		'''Теория вероятностей''' — раздел [[математика\|математики]], изучающий случайные явления, [[вероятность\|вероятности]] событий, [[случайная величина\|случайные величины]] и их распределения. В машинном обучении теория вероятностей используется для построения вероятностных моделей данных, оценки неопределённости, байесовского вывода, анализа обобщающей способности алгоритмов и формального описания случайных процессов.