Плотность распределения

Материал из MachineLearning.

Версия от 18:48, 2 июля 2026; Andrei Blinov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Andrei Blinov 21:48, 2 июля 2026 (MSD)

Плотность распределения или плотность вероятности — функция, с помощью которой задают распределение вероятностей непрерывной случайной величины. Значение плотности в точке не является вероятностью этой точки; вероятность попадания случайной величины в интервал находится как площадь под графиком плотности на этом интервале.

Плотность распределения является одним из основных понятий теории вероятностей, математической статистики и машинного обучения. Она используется при построении вероятностных моделей, вычислении правдоподобия, байесовском выводе, генеративном моделировании и оценивании неопределённости.

Содержание

1 Интуитивное описание
2 Определение
3 Связь с функцией распределения
4 Плотность не является вероятностью
5 Носитель распределения
6 Примеры плотностей
7 Совместная плотность
8 Маргинальная и условная плотность
9 Математическое ожидание через плотность
10 Замена переменной
11 Плотность и правдоподобие
12 Оценивание плотности
13 Плотность в машинном обучении
14 Типичные ошибки
15 См. также
16 Литература
17 Ссылки

Интуитивное описание

Для дискретной случайной величины можно говорить о вероятности отдельного значения. Например, если случайная величина принимает значения 0 и 1, то можно задать вероятности $P(X=0)$ и $P(X=1)$ .

Для непрерывной случайной величины ситуация другая: вероятность попасть ровно в одну фиксированную точку обычно равна нулю. Поэтому распределение непрерывной величины описывают не вероятностями отдельных точек, а плотностью. Чем больше плотность около точки, тем больше вероятность попасть в малую окрестность этой точки.

Например, если рост человека моделируется непрерывной случайной величиной, то вероятность иметь рост ровно 180 см в идеализированной непрерывной модели равна нулю. Но вероятность попасть в интервал от 179.5 см до 180.5 см может быть положительной и вычисляется через интеграл от плотности по этому интервалу.

Определение

Пусть $X$ — непрерывная случайная величина. Функция $f_X$ называется плотностью распределения случайной величины $X$ , если для любых чисел $a$ и $b$ , где $a<b$ , выполняется равенство:

$P(a\leq X\leq b)=\int_a^b f_X(x)dx.$

Иными словами, вероятность попадания в интервал равна площади под графиком плотности на этом интервале.

Плотность распределения должна удовлетворять двум основным условиям:

$f_X(x)\geq 0.$

$\int_{-\infty}^{+\infty} f_X(x)dx=1.$

Первое условие означает, что плотность не может быть отрицательной. Второе условие означает, что полная вероятность всех возможных значений случайной величины равна единице.

Связь с функцией распределения

Функция распределения случайной величины $X$ определяется как

$F_X(t)=P(X\leq t).$

Если распределение случайной величины абсолютно непрерывно, то функция распределения выражается через плотность:

$F_X(t)=\int_{-\infty}^{t} f_X(x)dx.$

Если функция распределения дифференцируема в точке $t$ , то плотность в этой точке равна производной функции распределения:

$f_X(t)=F'_X(t).$

Эта связь показывает, что плотность описывает локальную скорость роста функции распределения. Чем быстрее растёт функция распределения около некоторой точки, тем больше плотность в этой области.

Плотность не является вероятностью

Важное отличие плотности от вероятности состоит в том, что значение $f_X(x)$ само по себе не является вероятностью события $X=x$ . Для непрерывной случайной величины обычно выполняется

$P(X=x)=0.$

При этом значение плотности может быть больше единицы. Это не противоречит аксиомам вероятности, потому что вероятностью является не высота графика плотности, а площадь под графиком на некотором множестве.

Для малого положительного числа $h$ вероятность попасть в короткий интервал около точки $x$ приближённо равна

$P(x\leq X\leq x+h)\approx f_X(x)h.$

Эта формула полезна для интуитивного понимания плотности: значение плотности показывает, насколько велика вероятность попасть в малую окрестность точки.

Носитель распределения

Носителем распределения называют область значений, где плотность положительна. Если плотность равна нулю вне некоторой области, то случайная величина не попадает туда с положительной вероятностью.

Например, для времени ожидания плотность обычно задаётся только при неотрицательных значениях, потому что время ожидания не может быть отрицательным. Для распределения роста человека плотность имеет смысл только на положительной части числовой прямой, хотя в простых моделях иногда используют распределения, формально заданные на всей прямой.

В прикладных задачах выбор носителя важен: модель плотности должна учитывать естественные ограничения данных, например неотрицательность времени, массы, стоимости или интенсивности сигнала.

Примеры плотностей

Равномерное распределение

Если случайная величина равномерно распределена на отрезке от $a$ до $b$ , то плотность постоянна на этом отрезке и равна

$f_X(x)={1\over b-a}$

при $a\leq x\leq b$ . Вне этого отрезка плотность равна нулю.

Равномерное распределение используется как простая модель, в которой все значения из заданного интервала считаются одинаково возможными.

Нормальное распределение

Нормальное распределение является одной из наиболее часто используемых моделей непрерывных данных. Его плотность имеет колоколообразную форму и задаётся параметрами $\mu$ и $\sigma$ , где $\mu$ — математическое ожидание, а $\sigma$ — стандартное отклонение:

$f_X(x)={1\over \sigma\sqrt{2\pi}}\exp\left(-{(x-\mu)^2\over 2\sigma^2}\right).$

Нормальное распределение часто используется для моделирования шума измерений, ошибок прогнозирования и суммарного влияния большого числа слабых случайных факторов.

Экспоненциальное распределение

Экспоненциальное распределение часто используется для моделирования времени ожидания события. При параметре $\lambda>0$ его плотность при неотрицательных $x$ имеет вид

$f_X(x)=\lambda\exp(-\lambda x).$

При отрицательных значениях $x$ плотность равна нулю.

Совместная плотность

Если рассматриваются две случайные величины $X$ и $Y$ , их совместное распределение может задаваться совместной плотностью $f_{X,Y}$ . В этом случае вероятность попадания пары $(X,Y)$ в область $A$ вычисляется интегрированием совместной плотности по этой области.

Для прямоугольной области это можно записать так:

$P(a\leq X\leq b,\ c\leq Y\leq d)=\int_a^b\int_c^d f_{X,Y}(x,y)dydx.$

Совместная плотность позволяет описывать зависимость между случайными величинами. Если случайные величины независимы, то совместная плотность раскладывается в произведение одномерных плотностей:

$f_{X,Y}(x,y)=f_X(x)f_Y(y).$

Маргинальная и условная плотность

Из совместной плотности можно получить плотность одной случайной величины, просуммировав или проинтегрировав по всем значениям другой величины. Для непрерывного случая это называется маргинализацией:

$f_X(x)=\int_{-\infty}^{+\infty} f_{X,Y}(x,y)dy.$

Если известна совместная плотность, можно также определить условную плотность $Y$ при фиксированном значении $X=x$ :

$f_{Y|X}(y|x)={f_{X,Y}(x,y)\over f_X(x)}.$

Эта формула имеет смысл в тех точках, где $f_X(x)>0$ .

Условные плотности широко используются в вероятностных моделях машинного обучения. Например, регрессионная модель может описывать не одно прогнозируемое значение, а всё условное распределение ответа при заданных признаках.

Математическое ожидание через плотность

Если случайная величина $X$ имеет плотность $f_X$ , то её математическое ожидание вычисляется как

$E X=\int_{-\infty}^{+\infty} x f_X(x)dx.$

Для функции $g(X)$ математическое ожидание вычисляется по формуле

$E g(X)=\int_{-\infty}^{+\infty} g(x)f_X(x)dx.$

В частности, дисперсия задаётся как математическое ожидание квадрата отклонения от среднего:

$D X=E(X-E X)^2.$

Эти формулы важны при анализе риска, функции потерь и качества вероятностных моделей.

Замена переменной

Плотность меняется при преобразовании случайной величины. Пусть $Y=g(X)$ , где функция $g$ строго монотонна и имеет обратную функцию $h$ . Тогда плотность $Y$ выражается через плотность $X$ по формуле

$f_Y(y)=f_X(h(y))|h'(y)|.$

Множитель $|h'(y)|$ учитывает растяжение или сжатие шкалы при переходе от переменной $X$ к переменной $Y$ .

Этот факт важен в генеративных моделях, нормализующих потоках, преобразованиях признаков и байесовском выводе.

Плотность и правдоподобие

В статистике и машинном обучении плотность часто используется для записи правдоподобия. Если наблюдения $x_1,\ldots,x_n$ считаются независимыми и имеют плотность $f(x|\theta)$ , зависящую от параметра $\theta$ , то функция правдоподобия имеет вид

$L(\theta)=\prod_{i=1}^{n} f(x_i|\theta).$

На практике часто используют логарифм правдоподобия:

$\ell(\theta)=\sum_{i=1}^{n}\log f(x_i|\theta).$

Максимизация логарифма правдоподобия лежит в основе многих методов оценивания параметров. В машинном обучении это соответствует обучению вероятностной модели так, чтобы она приписывала большую плотность наблюдаемым данным.

Оценивание плотности

В прикладных задачах истинная плотность распределения обычно неизвестна. Её приходится оценивать по выборке. Эта задача называется оцениванием плотности распределения.

Существуют разные подходы:

параметрическое оценивание, когда предполагается семейство распределений с конечным числом параметров;
непараметрическое оценивание, например гистограммные оценки и ядерная оценка плотности;
модели смесей, например смесь нормальных распределений;
современные генеративные модели, которые задают или приближают плотность данных.

Эта статья описывает само понятие плотности. Методы её восстановления по данным обычно рассматриваются отдельно.

Плотность в машинном обучении

В машинном обучении плотность распределения возникает в нескольких основных ролях.

Во-первых, плотность используется в генеративных моделях, где требуется описать распределение объектов. Если модель задаёт плотность $p(x)$ , то она может использоваться для генерации новых объектов, обнаружения аномалий и сравнения вероятностных гипотез.

Во-вторых, плотность используется в условных моделях. Например, в вероятностной регрессии модель может задавать плотность $p(y|x)$ , описывающую распределение ответа $y$ при заданных признаках $x$ .

В-третьих, плотность лежит в основе байесовского вывода. В байесовской модели правдоподобие и апостериорное распределение часто задаются плотностями.

В-четвёртых, плотность важна для методов обнаружения аномалий. Объекты, которым модель приписывает малую плотность, могут рассматриваться как необычные или плохо объяснимые данной моделью.

Типичные ошибки

Считать значение плотности вероятностью. Вероятность получается только после интегрирования плотности по множеству.
Считать, что плотность не может быть больше единицы. Плотность может быть больше единицы, если при этом площадь под графиком остаётся равной единице.
Забывать о единицах измерения. Если изменить масштаб переменной, численные значения плотности изменятся.
Сравнивать плотности после разных преобразований без поправки на масштаб. При замене переменной нужно учитывать множитель, связанный с производной обратного преобразования.
Предполагать, что любая непрерывная функция распределения имеет плотность. Для существования плотности требуется абсолютная непрерывность распределения.
Путать плотность и гистограмму. Гистограмма является оценкой по конечной выборке, а плотность — свойством вероятностной модели или распределения.
Игнорировать размерность. В многомерных пространствах оценивание плотности становится существенно сложнее из-за проклятия размерности.

См. также

Литература

Feller W. An Introduction to Probability Theory and Its Applications. Vol. 1. Wiley, 1968.
Grimmett G., Stirzaker D. Probability and Random Processes. Oxford University Press, 2001.
Durrett R. Probability: Theory and Examples. Cambridge University Press, 2019.
Wasserman L. All of Statistics: A Concise Course in Statistical Inference. Springer, 2004.

Ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D0%BB%D0%BE%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F»

Категории: Теория вероятностей | Математическая статистика | Машинное обучение | Вероятностные модели | Энциклопедия анализа данных