Информационная энтропия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Vladimir Garanin (Обсуждение | вклад)
(Новая: {{well|Статья написана с использованием LLM '''GPT-5.5 Thinking''' и проверена участником [[Участник:Vladimir Garanin|Vladimir Ga...)
К следующему изменению →

Версия 07:08, 28 июня 2026

Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Vladimir Garanin Vladimir Garanin 11:08, 28 июня 2026 (MSD)


Информационная энтропия — числовая мера неопределённости случайного исхода, введённая Клодом Шенноном в теории информации. В машинном обучении энтропия используется для оценки неоднородности выборки, построения решающих деревьев, анализа вероятностных моделей, измерения качества классификации и формализации понятия информации.

Интуитивно энтропия показывает, насколько трудно заранее угадать результат случайного эксперимента. Если исход почти всегда один и тот же, неопределённость мала. Если все исходы примерно равновероятны, неопределённость максимальна.

Содержание

Формальное определение

Пусть дискретная случайная величина X принимает значения x_1,\ldots,x_m с вероятностями p_1,\ldots,p_m, где p_i = \mathbb P(X=x_i). Энтропия Шеннона определяется как

H(X) = - \sum_{i=1}^{m} p_i \log_b p_i.

Основание логарифма b задаёт единицу измерения информации:

  • при b=2 энтропия измеряется в битах;
  • при b=e — в натах;
  • при b=10 — в хартли.

По соглашению считается, что 0 \log 0 = 0, поскольку

\lim_{p \to 0+} p\log p = 0.

Пример: бинарная энтропия

Для случайной величины с двумя исходами, имеющими вероятности p и 1-p, энтропия равна

H(p) = -p\log_2 p - (1-p)\log_2(1-p).

Если p=0 или p=1, исход полностью определён, поэтому H(p)=0. Если p=1/2, оба исхода равновероятны, и энтропия достигает максимума:

H(1/2)=1.

Таким образом, один бросок симметричной монеты несёт один бит информации. Несимметричная монета несёт меньше информации, так как один из исходов заранее более ожидаем.

Основные свойства

Неотрицательность

Энтропия дискретной случайной величины неотрицательна:

H(X) \geq 0.

Равенство достигается тогда, когда случайная величина фактически не является случайной: один исход имеет вероятность 1, а все остальные — вероятность 0.

Максимум при равномерном распределении

Если случайная величина имеет m возможных исходов, то

H(X) \leq \log_b m.

Максимум достигается при равномерном распределении:

p_1 = p_2 = \ldots = p_m = \frac{1}{m}.

Это свойство отражает важную идею: неопределённость максимальна тогда, когда нет оснований предпочесть один исход другому.

Аддитивность для независимых случайных величин

Если случайные величины X и Y независимы, то энтропия их совместного распределения равна сумме энтропий:

H(X,Y) = H(X) + H(Y).

Например, два независимых броска симметричной монеты дают два бита информации.

Условная энтропия и взаимная информация

Условная энтропия измеряет остаточную неопределённость случайной величины Y после того, как стало известно значение X:

H(Y|X) = - \sum_x \sum_y p(x,y)\log p(y|x).

Если знание X полностью определяет Y, то H(Y|X)=0. Если же X ничего не сообщает о Y, то H(Y|X)=H(Y).

С этим понятием связана взаимная информация:

I(X;Y) = H(Y) - H(Y|X).

Она показывает, насколько знание одной случайной величины уменьшает неопределённость другой. В машинном обучении взаимная информация используется, например, для отбора признаков: хороший признак должен уменьшать неопределённость целевой переменной.

Энтропия в решающих деревьях

В алгоритмах построения решающих деревьев энтропия используется как мера неоднородности множества объектов. Пусть в узле дерева находится множество объектов S, принадлежащих классам 1,\ldots,K. Если доля объектов класса k равна p_k, то энтропия узла равна

H(S) = -\sum_{k=1}^{K} p_k \log_2 p_k.

Если в узле находятся объекты только одного класса, энтропия равна нулю. Если классы представлены примерно поровну, энтропия велика.

При выборе разбиения используется прирост информации:

IG(S,a) = H(S) - \sum_{v \in Values(a)} \frac{|S_v|}{|S|}H(S_v),

где a — признак, по которому выполняется разбиение, а S_v — подмножество объектов, для которых признак принимает значение v. Чем больше прирост информации, тем сильнее разбиение уменьшает неопределённость относительно класса.

Эта идея лежит в основе алгоритма ID3 и близких к нему методов построения деревьев решений.

Связь с кросс-энтропией и дивергенцией Кульбака — Лейблера

В задачах вероятностной классификации часто используется не сама энтропия истинного распределения, а кросс-энтропия между истинным распределением p и предсказанным моделью распределением q:

H(p,q) = -\sum_i p_i \log q_i.

Кросс-энтропия раскладывается как

H(p,q) = H(p) + D_{\mathrm{KL}}(p|q),

где D_{\mathrm{KL}}(p|q)дивергенция Кульбака — Лейблера. Поскольку H(p) не зависит от модели, минимизация кросс-энтропии эквивалентна приближению предсказанного распределения q к истинному распределению p.

В классификации с one-hot-разметкой кросс-энтропия принимает особенно простой вид:

L = -\log q_y,

где q_y — вероятность, которую модель присвоила правильному классу. Поэтому модель сильно штрафуется за уверенный, но неправильный ответ.

Дифференциальная энтропия

Для непрерывных случайных величин используется аналог энтропии — дифференциальная энтропия. Если случайная величина X имеет плотность p(x), то

h(X) = -\int p(x)\log p(x),dx.

Несмотря на внешнее сходство с дискретной формулой, дифференциальная энтропия имеет другие свойства. В частности, она может быть отрицательной и не является инвариантной относительно замены переменных. Поэтому в прикладных задачах её нужно интерпретировать осторожнее, чем дискретную энтропию.

Например, при изменении масштаба измерения непрерывной величины значение дифференциальной энтропии меняется. Это отличает её от дискретной энтропии, где неопределённость связана с вероятностями отдельных исходов.

Оценивание энтропии по данным

На практике истинное распределение обычно неизвестно. Поэтому энтропию приходится оценивать по выборке. Самый простой способ — заменить вероятности частотами:

\hat p_i = \frac{n_i}{n},

где n_i — число наблюдений исхода i, а n — размер выборки.

Тогда эмпирическая энтропия равна

\hat H(X) = -\sum_i \hat p_i \log \hat p_i.

Однако такая оценка может быть смещённой, особенно при малом размере выборки или большом числе возможных исходов. Редкие события могут не попасть в выборку, из-за чего неопределённость будет занижена. В задачах с непрерывными признаками дополнительно возникает проблема выбора дискретизации или оценки плотности.

Применение в машинном обучении

Информационная энтропия используется в различных разделах анализа данных и машинного обучения:

Ограничения интерпретации

Энтропия измеряет неопределённость распределения, но не всегда совпадает с человеческим представлением о сложности или полезности информации. Например, случайная последовательность символов может иметь высокую энтропию, но не иметь осмысленного содержания.

Кроме того, высокая энтропия предсказаний модели не всегда означает, что объект действительно сложен. Это может быть следствием плохой калибровки вероятностей, недостатка обучающих данных или несовпадения распределений обучающей и тестовой выборок.

Поэтому в машинном обучении энтропию обычно используют не как самостоятельный критерий истины, а как удобную математическую меру неопределённости, которую нужно интерпретировать в контексте задачи.

См. также

Литература


  • Shannon, C. E. A Mathematical Theory of Communication. Bell System Technical Journal, 1948, Vol. 27, pp. 379–423, 623–656.
  • Cover, T. M., Thomas, J. A. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  • MacKay, D. J. C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
  • Bishop, C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning. 2nd ed. Springer, 2009.
Личные инструменты