Многоклассовая классификация

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova

Содержание

1 Многоклассовая классификация

Многоклассовая классификация

Многоклассовая классификация — задача машинного обучения, в которой требуется отнести каждый объект к одному из трёх и более взаимоисключающих классов на основании наблюдаемых признаков. Является одним из фундаментальных разделов обучения с учителем и применяется в компьютерном зрении, обработке естественного языка, биоинформатике, медицинской диагностике, рекомендательных системах и других областях.

В отличие от бинарной классификации, где возможны только два класса, при многоклассовой классификации алгоритм выбирает один класс из множества возможных. Примерами являются распознавание рукописных цифр (10 классов), классификация видов растений, определение языка текста или диагностика заболевания по нескольким категориям.

Постановка задачи

Пусть задано множество объектов

$\mathcal{D} = {(x_i, y_i)}_{i=1}^{N},$

где $x_i \in \mathbb{R}^{d}$ — вектор признаков, а

$y_i \in {1,\ldots,K}$

— номер одного из $K$ классов.

Требуется построить функцию

$f : X \rightarrow {1,\ldots,K},$

которая минимизирует вероятность ошибки на новых данных.

Во многих современных алгоритмах модель оценивает вероятности принадлежности объекта каждому классу

$P(y=k\mid x),$

после чего выбирается класс с максимальной вероятностью:

$\hat y=\arg\max_k P(y=k|x).$

История

Первые методы многоклассовой классификации появились в статистической теории распознавания образов в середине XX века. Существенный вклад внесли работы по линейному дискриминантному анализу, логистической регрессии и байесовским классификаторам.

В 1990-х годах широкое распространение получили методы, основанные на методе опорных векторов, для которых были предложены схемы сведения многоклассовой задачи к нескольким бинарным задачам.

С начала 2010-х годов доминирующими стали методы глубокого обучения, использующие многослойные нейронные сети и функцию потерь Softmax с кросс-энтропией.

Основные подходы

Прямые многоклассовые модели

Некоторые алгоритмы непосредственно оптимизируют многоклассовую постановку:

В нейронных сетях обычно используется последний слой Softmax, который преобразует выходы модели в вероятностное распределение по классам.

Сведение к бинарной классификации

Для алгоритмов, ориентированных на бинарные задачи, применяются специальные схемы.

One-vs-Rest

Каждый классификатор обучается отличать один класс от всех остальных.

Преимущества:

простота реализации;
небольшое число моделей ( $K$ ).

Недостатки:

возможен сильный дисбаланс классов;
вероятности различных моделей плохо согласованы между собой.

One-vs-One

Строится отдельный классификатор для каждой пары классов.

Количество моделей составляет

$\frac{K(K-1)}{2}$

Итоговое решение принимается голосованием либо агрегированием вероятностей.

Error-Correcting Output Codes

Метод использует кодирование классов длинными двоичными кодами, что позволяет повысить устойчивость к ошибкам отдельных бинарных классификаторов.

Методы машинного обучения

Логистическая регрессия

Многономиальная логистическая регрессия моделирует вероятности всех классов одновременно посредством функции Softmax. Благодаря выпуклой оптимизации является одним из наиболее интерпретируемых методов.

Метод опорных векторов

Классический метод опорных векторов первоначально был разработан для бинарной классификации. Для многоклассовых задач обычно используются схемы One-vs-One, One-vs-Rest либо специализированные многоклассовые постановки.

Деревья решений

Деревья решений разбивают пространство признаков на области, соответствующие различным классам. Они легко интерпретируются и способны учитывать нелинейные зависимости.

Ансамблевые методы

Случайный лес и градиентный бустинг являются одними из наиболее успешных классических алгоритмов. Они эффективно работают с табличными данными и устойчивы к шуму.

Глубокие нейронные сети

Современные нейронные сети являются стандартом де-факто для задач компьютерного зрения и обработки естественного языка. Архитектуры CNN, Transformer и Vision Transformer позволяют классифицировать тысячи категорий с высокой точностью.

Функции потерь

Наиболее распространённой является категориальная кросс-энтропия:

$L=-\sum_{k=1}^{K} y_k \log p_k.$

Для несбалансированных данных применяются:

Focal Loss;
взвешенная кросс-энтропия;
Label Smoothing;
Balanced Softmax.

Оценка качества

Для оценки качества многоклассовых моделей используются:

accuracy;
precision;
recall;
F-мера;
матрица ошибок;
Macro Average;
Micro Average;
Weighted Average;
Top-k Accuracy;
Log Loss.

При сильном дисбалансе классов точность (Accuracy) может быть недостаточно информативной, поэтому обычно дополнительно анализируются Precision, Recall и F-мера.

Дисбаланс классов

Во многих практических задачах различные классы представлены неодинаково.

Для борьбы с дисбалансом применяются:

повторная выборка данных;
генерация примеров (SMOTE);
взвешивание функции потерь;
Focal Loss;
ансамблевые методы.

Современные исследования

В последние годы исследования сосредоточены на нескольких направлениях.

Большое число классов

В задачах поиска изображений и интернет-каталогов число классов может достигать миллионов. Для таких случаев разрабатываются иерархические Softmax, Approximate Nearest Neighbor и методы поиска по эмбеддингам.

Few-shot и Zero-shot классификация

Современные модели способны распознавать новые категории по небольшому числу примеров (Few-shot Learning) либо исключительно по текстовому описанию (Zero-shot Learning).

Наиболее известными моделями являются CLIP и последующие мультимодальные архитектуры.

Самообучение

Всё большую популярность приобретают методы самообучения, позволяющие предварительно обучать представления без разметки, после чего выполнять многоклассовую классификацию с небольшим количеством размеченных данных.

Калибровка вероятностей

Одной из актуальных задач является получение хорошо откалиброванных вероятностей. Наиболее распространены методы Temperature Scaling, Platt Scaling и Isotonic Regression.

Области применения

Многоклассовая классификация используется в:

компьютерном зрении;
обработке естественного языка;
медицинской диагностике;
биоинформатике;
анализе спутниковых изображений;
промышленном контроле качества;
рекомендательных системах;
робототехнике;
финансовом анализе;
обнаружении вредоносного программного обеспечения.

См. также

Примечания

Литература

Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006.

Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2-е. — Springer, 2009.

Rifkin R., Klautau A. In Defense of One-vs-All Classification // Journal of Machine Learning Research. — 2004. — Т. 5. — С. 101–141.

Dietterich T., Bakiri G. Solving Multiclass Learning Problems via Error-Correcting Output Codes // Journal of Artificial Intelligence Research. — 1995. — Т. 2. — С. 263–286.

Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. ImageNet: A Large-Scale Hierarchical Image Database // CVPR. — 2009.

He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // CVPR. — 2016.

Radford A. и др. Learning Transferable Visual Models From Natural Language Supervision // ICML. — 2021.

Guo C., Pleiss G., Sun Y., Weinberger K. On Calibration of Modern Neural Networks // ICML. — 2017.

Lin T.-Y., Goyal P., Girshick R., He K., Dollár P. Focal Loss for Dense Object Detection // ICCV. — 2017.

Multiclass and Multioutput Algorithms

CrossEntropyLoss

Probabilistic Losses

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F»

Многоклассовая классификация

Материал из MachineLearning.

Текущая версия

Содержание

Многоклассовая классификация

Постановка задачи

История

Основные подходы

Прямые многоклассовые модели

Сведение к бинарной классификации

One-vs-Rest

One-vs-One

Error-Correcting Output Codes

Методы машинного обучения

Логистическая регрессия

Метод опорных векторов

Деревья решений

Ансамблевые методы

Глубокие нейронные сети

Функции потерь

Оценка качества

Дисбаланс классов

Современные исследования

Большое число классов

Few-shot и Zero-shot классификация

Самообучение

Калибровка вероятностей

Области применения

См. также

Примечания

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

@@ Строка 1: / Строка 1: @@
-{{викистатья|Многоклассовая классификация}}
+{{well|Статья написана с использованием LLM '''ChatGPT 5.5''' и проверена участником [[Liliia Davletova]]}}
-== Многоклассовая классификация ==
+= Многоклассовая классификация =
-**Многоклассовая классификация** — задача [[машинное обучение|машинного обучения]], в которой требуется отнести каждый объект к одному из более чем двух классов. В отличие от [[бинарная классификация|бинарной классификации]], где есть только два возможных исхода (например, «спам» или «не спам»), в многоклассовой постановке пространство меток содержит <tex>K > 2</tex> классов: <tex>\mathcal{Y} = \{1, 2, \dots, K\}</tex>.
+'''Многоклассовая классификация''' — задача [[машинное обучение|машинного обучения]], в которой требуется отнести каждый объект к одному из трёх и более взаимоисключающих [[класс (машинное обучение)|классов]] на основании наблюдаемых [[признак (машинное обучение)|признаков]]. Является одним из фундаментальных разделов [[обучение с учителем|обучения с учителем]] и применяется в [[компьютерное зрение|компьютерном зрении]], [[обработка естественного языка|обработке естественного языка]], [[биоинформатика|биоинформатике]], медицинской диагностике, рекомендательных системах и других областях.
-Эта задача встречается повсеместно: от распознавания рукописных цифр до определения жанра фильма по кадру, от классификации видов растений до маршрутизации обращений в техподдержку.
+В отличие от [[бинарная классификация|бинарной классификации]], где возможны только два класса, при многоклассовой классификации алгоритм выбирает один класс из множества возможных. Примерами являются распознавание рукописных цифр (10 классов), классификация видов растений, определение языка текста или диагностика заболевания по нескольким категориям.
----
 == Постановка задачи ==
-Пусть дана обучающая выборка <tex>\{(x_i, y_i)\}_{i=1}^N</tex>, где <tex>x_i \in \mathcal{X}</tex> — признаковое описание объекта (вектор, изображение, текст), а <tex>y_i \in \{1,\dots,K\}</tex> — его истинная метка класса. Цель — построить функцию <tex>f: \mathcal{X} \to \{1,\dots,K\}</tex>, которая будет правильно предсказывать класс для новых объектов.
+Пусть задано множество объектов
+:<tex>\mathcal{D} = {(x_i, y_i)}_{i=1}^{N},</tex>
+где <tex>x_i \in \mathbb{R}^{d}</tex> — вектор признаков, а
+:<tex>y_i \in {1,\ldots,K}</tex>
+— номер одного из <tex>K</tex> классов.
+Требуется построить функцию
+:<tex>f : X \rightarrow {1,\ldots,K},</tex>
+которая минимизирует вероятность ошибки на новых данных.
+Во многих современных алгоритмах модель оценивает вероятности принадлежности объекта каждому классу
+:<tex>P(y=k\mid x),</tex>
+после чего выбирается класс с максимальной вероятностью:
+:<tex>\hat y=\arg\max_k P(y=k|x).</tex>
+== История ==
+Первые методы многоклассовой классификации появились в статистической теории распознавания образов в середине XX века. Существенный вклад внесли работы по [[линейный дискриминантный анализ|линейному дискриминантному анализу]], [[логистическая регрессия|логистической регрессии]] и [[байесовский классификатор|байесовским классификаторам]].
+В 1990-х годах широкое распространение получили методы, основанные на [[метод опорных векторов|методе опорных векторов]], для которых были предложены схемы сведения многоклассовой задачи к нескольким бинарным задачам.
+С начала 2010-х годов доминирующими стали методы [[глубокое обучение|глубокого обучения]], использующие многослойные [[искусственная нейронная сеть|нейронные сети]] и функцию потерь [[Softmax|Softmax]] с [[кросс-энтропия|кросс-энтропией]].
+== Основные подходы ==
+=== Прямые многоклассовые модели ===
+Некоторые алгоритмы непосредственно оптимизируют многоклассовую постановку:
+* [[логистическая регрессия|многономиальная логистическая регрессия]];
+* [[дерево решений|деревья решений]];
+* [[случайный лес]];
+* [[градиентный бустинг]];
+* [[искусственная нейронная сеть|нейронные сети]];
+* [[наивный байесовский классификатор]].
+В нейронных сетях обычно используется последний слой Softmax, который преобразует выходы модели в вероятностное распределение по классам.
+=== Сведение к бинарной классификации ===
+Для алгоритмов, ориентированных на бинарные задачи, применяются специальные схемы.
+==== One-vs-Rest ====
+Каждый классификатор обучается отличать один класс от всех остальных.
+Преимущества:
+* простота реализации;
+* небольшое число моделей (<tex>K</tex>).
+Недостатки:
+* возможен сильный дисбаланс классов;
+* вероятности различных моделей плохо согласованы между собой.
+==== One-vs-One ====
+Строится отдельный классификатор для каждой пары классов.
+Количество моделей составляет
+:<tex>\frac{K(K-1)}{2}</tex>
+Итоговое решение принимается голосованием либо агрегированием вероятностей.
+==== Error-Correcting Output Codes ====
+Метод использует кодирование классов длинными двоичными кодами, что позволяет повысить устойчивость к ошибкам отдельных бинарных классификаторов.
+== Методы машинного обучения ==
+=== Логистическая регрессия ===
+Многономиальная логистическая регрессия моделирует вероятности всех классов одновременно посредством функции Softmax. Благодаря выпуклой оптимизации является одним из наиболее интерпретируемых методов.
+=== Метод опорных векторов ===
+Классический [[метод опорных векторов]] первоначально был разработан для бинарной классификации. Для многоклассовых задач обычно используются схемы One-vs-One, One-vs-Rest либо специализированные многоклассовые постановки.
+=== Деревья решений ===
+[[Дерево решений|Деревья решений]] разбивают пространство признаков на области, соответствующие различным классам. Они легко интерпретируются и способны учитывать нелинейные зависимости.
+=== Ансамблевые методы ===
+[[Случайный лес]] и [[градиентный бустинг]] являются одними из наиболее успешных классических алгоритмов. Они эффективно работают с табличными данными и устойчивы к шуму.
+=== Глубокие нейронные сети ===
+Современные [[искусственная нейронная сеть|нейронные сети]] являются стандартом де-факто для задач компьютерного зрения и обработки естественного языка. Архитектуры [[свёрточная нейронная сеть|CNN]], [[трансформер (машинное обучение)|Transformer]] и [[Vision Transformer]] позволяют классифицировать тысячи категорий с высокой точностью.
+== Функции потерь ==
+Наиболее распространённой является категориальная кросс-энтропия:
+:<tex>L=-\sum_{k=1}^{K} y_k \log p_k.</tex>
+Для несбалансированных данных применяются:
+* [[Focal Loss]];
+* взвешенная кросс-энтропия;
+* Label Smoothing;
+* Balanced Softmax.
+== Оценка качества ==
+Для оценки качества многоклассовых моделей используются:
-Часто модель выдаёт не жёсткое решение, а вектор вероятностей принадлежности к классам: <tex>\hat{p}_i = (\hat{p}_{i1}, \dots, \hat{p}_{iK})</tex>, где <tex>\sum_{k=1}^{K} \hat{p}_{ik} = 1</tex> и <tex>\hat{p}_{ik} \ge 0</tex>. Тогда финальный класс выбирается как <tex>\arg\max_k \hat{p}_{ik}</tex>.
+* [[accuracy]];
+* [[precision]];
+* [[recall]];
+* [[F-мера]];
+* [[матрица ошибок]];
+* Macro Average;
+* Micro Average;
+* Weighted Average;
+* Top-k Accuracy;
+* Log Loss.
----
+При сильном дисбалансе классов точность (Accuracy) может быть недостаточно информативной, поэтому обычно дополнительно анализируются Precision, Recall и F-мера.
-== Подходы к решению ==
+== Дисбаланс классов ==
-### Прямые методы (native multiclass)
+Во многих практических задачах различные классы представлены неодинаково.
-Некоторые алгоритмы изначально поддерживают многоклассовую постановку:
+Для борьбы с дисбалансом применяются:
-- [[деревья решений]] и ансамбли на их основе ([[случайный лес|случайные леса]], [[градиентный бустинг]]) — строят правила разделения пространства признаков сразу на несколько классов.
+* повторная выборка данных;
-- [[метод опорных векторов|SVM]] с многоклассовыми стратегиями (например, one-vs-rest или структурные SVM).
+* генерация примеров ([[SMOTE]]);
-- [[нейронные сети]] с выходным слоем из <tex>K</tex> нейронов и активацией [[softmax]].
+* взвешивание функции потерь;
+* Focal Loss;
+* ансамблевые методы.
-### Стратегии сведения к бинарным задачам
+== Современные исследования ==
-Когда базовый алгоритм умеет решать только бинарные задачи, применяют стратегии композиции:
+В последние годы исследования сосредоточены на нескольких направлениях.
-- **One-vs-Rest (OvR)**: для каждого класса обучается отдельный классификатор «этот класс против всех остальных». Итого <tex>K</tex> бинарных моделей.
+=== Большое число классов ===
-- **One-vs-One (OvO)**: обучается <tex>\binom{K}{2}</tex> классификаторов, каждый различает пару классов. Финальный класс определяется голосованием.
-- **Древовидные стратегии**: классы организуются в бинарное дерево, и объект последовательно проходит по узлам, пока не достигнет листа.
-На практике OvR и OvO часто реализуются как «обёртки» над бинарными алгоритмами и широко используются в библиотеках типа scikit-learn.
+В задачах поиска изображений и интернет-каталогов число классов может достигать миллионов. Для таких случаев разрабатываются иерархические Softmax, Approximate Nearest Neighbor и методы поиска по эмбеддингам.
----
+=== Few-shot и Zero-shot классификация ===
-== Функции потерь и обучение ==
+Современные модели способны распознавать новые категории по небольшому числу примеров (Few-shot Learning) либо исключительно по текстовому описанию (Zero-shot Learning).
-Для нейронных сетей и многих вероятностных моделей стандартом является **кросс-энтропийная потеря** (categorical cross-entropy):
+Наиболее известными моделями являются [[CLIP]] и последующие мультимодальные архитектуры.
-<tex>
+=== Самообучение ===
-L = -\frac{1}{N}\sum_{i=1}^{N} \sum_{k=1}^{K} y_{ik} \log(\hat{p}_{ik}),
-</tex>
-где <tex>y_{ik}</tex> — индикаторная переменная: <tex>1</tex>, если объект <tex>i</tex> принадлежит классу <tex>k</tex>, и <tex>0</tex> иначе.
+Всё большую популярность приобретают методы [[самообучение|самообучения]], позволяющие предварительно обучать представления без разметки, после чего выполнять многоклассовую классификацию с небольшим количеством размеченных данных.
-Для алгоритмов, не выдающих вероятности напрямую, используют другие критерии: например, долю ошибок (accuracy) или более устойчивые метрики при дисбалансе.
+=== Калибровка вероятностей ===
----
+Одной из актуальных задач является получение хорошо откалиброванных вероятностей. Наиболее распространены методы Temperature Scaling, Platt Scaling и Isotonic Regression.
-== Метрики качества ==
+== Области применения ==
-Помимо общей [[точность (машинное обучение)|точности]] (accuracy), важно оценивать качество по каждому классу:
+Многоклассовая классификация используется в:
-- [[точность (precision)|точность]] и [[полнота (recall)|полнота]] для каждого класса.
+* [[компьютерное зрение|компьютерном зрении]];
-- [[F-мера|F1-мера]], в том числе макро- и микроусреднённые версии.
+* [[обработка естественного языка|обработке естественного языка]];
-- Матрица ошибок (confusion matrix) — наглядно показывает, какие классы чаще всего путают.
+* [[медицинская диагностика|медицинской диагностике]];
+* [[биоинформатика|биоинформатике]];
+* анализе спутниковых изображений;
+* промышленном контроле качества;
+* рекомендательных системах;
+* робототехнике;
+* финансовом анализе;
+* обнаружении вредоносного программного обеспечения.
-При сильном дисбалансе классов accuracy может быть обманчиво высокой, поэтому используют взвешенные метрики и анализ по слабым классам.
+== См. также ==
----
+* [[Машинное обучение]]
+* [[Обучение с учителем]]
+* [[Бинарная классификация]]
+* [[Логистическая регрессия]]
+* [[Метод опорных векторов]]
+* [[Дерево решений]]
+* [[Случайный лес]]
+* [[Глубокое обучение]]
+* [[Кросс-энтропия]]
+* [[Матрица ошибок]]
-== Практические сложности и нюансы ==
+== Примечания ==
-- **Дисбаланс классов**: некоторые классы представлены гораздо реже остальных. Помогают техники вроде взвешивания классов, oversampling/undersampling, focal loss.
+{{примечания}}
-- **Перекрытие классов**: объекты разных классов могут иметь схожие признаки. Здесь полезны ансамбли и более сложные модели.
-- **Интерпретируемость**: в критических областях (медицина, финансы) важно понимать, почему модель выбрала тот или иной класс.
----
+== Литература ==
-== Примеры применения ==
+* {{статья
+  | автор = Bishop C. M.
+  | заглавие = Pattern Recognition and Machine Learning
+  | язык = en
+  | издательство = Springer
+  | год = 2006
+  }}
-- Распознавание изображений: определение объекта среди десятков или сотен категорий (ImageNet).
+* {{книга
-- Обработка естественного языка: классификация текста по темам, тональности, языку.
+  | автор = Hastie T., Tibshirani R., Friedman J.
-- Медицина: дифференциальная диагностика по набору признаков.
+  | заглавие = The Elements of Statistical Learning
+  | издание = 2-е
+  | издательство = Springer
+  | год = 2009
+  | язык = en
+  }}
-Интересно, что задача определения фильма по кадру — это тоже многоклассовая классификация: каждый фильм выступает как отдельный класс, а модель должна выбрать наиболее вероятный из тысяч кандидатов.
+* {{статья
+  | автор = Rifkin R., Klautau A.
+  | заглавие = In Defense of One-vs-All Classification
+  | издание = Journal of Machine Learning Research
+  | год = 2004
+  | том = 5
+  | страницы = 101–141
+  }}
----
+* {{статья
+  | автор = Dietterich T., Bakiri G.
+  | заглавие = Solving Multiclass Learning Problems via Error-Correcting Output Codes
+  | издание = Journal of Artificial Intelligence Research
+  | год = 1995
+  | том = 2
+  | страницы = 263–286
+  }}
-== Современные тенденции ==
+* {{статья
+  | автор = Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L.
+  | заглавие = ImageNet: A Large-Scale Hierarchical Image Database
+  | издание = CVPR
+  | год = 2009
+  }}
-В последние годы развитие многоклассовой классификации тесно связано с прогрессом в глубоком обучении:
+* {{статья
+  | автор = He K., Zhang X., Ren S., Sun J.
+  | заглавие = Deep Residual Learning for Image Recognition
+  | издание = CVPR
+  | год = 2016
+  }}
-- Большие предобученные модели (трансформеры, сверточные сети) дают сильные признаки, которые затем дообучаются под конкретную задачу.
+* {{статья
-- Методы борьбы с дисбалансом и «длинным хвостом» классов (long-tail classification) активно исследуются.
+  | автор = Radford A. и др.
-- Важным направлением остаётся интерпретируемость и надёжность предсказаний.
+  | заглавие = Learning Transferable Visual Models From Natural Language Supervision
+  | издание = ICML
+  | год = 2021
+  }}
----
+* {{статья
+  | автор = Guo C., Pleiss G., Sun Y., Weinberger K.
+  | заглавие = On Calibration of Modern Neural Networks
+  | издание = ICML
+  | год = 2017
+  }}
-== Литература и источники ==
+* {{статья
+  | автор = Lin T.-Y., Goyal P., Girshick R., He K., Dollár P.
+  | заглавие = Focal Loss for Dense Object Detection
+  | издание = ICCV
+  | год = 2017
+  }}
-* {{статья |автор=Hastie T., Tibshirani R., Friedman J. |заглавие=The Elements of Statistical Learning |издание=Springer Series in Statistics |год=2009 |ссылка=https://hastie.su.domains/ElemStatLearn/}}
+* {{cite web
-* {{книга |автор=Murphy K. P. |заглавие=Machine Learning: A Probabilistic Perspective |издательство=MIT Press |год=2012}}
+  | url = https://scikit-learn.org/stable/modules/multiclass.html
-* {{статья |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |издательство=Springer |год=2006}}
+  | title = Multiclass and Multioutput Algorithms
-* {{cite web |url=https://scikit-learn.org/stable/modules/multiclass.html |title=Multiclass and multilabel algorithms |publisher=scikit-learn documentation}}
+  | website = scikit-learn
-* {{статья |автор=He K., Zhang X., Ren S., Sun J. |заглавие=Deep Residual Learning for Image Recognition |conference=CVPR |год=2016}}
+  | language = en
-* {{статья |автор=Dosovitskiy A. et al. |заглавие=An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale |conference=ICLR |год=2021}}
+  | access-date = 2026-06-30
+  }}
----
+* {{cite web
+  | url = https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html
+  | title = CrossEntropyLoss
+  | website = PyTorch Documentation
+  | language = en
+  | access-date = 2026-06-30
+  }}
-{{см. также|бинарная классификация|мультилейбл-классификация|ансамблевые методы}}
+* {{cite web
+  | url = https://keras.io/api/losses/probabilistic_losses/
+  | title = Probabilistic Losses
+  | website = Keras Documentation
+  | language = en
+  | access-date = 2026-06-30
+  }}