ДНК задачи

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM GPT-4o и проверена участником Arina Pakalova 21:37, 24 июня 2026 (MSD)

ДНК задачи (аббревиатура от Дано — Найти — Критерий) — это мнемоническое правило и базовый математический шаблон, используемый для строгой формализации задач в машинном обучении. Шаблон требует точного описания трех компонент: исходных данных, искомой математической зависимости и функционала, по которому будет оцениваться качество решения.

Использование шаблона ДНК позволяет систематизировать постановку задачи до начала написания кода или выбора конкретных алгоритмов, исключая логические пробелы и некорректные сравнения моделей^[1].

Содержание

1 Структура шаблона
2 Математическая формализация
3 Влияние шаблона на процесс решения
4 Примеры заполнения шаблона
- 4.1 Задача выявления мошеннических транзакций
- 4.2 Задача прогнозирования остаточного срока службы оборудования
5 См. также
6 Литература

Структура шаблона

Дано (Входные данные и ограничения)

Секция описывает информационное пространство, в котором существует задача.

Пространство объектов: Множество $X$ , представляющее все возможные описания объектов. В этой же секции фиксируется признаковое пространство: типы признаков (числовые, категориальные, текстовые, графовые) и их масштабы^[1].
Структура выборки: Характер распределения данных. Фиксируется, выполняется ли предположение о независимости и одинаковой распределенности (н.о.р., англ. i.i.d.), или данные имеют сложную структуру (например, временные ряды с автокорреляцией, пространственные данные).
Системные ограничения: Аппаратные лимиты (объем оперативной памяти, время инференса), которые задают верхнюю границу сложности допустимых моделей.

Найти (Искомая зависимость)

Секция определяет цель построения модели.

Пространство ответов: Множество $Y$ , в котором лежат целевые переменные (для обучения с учителем) или структура выходных данных (для обучения без учителя).
Тип задачи: На основе $X$ и $Y$ определяется математическая формулировка: поиск решающего правила для классификации (отображение $X \to \{1, \dots, K\}$ ), регрессия ( $X \to \mathbb{R}$ ), ранжирование или поиск скрытых структур в $X$ (кластеризация).
Класс моделей: Семейство алгоритмов $\mathcal{A}$ , в котором ведется поиск (например, класс линейных моделей или класс деревьев решений).

Критерий (Функционал качества)

Секция задает математический аппарат для выбора наилучшего алгоритма $a \in \mathcal{A}$ .

Функция потерь (Loss function): Функция $L(a(x), y)$ , оценивающая ошибку одного предсказания. Критерий требует указания её свойств (например, дифференцируемость для применения градиентных методов).
Эмпирический риск (Критерий оптимизации): Функционал $Q(a, X^l) = \frac{1}{l}\sum_{i=1}^{l} L(a(x_i), y_i)$ , который непосредственно минимизируется в процессе обучения на обучающей выборке $X^l$ ^[1].
Внешний критерий (Метрика): Итоговая метрика оценки (например, ROC-AUC, $F_1$ -мера), по которой результаты будут проверяться на тестовой выборке и представляться заказчику. В корректной формулировке ДНК функции потерь и внешняя метрика могут не совпадать, но должны быть коррелированы.

Математическая формализация

В общем виде шаблон ДНК сводит задачу машинного обучения к стандартной задаче оптимизации: $a^* = \arg\min_{a \in \mathcal{A}} Q(a, X^l) \to \min$ где:

$X^l = \{(x_1, y_1), \dots, (x_l, y_l)\}$ — Дано (выборка);
$\mathcal{A}$ — Найти (семейство допустимых решающих правил);
$Q$ — Критерий (функционал эмпирического риска)^[1].

Влияние шаблона на процесс решения

Разделение задачи на компоненты ДНК препятствует типичным ошибкам проектирования. Если специалист не зафиксировал в блоке «Дано» нарушение условия н.о.р. (например, наличие концептуального дрейфа), он может некорректно применить стандартную кросс-валидацию по K блокам (K-fold cross-validation), что приведет к утечке данных (data leakage) и завышенной оценке качества модели^[1].

Аналогично, разделение блоков «Найти» и «Критерий» объясняет использование суррогатных функций потерь. В задаче классификации найти точное решение часто вычислительно невозможно (NP-трудная задача), поэтому в блоке «Критерий» вместо пороговой функции потерь используют её гладкую верхнюю оценку (логистическую функцию или hinge loss), что позволяет применить градиентный спуск для поиска приближенного решения в блоке «Найти»^[1].

Примеры заполнения шаблона

Задача выявления мошеннических транзакций

Дано: $X$ — векторы признаков транзакций (сумма, время, IP-адрес). Выборка не н.о.р. во времени, наблюдается сильный дисбаланс классов (менее 1% фрода). Ограничение: модель должна выдавать ответ менее чем за 50 мс.
Найти: Бинарный классификатор $a: X \to [0, 1]$ , оценивающий вероятность мошенничества (с последующей бинаризацией по порогу).
Критерий: В качестве функции потерь используется логистическая функция потерь (logistic loss) с весами для компенсации дисбаланса. Внешний критерий — Recall (полнота) при фиксированном значении Precision не ниже 90% (обусловлено бизнес-требованием минимизации ложноположительных срабатываний).

Задача прогнозирования остаточного срока службы оборудования

Дано: $X$ — многомерные временные ряды показателей датчиков (вибрация, температура). Длина последовательностей варьируется. Данные содержат пропуски из-за сбоя датчиков.
Найти: Функцию регрессии $a: X \to \mathbb{R}_{+}$ , предсказывающую количество часов до поломки.
Критерий: Функция потерь — среднеквадратичная ошибка (MSE). Внешний критерий — MAE (средняя абсолютная ошибка), так как она более робастна к выбросам и понятна инженерам.

См. также

Литература

Воронцов К. В. Математические методы обучения по прецедентам. — М.: МЦНМО, 2018. ^[1]
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. ^[1]
Шолле Ф. Глубокое обучение. — М.: МЦНМО, 2018. ^[1]

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%94%D0%9D%D0%9A_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8»

@@ Строка 1: / Строка 1: @@
-{{well|Статья написана с использованием LLM '''GPT-4o''' и проверена участником [[Участник:Arina Pakalova|Arina Pakalova]] 21:23, 24 июня 2026 (MSD)}}
+{{well|Статья написана с использованием LLM '''GPT-4o''' и проверена участником [[Участник:Arina Pakalova|Arina Pakalova]] 21:37, 24 июня 2026 (MSD)}}
 '''ДНК задачи''' (аббревиатура от '''Д'''ано — '''Н'''айти — '''К'''ритерий) — это мнемоническое правило и базовый математический шаблон, используемый для строгой формализации задач в [[Машинное обучение|машинном обучении]]. Шаблон требует точного описания трех компонент: исходных данных, искомой математической зависимости и функционала, по которому будет оцениваться качество решения.
@@ Строка 9: / Строка 9: @@
 === Дано (Входные данные и ограничения) ===
 Секция описывает информационное пространство, в котором существует задача.
-* '''Пространство объектов:''' Множество $X$, представляющее все возможные описания объектов. В этой же секции фиксируется [[Признаковое описание объектов|признаковое пространство]]: типы признаков (числовые, категориальные, текстовые, графовые) и их масштабы<ref name="ESL">Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning // Springer, 2009.</ref>.
+* '''Пространство объектов:''' Множество <tex>X</tex>, представляющее все возможные описания объектов. В этой же секции фиксируется [[Признаковое описание объектов|признаковое пространство]]: типы признаков (числовые, категориальные, текстовые, графовые) и их масштабы<ref name="ESL">Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning // Springer, 2009.</ref>.
-* '''Структура выборки:''' Характер распределения данных. Фиксируется, выполняется ли предположение о независимости и одинаковой распределенности (н.о.р., англ. *i.i.d.*), или данные имеют сложную структуру (например, [[Временные ряды|временные ряды]] с автокорреляцией, пространственные данные).
+* '''Структура выборки:''' Характер распределения данных. Фиксируется, выполняется ли предположение о независимости и одинаковой распределенности (н.о.р., англ. ''i.i.d.''), или данные имеют сложную структуру (например, [[Временные ряды|временные ряды]] с автокорреляцией, пространственные данные).
 * '''Системные ограничения:''' Аппаратные лимиты (объем [[Оперативная память|оперативной памяти]], время инференса), которые задают верхнюю границу сложности допустимых моделей.
 === Найти (Искомая зависимость) ===
 Секция определяет цель построения модели.
-* '''Пространство ответов:''' Множество $Y$, в котором лежат целевые переменные (для [[Обучение с учителем|обучения с учителем]]) или структура выходных данных (для [[Обучение без учителя|обучения без учителя]]).
+* '''Пространство ответов:''' Множество <tex>Y</tex>, в котором лежат целевые переменные (для [[Обучение с учителем|обучения с учителем]]) или структура выходных данных (для [[Обучение без учителя|обучения без учителя]]).
-* '''Тип задачи:''' На основе $X$ и $Y$ определяется математическая формулировка: поиск решающего правила для [[Классификация|классификации]] (отображение $X \to \{1, \dots, K\}$), [[Регрессия (машинное обучение)|регрессия]] ($X \to \mathbb{R}$), [[Ранжирование|ранжирование]] или поиск скрытых структур в $X$ ([[Кластеризация|кластеризация]]).
+* '''Тип задачи:''' На основе <tex>X</tex> и <tex>Y</tex> определяется математическая формулировка: поиск решающего правила для [[Классификация|классификации]] (отображение <tex>X \to \{1, \dots, K\}</tex>), [[Регрессия (машинное обучение)|регрессия]] (<tex>X \to \mathbb{R}</tex>), [[Ранжирование|ранжирование]] или поиск скрытых структур в <tex>X</tex> ([[Кластеризация|кластеризация]]).
-* '''Класс моделей:''' Семейство алгоритмов $\mathcal{A}$, в котором ведется поиск (например, класс линейных моделей или класс деревьев решений).
+* '''Класс моделей:''' Семейство алгоритмов <tex>\mathcal{A}</tex>, в котором ведется поиск (например, класс линейных моделей или класс деревьев решений).
 === Критерий (Функционал качества) ===
-Секция задает математический аппарат для выбора наилучшего алгоритма $a \in \mathcal{A}$.
+Секция задает математический аппарат для выбора наилучшего алгоритма <tex>a \in \mathcal{A}</tex>.
-* '''Функция потерь (Loss function):''' Функция $L(a(x), y)$, оценивающая ошибку одного предсказания. Критерий требует указания её свойств (например, дифференцируемость для применения градиентных методов).
+* '''Функция потерь (Loss function):''' Функция <tex>L(a(x), y)</tex>, оценивающая ошибку одного предсказания. Критерий требует указания её свойств (например, дифференцируемость для применения градиентных методов).
-* '''Эмпирический риск (Критерий оптимизации):''' Функционал $Q(a, X^l) = \frac{1}{l}\sum_{i=1}^{l} L(a(x_i), y_i)$, который непосредственно минимизируется в процессе обучения на [[Обучающая выборка|обучающей выборке]] $X^l$<ref name="vorontsov"/>.
+* '''Эмпирический риск (Критерий оптимизации):''' Функционал <tex>Q(a, X^l) = \frac{1}{l}\sum_{i=1}^{l} L(a(x_i), y_i)</tex>, который непосредственно минимизируется в процессе обучения на [[Обучающая выборка|обучающей выборке]] <tex>X^l</tex><ref name="vorontsov"/>.
-* '''Внешний критерий (Метрика):''' Итоговая метрика оценки (например, ROC-AUC, $F_1$-мера), по которой результаты будут проверяться на тестовой выборке и представляться заказчику. В корректной формулировке ДНК функции потерь и внешняя метрика могут не совпадать, но должны быть коррелированы.
+* '''Внешний критерий (Метрика):''' Итоговая метрика оценки (например, ROC-AUC, <tex>F_1</tex>-мера), по которой результаты будут проверяться на тестовой выборке и представляться заказчику. В корректной формулировке ДНК функции потерь и внешняя метрика могут не совпадать, но должны быть коррелированы.
 == Математическая формализация ==
 В общем виде шаблон ДНК сводит задачу машинного обучения к стандартной задаче оптимизации:
-$$a^* = \arg\min_{a \in \mathcal{A}} Q(a, X^l) \to \min$$
+<tex>a^* = \arg\min_{a \in \mathcal{A}} Q(a, X^l) \to \min</tex>
 где:
-* $X^l = \{(x_1, y_1), \dots, (x_l, y_l)\}$ — '''Дано''' (выборка);
+* <tex>X^l = \{(x_1, y_1), \dots, (x_l, y_l)\}</tex> — '''Дано''' (выборка);
-* $\mathcal{A}$ — '''Найти''' (семейство допустимых решающих правил);
+* <tex>\mathcal{A}</tex> — '''Найти''' (семейство допустимых решающих правил);
-* $Q$ — '''Критерий''' (функционал эмпирического риска)<ref name="ESL"/>.
+* <tex>Q</tex> — '''Критерий''' (функционал эмпирического риска)<ref name="ESL"/>.
-## Влияние шаблона на процесс решения
+== Влияние шаблона на процесс решения ==
-Разделение задачи на компоненты ДНК препятствует типичным ошибкам проектирования. Если специалист не зафиксировал в блоке «Дано» нарушение условия н.о.р. (например, presence of concept drift), он может некорректно применить стандартную кросс-валидацию по K блокам (K-fold cross-validation), что приведет к утечки данных (data leakage) и завышенной оценке качества модели<ref name="sholle">Шолле Ф. Глубокое обучение // МЦНМО, 2018.</ref>.
+Разделение задачи на компоненты ДНК препятствует типичным ошибкам проектирования. Если специалист не зафиксировал в блоке «Дано» нарушение условия н.о.р. (например, наличие концептуального дрейфа), он может некорректно применить стандартную кросс-валидацию по K блокам (K-fold cross-validation), что приведет к утечке данных (data leakage) и завышенной оценке качества модели<ref name="sholle">Шолле Ф. Глубокое обучение // МЦНМО, 2018.</ref>.
 Аналогично, разделение блоков «Найти» и «Критерий» объясняет использование суррогатных функций потерь. В задаче классификации найти точное решение часто вычислительно невозможно (NP-трудная задача), поэтому в блоке «Критерий» вместо пороговой функции потерь используют её гладкую верхнюю оценку (логистическую функцию или hinge loss), что позволяет применить градиентный спуск для поиска приближенного решения в блоке «Найти»<ref name="vorontsov"/>.
@@ Строка 43: / Строка 43: @@
 === Задача выявления мошеннических транзакций ===
-* '''Дано:''' $X$ — векторы признаков транзакций (сумма, время, IP-адрес). Выборка не н.о.р. во времени, наблюдается сильный дисбаланс классов (менее 1% фрода). Ограничение: модель должна выдавать ответ за менее чем 50 мс.
+* '''Дано:''' <tex>X</tex> — векторы признаков транзакций (сумма, время, IP-адрес). Выборка не н.о.р. во времени, наблюдается сильный дисбаланс классов (менее 1% фрода). Ограничение: модель должна выдавать ответ менее чем за 50 мс.
-* '''Найти:''' Бинарный классификатор $a: X \to \{0, 1\}$, оценивающий вероятность мошенничества.
+* '''Найти:''' Бинарный классификатор <tex>a: X \to [0, 1]</tex>, оценивающий вероятность мошенничества (с последующей бинаризацией по порогу).
-* '''Критерий:''' В качестве функции потерь используется логистическаяloss с весами для компенсации дисбаланса. Внешний критерий — Recall (полнота) при фиксированном значении Precision не ниже 90% (обусловлено бизнес-требованием минимизации ложноположительных срабатываний).
+* '''Критерий:''' В качестве функции потерь используется логистическая функция потерь (logistic loss) с весами для компенсации дисбаланса. Внешний критерий — Recall (полнота) при фиксированном значении Precision не ниже 90% (обусловлено бизнес-требованием минимизации ложноположительных срабатываний).
 === Задача прогнозирования остаточного срока службы оборудования ===
-* '''Дано:''' $X$ — многомерные временные ряды показателей датчиков (вибрация, температура). Длина последовательностей варьируется. Данные содержат пропуски из-за сбоя датчиков.
+* '''Дано:''' <tex>X</tex> — многомерные временные ряды показателей датчиков (вибрация, температура). Длина последовательностей варьируется. Данные содержат пропуски из-за сбоя датчиков.
-* '''Найти:''' Функцию регрессии $a: X \to \mathbb{R}_{+}$, предсказывающую количество часов до поломки.
+* '''Найти:''' Функцию регрессии <tex>a: X \to \mathbb{R}_{+}</tex>, предсказывающую количество часов до поломки.
 * '''Критерий:''' Функция потерь — среднеквадратичная ошибка (MSE). Внешний критерий — MAE (средняя абсолютная ошибка), так как она более робастна к выбросам и понятна инженерам.