Обсуждение:Площадь под ROC-кривой

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Первый промпт к DeepSeek-V3 был таким:

Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши энциклопедическую статью про площадь под ROC-кривой на русском языке. Придерживайся структуры и стиля, принятого в Википедии. Англоязычная статья в Википедии (Receiver operating characteristic) написана хорошо, но изначально сильно перегружена медицинскими примерами и радиолокацией. Её можно брать за основу, но сместить акцент именно на машинное обучение, бинарную классификацию и оценку качества алгоритмов. Важные математические формулы лучше оставить.

Сделай акцент не только на сухом геометрическом определении (площадь под кривой), но и на вероятностном смысле метрики. Например, в большинстве базовых статей мало обсуждается, как ROC-AUC ведёт себя при сильном дисбалансе классов и когда он может давать обманчиво оптимистичную оценку, хотя для инженеров на практике это критически важно.

Целевая аудитория — это студенты и инженеры в области анализа данных и машинного обучения, в том числе начинающие. Статья должна быть информативна и полезна именно им для совершенствования в своей профессии (в том числе для подготовки к техническим интервью). Читателям должны быть понятны основы из первых разделов — определения и мотивации. Можно добавить исторический раздел: откуда вообще пошло название Receiver Operating Characteristic.

Не выдумывай факты. Ищи надёжные источники в научной литературе. Добавляй ссылки на них в текст статьи. В конце собери список научной литературы. Всегда проверяй корректность ссылок.

Важные понятия оформляй как ссылки на другие статьи энциклопедии. Используй форматирование вики-разметки. Придерживайся структуры секционирования, принятой для статей о важных научных понятиях.

Статья получилась от слова совсем не похожей на оригинальную, в целом мне она понравилась, за исключением деталей, которые решено было исправить следующим промтом.

Предыдущий вариант статьи получился содержательным и качественным с точки зрения структуры, однако он требует исправления критических технических ошибок разметки и глубокого расширения по ряду фундаментальных направлений. Перепиши статью, внеся следующие изменения и дополнения. Технические исправления (Строгое требование ресурса): Платформа MachineLearning.ru не поддерживает тег <math>. Замени все теги <math> и </math> на теги <tex> и </tex> соответственно. Отдельные формулы оформи с помощью двойного отстука двоеточиями в начале строки (::<tex>...</tex>). Математические и смысловые исправления: В разделе "Вероятностная интерпретация" исправь базовую формулу. Учти, что на практике скоры могут совпадать. Запиши строгое выражение для AUC, включающее вероятность равенства скоров с весом 0.5: AUC = P(s(x_+) > s(x_-)) + 0.5 * P(s(x_+) = s(x_-)). Привяжи это к тексту, где описывается начисление 0.5 баллов за ничью в алгоритме вычисления. Новые разделы для включения в статью (интегрируй их органично в общую структуру): Обработка совпадающих скоров: Опиши математически и геометрически, как появление одинаковых скоров у объектов разных классов влияет на форму ROC-кривой. Поясни, почему вместо вертикальных и горизонтальных шагов на графике возникают диагональные отрезки, и как это связано со средними рангами в критерии Манна-Уитни. Обобщение на многоклассовую классификацию: Опиши стратегии One-vs-Rest и One-vs-One. Объясни разницу между micro- и macro-усреднением многоклассового AUC, укажи, в каких сценариях дисбаланса классов между ними возникает критический разрыв. Оценка статистической значимости при сравнении моделей: Объясни, почему нельзя сравнивать два AUC на одной выборке на глаз. Опиши аналитический тест ДеЛонга на основе U-статистик и альтернативный подход через эмпирический бутстрэп. Проблема калибровки уверенности модели: Четко укажи на то, что идеальный ROC-AUC гарантирует только идеальное ранжирование, но ничего не говорит о корректности абсолютных вероятностей. Объясни, почему в задачах расчета ожидаемых рисков необходима калибровка оценок и как она соотносится с AUC. Связь PR-AUC и Average Precision: Приведи точную математическую формулу Average Precision через знаки суммирования изменений полноты на точность. Объясни, почему для PR-кривой метод трапеций использовать некорректно и почему на практике считают именно AP. Постарайся сохранить весь сильный контекст из первой версии (включая критику Хэнда и историю радиолокации 1950-х годов), не сокращая их ради экономии места. Целевая аудитория — по-прежнему инженеры и студенты, использующие этот материал как строгое справочное пособие. Позаботься о том, чтобы новые термины были оформлены внутренними вики-ссылками.

После этого материал, просмотрев ещё раз весь материал, исправил некоторые неточности и пошёл проверять литературу. В целом всё хорошо, большинство ссылок релевантны, некоторые притянуты за уши или немного устарелые, в частности много ссылок на историю, а к бутсрэпу прилагается ссылка на огромный 400-страничный учебник по бутсрэпу, но в целом все абсолютно корректные и критичных замечаний выявлено не было.

Спустя некоторое время, я получил доступ к Claude Opus 4.8, дал ему материал статьи и попросил его "всесторонне проанализировать" её. Он похвалил качество статьи (у LLM сдвиг на похвалу) и выделил следующие моменты:

🔴 высокая Переписать определение micro-AUC (нет «суммирования скоров»; это конкатенация пар метка-скор и один AUC) 🔴 высокая Вынести «Методы оценивания AUC» в отдельный раздел (сейчас потерян внутри многоклассовости) 🟠 средняя Смягчить/переформулировать тезис «AUC близок по духу к Brier score» 🟠 средняя Упростить формулу интеграла AUC (убрать FPR⁻¹) 🟠 средняя Добавить определение pAUC (1–2 строки) 🟡 низкая Уточнить пример дисбаланса («AUC легко превышает 0.99», а не «превышает») 🟡 низкая Добавить <ref> на Muschelli; добавить McClish и Muschelli в «Литературу» 🟡 низкая Унифицировать «индекс Джини (Somers' D)», снять повтор «де-факто» 🟡 низкая Снизить публицистичность оценочной лексики 🟡 низкая Добавить иллюстрации

И ещё одним небольшим промтом я попросил его применить эти правки. Так и получилась финальная версия статьи (после ручного исправления моментов wiki оформления).

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9F%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C_%D0%BF%D0%BE%D0%B4_ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9»

Обсуждение:Площадь под ROC-кривой

Материал из MachineLearning.

Текущая версия

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты

@@ Строка 38: / Строка 38: @@
 После этого материал, просмотрев ещё раз весь материал, исправил некоторые неточности и пошёл проверять литературу.
 В целом всё хорошо, большинство ссылок релевантны, некоторые притянуты за уши или немного устарелые, в частности много ссылок на историю, а к бутсрэпу прилагается ссылка на огромный 400-страничный учебник по бутсрэпу, но в целом все абсолютно корректные и критичных замечаний выявлено не было.
+Спустя некоторое время, я получил доступ к Claude Opus 4.8, дал ему материал статьи и попросил его "всесторонне проанализировать" её. Он похвалил качество статьи (у LLM сдвиг на похвалу) и выделил следующие моменты:
+{{tip|
+<nowiki>
+🔴 высокая	Переписать определение micro-AUC (нет «суммирования скоров»; это конкатенация пар метка-скор и один AUC)
+🔴 высокая	Вынести «Методы оценивания AUC» в отдельный раздел (сейчас потерян внутри многоклассовости)
+🟠 средняя	Смягчить/переформулировать тезис «AUC близок по духу к Brier score»
+🟠 средняя	Упростить формулу интеграла AUC (убрать FPR⁻¹)
+🟠 средняя	Добавить определение pAUC (1–2 строки)
+🟡 низкая	Уточнить пример дисбаланса («AUC легко превышает 0.99», а не «превышает»)
+🟡 низкая	Добавить <ref> на Muschelli; добавить McClish и Muschelli в «Литературу»
+🟡 низкая	Унифицировать «индекс Джини (Somers' D)», снять повтор «де-факто»
+🟡 низкая	Снизить публицистичность оценочной лексики
+🟡 низкая	Добавить иллюстрации
+</nowiki>
+}}
+И ещё одним небольшим промтом я попросил его применить эти правки. Так и получилась финальная версия статьи (после ручного исправления моментов wiki оформления).