Материал из MachineLearning.
(Различия между версиями)
|
|
| Строка 38: |
Строка 38: |
| | После этого материал, просмотрев ещё раз весь материал, исправил некоторые неточности и пошёл проверять литературу. | | После этого материал, просмотрев ещё раз весь материал, исправил некоторые неточности и пошёл проверять литературу. |
| | В целом всё хорошо, большинство ссылок релевантны, некоторые притянуты за уши или немного устарелые, в частности много ссылок на историю, а к бутсрэпу прилагается ссылка на огромный 400-страничный учебник по бутсрэпу, но в целом все абсолютно корректные и критичных замечаний выявлено не было. | | В целом всё хорошо, большинство ссылок релевантны, некоторые притянуты за уши или немного устарелые, в частности много ссылок на историю, а к бутсрэпу прилагается ссылка на огромный 400-страничный учебник по бутсрэпу, но в целом все абсолютно корректные и критичных замечаний выявлено не было. |
| | + | |
| | + | Спустя некоторое время, я получил доступ к Claude Opus 4.8, дал ему материал статьи и попросил его "всесторонне проанализировать" её. Он похвалил качество статьи (у LLM сдвиг на похвалу) и выделил следующие моменты: |
| | + | |
| | + | {{tip| |
| | + | <nowiki> |
| | + | 🔴 высокая Переписать определение micro-AUC (нет «суммирования скоров»; это конкатенация пар метка-скор и один AUC) |
| | + | 🔴 высокая Вынести «Методы оценивания AUC» в отдельный раздел (сейчас потерян внутри многоклассовости) |
| | + | 🟠 средняя Смягчить/переформулировать тезис «AUC близок по духу к Brier score» |
| | + | 🟠 средняя Упростить формулу интеграла AUC (убрать FPR⁻¹) |
| | + | 🟠 средняя Добавить определение pAUC (1–2 строки) |
| | + | 🟡 низкая Уточнить пример дисбаланса («AUC легко превышает 0.99», а не «превышает») |
| | + | 🟡 низкая Добавить <ref> на Muschelli; добавить McClish и Muschelli в «Литературу» |
| | + | 🟡 низкая Унифицировать «индекс Джини (Somers' D)», снять повтор «де-факто» |
| | + | 🟡 низкая Снизить публицистичность оценочной лексики |
| | + | 🟡 низкая Добавить иллюстрации |
| | + | </nowiki> |
| | + | }} |
| | + | |
| | + | И ещё одним небольшим промтом я попросил его применить эти правки. Так и получилась финальная версия статьи (после ручного исправления моментов wiki оформления). |
Текущая версия
Первый промпт к DeepSeek-V3 был таким:
| Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши энциклопедическую статью про площадь под ROC-кривой на русском языке. Придерживайся структуры и стиля, принятого в Википедии. Англоязычная статья в Википедии (Receiver operating characteristic) написана хорошо, но изначально сильно перегружена медицинскими примерами и радиолокацией. Её можно брать за основу, но сместить акцент именно на машинное обучение, бинарную классификацию и оценку качества алгоритмов. Важные математические формулы лучше оставить.
Сделай акцент не только на сухом геометрическом определении (площадь под кривой), но и на вероятностном смысле метрики. Например, в большинстве базовых статей мало обсуждается, как ROC-AUC ведёт себя при сильном дисбалансе классов и когда он может давать обманчиво оптимистичную оценку, хотя для инженеров на практике это критически важно.
Целевая аудитория — это студенты и инженеры в области анализа данных и машинного обучения, в том числе начинающие. Статья должна быть информативна и полезна именно им для совершенствования в своей профессии (в том числе для подготовки к техническим интервью). Читателям должны быть понятны основы из первых разделов — определения и мотивации. Можно добавить исторический раздел: откуда вообще пошло название Receiver Operating Characteristic.
Не выдумывай факты. Ищи надёжные источники в научной литературе. Добавляй ссылки на них в текст статьи. В конце собери список научной литературы. Всегда проверяй корректность ссылок.
Важные понятия оформляй как ссылки на другие статьи энциклопедии. Используй форматирование вики-разметки. Придерживайся структуры секционирования, принятой для статей о важных научных понятиях.
|
Статья получилась от слова совсем не похожей на оригинальную, в целом мне она понравилась, за исключением деталей, которые решено было исправить следующим промтом.
|
Предыдущий вариант статьи получился содержательным и качественным с точки зрения структуры, однако он требует исправления критических технических ошибок разметки и глубокого расширения по ряду фундаментальных направлений. Перепиши статью, внеся следующие изменения и дополнения.
Технические исправления (Строгое требование ресурса):
Платформа MachineLearning.ru не поддерживает тег <math>. Замени все теги <math> и </math> на теги <tex> и </tex> соответственно.
Отдельные формулы оформи с помощью двойного отстука двоеточиями в начале строки (::<tex>...</tex>).
Математические и смысловые исправления:
В разделе "Вероятностная интерпретация" исправь базовую формулу. Учти, что на практике скоры могут совпадать. Запиши строгое выражение для AUC, включающее вероятность равенства скоров с весом 0.5: AUC = P(s(x_+) > s(x_-)) + 0.5 * P(s(x_+) = s(x_-)). Привяжи это к тексту, где описывается начисление 0.5 баллов за ничью в алгоритме вычисления.
Новые разделы для включения в статью (интегрируй их органично в общую структуру):
Обработка совпадающих скоров: Опиши математически и геометрически, как появление одинаковых скоров у объектов разных классов влияет на форму ROC-кривой. Поясни, почему вместо вертикальных и горизонтальных шагов на графике возникают диагональные отрезки, и как это связано со средними рангами в критерии Манна-Уитни.
Обобщение на многоклассовую классификацию: Опиши стратегии One-vs-Rest и One-vs-One. Объясни разницу между micro- и macro-усреднением многоклассового AUC, укажи, в каких сценариях дисбаланса классов между ними возникает критический разрыв.
Оценка статистической значимости при сравнении моделей: Объясни, почему нельзя сравнивать два AUC на одной выборке на глаз. Опиши аналитический тест ДеЛонга на основе U-статистик и альтернативный подход через эмпирический бутстрэп.
Проблема калибровки уверенности модели: Четко укажи на то, что идеальный ROC-AUC гарантирует только идеальное ранжирование, но ничего не говорит о корректности абсолютных вероятностей. Объясни, почему в задачах расчета ожидаемых рисков необходима калибровка оценок и как она соотносится с AUC.
Связь PR-AUC и Average Precision: Приведи точную математическую формулу Average Precision через знаки суммирования изменений полноты на точность. Объясни, почему для PR-кривой метод трапеций использовать некорректно и почему на практике считают именно AP.
Постарайся сохранить весь сильный контекст из первой версии (включая критику Хэнда и историю радиолокации 1950-х годов), не сокращая их ради экономии места. Целевая аудитория — по-прежнему инженеры и студенты, использующие этот материал как строгое справочное пособие. Позаботься о том, чтобы новые термины были оформлены внутренними вики-ссылками.
|
После этого материал, просмотрев ещё раз весь материал, исправил некоторые неточности и пошёл проверять литературу.
В целом всё хорошо, большинство ссылок релевантны, некоторые притянуты за уши или немного устарелые, в частности много ссылок на историю, а к бутсрэпу прилагается ссылка на огромный 400-страничный учебник по бутсрэпу, но в целом все абсолютно корректные и критичных замечаний выявлено не было.
Спустя некоторое время, я получил доступ к Claude Opus 4.8, дал ему материал статьи и попросил его "всесторонне проанализировать" её. Он похвалил качество статьи (у LLM сдвиг на похвалу) и выделил следующие моменты:
|
🔴 высокая Переписать определение micro-AUC (нет «суммирования скоров»; это конкатенация пар метка-скор и один AUC)
🔴 высокая Вынести «Методы оценивания AUC» в отдельный раздел (сейчас потерян внутри многоклассовости)
🟠 средняя Смягчить/переформулировать тезис «AUC близок по духу к Brier score»
🟠 средняя Упростить формулу интеграла AUC (убрать FPR⁻¹)
🟠 средняя Добавить определение pAUC (1–2 строки)
🟡 низкая Уточнить пример дисбаланса («AUC легко превышает 0.99», а не «превышает»)
🟡 низкая Добавить <ref> на Muschelli; добавить McClish и Muschelli в «Литературу»
🟡 низкая Унифицировать «индекс Джини (Somers' D)», снять повтор «де-факто»
🟡 низкая Снизить публицистичность оценочной лексики
🟡 низкая Добавить иллюстрации
|
И ещё одним небольшим промтом я попросил его применить эти правки. Так и получилась финальная версия статьи (после ручного исправления моментов wiki оформления).