Обсуждение:Скользящий контроль
Материал из MachineLearning.
| (6 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
== Это первая статья на MachineLearning.ru, заново написанная с помощью LLM == | == Это первая статья на MachineLearning.ru, заново написанная с помощью LLM == | ||
| - | Первый промпт был таким: | + | Первый промпт к DeepSeek был таким: |
{{tip| | {{tip| | ||
Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши энциклопедическую статью про скользящий контроль (cross-validation) на русском языке. Придерживайся структуры и стиля, принятого в Википедии. Англоязычная статья в Википедии Cross-validation (statistics) написана хорошо, но содержит слишком много второстепенных деталей. Её можно брать за основу, но упростить и сделать более популярной, при этом без ущерба для строгости изложения. Важные математические формулы лучше оставить. Сделай акцент не только на статистике, но и на машинном обучении. Например, в статье Википедии мало упомянута стратификация, хотя она очень важна для практики. | Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши энциклопедическую статью про скользящий контроль (cross-validation) на русском языке. Придерживайся структуры и стиля, принятого в Википедии. Англоязычная статья в Википедии Cross-validation (statistics) написана хорошо, но содержит слишком много второстепенных деталей. Её можно брать за основу, но упростить и сделать более популярной, при этом без ущерба для строгости изложения. Важные математические формулы лучше оставить. Сделай акцент не только на статистике, но и на машинном обучении. Например, в статье Википедии мало упомянута стратификация, хотя она очень важна для практики. | ||
| + | |||
Целевая аудитория - это студенты и инженеры в области анализа данных и машинного обучения, в том числе начинающие. Статья должна быть информативна и полезна именно им для совершенствования в своей профессии. Читателям должны быть понятны основы из первых разделов - определения и мотиваций. Можно добавить исторический раздел: например, кто первым применил тот или иной метод, для каких прикладных задач, или откуда пришла метафора складного ножа (jackknife). | Целевая аудитория - это студенты и инженеры в области анализа данных и машинного обучения, в том числе начинающие. Статья должна быть информативна и полезна именно им для совершенствования в своей профессии. Читателям должны быть понятны основы из первых разделов - определения и мотиваций. Можно добавить исторический раздел: например, кто первым применил тот или иной метод, для каких прикладных задач, или откуда пришла метафора складного ножа (jackknife). | ||
| + | |||
Не выдумывай факты. Ищи надёжные источники в научной литературе. Добавляй ссылки на них в текст статьи. В конце собери список научной литературы. Всегда проверяй корректность ссылок. | Не выдумывай факты. Ищи надёжные источники в научной литературе. Добавляй ссылки на них в текст статьи. В конце собери список научной литературы. Всегда проверяй корректность ссылок. | ||
| + | |||
Важные понятия оформляй как ссылки на другие статьи энциклопедии. | Важные понятия оформляй как ссылки на другие статьи энциклопедии. | ||
| + | |||
Используй форматирование вики разметки. Придерживайся структуры секционирования, принятой для статей о важных научных понятиях. | Используй форматирование вики разметки. Придерживайся структуры секционирования, принятой для статей о важных научных понятиях. | ||
}} | }} | ||
| + | Исходная статья вообще не использовалась. Получившаяся статья оказалась лучше исходной. К согласованности обозначений в формулах не было ни одной претензии, хотя обозначения не были взяты из упомянутой статьи [https://en.wikipedia.org/wiki/Cross-validation_(statistics) Cross-validation (statistics)] из Википедии. | ||
| - | + | Я сделал проверку списка литературы, 13 позиций. Нашёл только одну ошибку в номере последней страницы одной из статей. | |
| + | |||
| + | Я решил, что в статье кое-чего не хватает по содержанию, поэтому был сделан второй промпт: | ||
{{tip| | {{tip| | ||
Очень хорошо. Перепиши текст этой статьи, добавив следующие разделы. | Очень хорошо. Перепиши текст этой статьи, добавив следующие разделы. | ||
| + | |||
Добавь раздел про полный скользящий контроль (complete cross-validation), приведи ссылку на книгу или публикацию, где он был введён впервые или подробно исследован. | Добавь раздел про полный скользящий контроль (complete cross-validation), приведи ссылку на книгу или публикацию, где он был введён впервые или подробно исследован. | ||
| + | |||
Добавь раздел про доверительные интервальные оценки для повторной кросс-валидации. | Добавь раздел про доверительные интервальные оценки для повторной кросс-валидации. | ||
| + | |||
Добавь раздел про использование кросс-валидации в задачах прогнозирования, опиши взаимосвязь с A/B тестированием, обсудив сходство и различия. Поясни различия в методиках out-of-sample и out-of-time. | Добавь раздел про использование кросс-валидации в задачах прогнозирования, опиши взаимосвязь с A/B тестированием, обсудив сходство и различия. Поясни различия в методиках out-of-sample и out-of-time. | ||
| + | |||
Для важных или редко используемых понятий указывай в скобках исходный английский термин, например: ошибка на отложенной выборке (англ. hold-out validation). | Для важных или редко используемых понятий указывай в скобках исходный английский термин, например: ошибка на отложенной выборке (англ. hold-out validation). | ||
| - | Не используй шаблон {{о|..}}. | + | |
| - | Вместо тегов <math> и </math> используй, соответственно, <tex> и </tex>. | + | Не используй шаблон <nowiki>{{о|..}}</nowiki>. |
| + | |||
| + | Вместо тегов <math> и </math> используй, соответственно, <nowiki><tex></nowiki> и <nowiki></tex></nowiki>. | ||
| + | |||
Повторю ещё раз основное задание. | Повторю ещё раз основное задание. | ||
| + | |||
''Далее повтор первого промпта — на всякий случай.'' | ''Далее повтор первого промпта — на всякий случай.'' | ||
}} | }} | ||
| + | Сравнение с первой генерацией показало, что старый текст сохранён дословно, за исключением того, что один небольшой абзац (Скользящий контроль с исключением p наблюдений) был удалён целиком. Я его вручную восстановил, хотя это было не обязательно. | ||
| + | |||
| + | Кусок из старой версии статьи захотелось сохранить. Для этого вручную были вставлены разделы [[Скользящий контроль#Непараметрическое доверительное оценивание]] и [[Скользящий контроль#Параметрическое доверительное оценивание]], в них пришлось поменять обозначения. Эта небольшая работа заняла на порядок больше времени, чем всё предыдущее. | ||
| + | В целом опыт считаю успешным — ''[[Участник:Vokov|К.В.Воронцов]] 22:48, 12 июня 2026 (MSD)'' | ||
== О сути скользящего контроля == | == О сути скользящего контроля == | ||
| Строка 33: | Строка 52: | ||
Почему так? Неужели CV — ненадёжная оценка? Нет, как раз наоборот: результат однократного обучения менее надёжен, чем CV-оценка. | Почему так? Неужели CV — ненадёжная оценка? Нет, как раз наоборот: результат однократного обучения менее надёжен, чем CV-оценка. | ||
Если же считать, что скользящий контроль оценивает качество не конкретного классификатора, а метода обучения (или алгоритма обучения, learning algorithm), то сразу всё встаёт на свои места. | Если же считать, что скользящий контроль оценивает качество не конкретного классификатора, а метода обучения (или алгоритма обучения, learning algorithm), то сразу всё встаёт на свои места. | ||
| - | * Во-первых, если скользящий контроль делается по <tex>N</tex> случайным разбиениям, то <tex>\left[ Q^{(1)},Q^{(N)} \right]</tex> есть доверительный интервал с уровнем доверия <tex>1-\frac2{N+1}</tex>, см. [[Скользящий контроль# | + | * Во-первых, если скользящий контроль делается по <tex>N</tex> случайным разбиениям, то <tex>\left[ Q^{(1)},Q^{(N)} \right]</tex> есть доверительный интервал с уровнем доверия <tex>1-\frac2{N+1}</tex>, см. [[Скользящий контроль#Непараметрическое доверительное оценивание]]. То есть если мы сделаем <tex>N+1</tex>-е случайное разбиение, снова обучимся и протестируемся, то с указанной вероятностью угодим в указанный интервал. |
* Во-вторых, тогда полная выборка (обучающая+тестовая) считается случайной, что на мой взгляд очень естественно. Если же мы пытаемся оценить качество конкретного обученного алгоритма, то обучающую выборку приходится считать фиксированной, и сразу становится очень трудно связать качество этого алгоритма с CV-оценкой. Такие оценки известны; они довольно сложны, сходятся к нулю медленно, зависят от ёмкости семейства и стабильности метода обучения (sanity-check bounds); они приводят к слишком слабому выводу о том, что скользящий контроль характеризует качество алгоритма всего лишь не хуже, чем частота ошибок на обучении [1,2,3]. В статье Бонтемпи и Бираттари [4] показано, что этот подход извращает суть скользящего контроля. Не надо требовать от CV того, для чего он плохо подходит. Он оценивает качество метода обучения или, если угодно, [[модель зависимости|модели]], а не конкретного алгоритма. Он не в состоянии учесть, насколько плоха могла оказаться обучающая выборка в конкретном (единичном!) случае. Именно от этого и перестраховываются оценки типа sanity-check bounds. | * Во-вторых, тогда полная выборка (обучающая+тестовая) считается случайной, что на мой взгляд очень естественно. Если же мы пытаемся оценить качество конкретного обученного алгоритма, то обучающую выборку приходится считать фиксированной, и сразу становится очень трудно связать качество этого алгоритма с CV-оценкой. Такие оценки известны; они довольно сложны, сходятся к нулю медленно, зависят от ёмкости семейства и стабильности метода обучения (sanity-check bounds); они приводят к слишком слабому выводу о том, что скользящий контроль характеризует качество алгоритма всего лишь не хуже, чем частота ошибок на обучении [1,2,3]. В статье Бонтемпи и Бираттари [4] показано, что этот подход извращает суть скользящего контроля. Не надо требовать от CV того, для чего он плохо подходит. Он оценивает качество метода обучения или, если угодно, [[модель зависимости|модели]], а не конкретного алгоритма. Он не в состоянии учесть, насколько плоха могла оказаться обучающая выборка в конкретном (единичном!) случае. Именно от этого и перестраховываются оценки типа sanity-check bounds. | ||
Текущая версия
Это первая статья на MachineLearning.ru, заново написанная с помощью LLM
Первый промпт к DeepSeek был таким:
Исходная статья вообще не использовалась. Получившаяся статья оказалась лучше исходной. К согласованности обозначений в формулах не было ни одной претензии, хотя обозначения не были взяты из упомянутой статьи Cross-validation (statistics) из Википедии.
Я сделал проверку списка литературы, 13 позиций. Нашёл только одну ошибку в номере последней страницы одной из статей.
Я решил, что в статье кое-чего не хватает по содержанию, поэтому был сделан второй промпт:
Сравнение с первой генерацией показало, что старый текст сохранён дословно, за исключением того, что один небольшой абзац (Скользящий контроль с исключением p наблюдений) был удалён целиком. Я его вручную восстановил, хотя это было не обязательно.
Кусок из старой версии статьи захотелось сохранить. Для этого вручную были вставлены разделы Скользящий контроль#Непараметрическое доверительное оценивание и Скользящий контроль#Параметрическое доверительное оценивание, в них пришлось поменять обозначения. Эта небольшая работа заняла на порядок больше времени, чем всё предыдущее.
В целом опыт считаю успешным — К.В.Воронцов 22:48, 12 июня 2026 (MSD)
О сути скользящего контроля
Участник:Vokov не согласен со следующим мнением Участник:Nvm: Скользящий контроль дает несмещенную точечную, но не интервальную оценку риска. В настоящее время не существует методов построения на основе скользящего контроля точных доверительных интервалов для риска, то есть математического ожидания потерь (в частности, вероятности ошибочной классификации).
Мнение Участник:Vokov таково.
Не следует пытаться оценивать конкретный алгоритм, полученный в результате обучения, с помощью скользящего контроля (CV). Почему так? Неужели CV — ненадёжная оценка? Нет, как раз наоборот: результат однократного обучения менее надёжен, чем CV-оценка. Если же считать, что скользящий контроль оценивает качество не конкретного классификатора, а метода обучения (или алгоритма обучения, learning algorithm), то сразу всё встаёт на свои места.
- Во-первых, если скользящий контроль делается по
случайным разбиениям, то
есть доверительный интервал с уровнем доверия
, см. Скользящий контроль#Непараметрическое доверительное оценивание. То есть если мы сделаем
-е случайное разбиение, снова обучимся и протестируемся, то с указанной вероятностью угодим в указанный интервал.
- Во-вторых, тогда полная выборка (обучающая+тестовая) считается случайной, что на мой взгляд очень естественно. Если же мы пытаемся оценить качество конкретного обученного алгоритма, то обучающую выборку приходится считать фиксированной, и сразу становится очень трудно связать качество этого алгоритма с CV-оценкой. Такие оценки известны; они довольно сложны, сходятся к нулю медленно, зависят от ёмкости семейства и стабильности метода обучения (sanity-check bounds); они приводят к слишком слабому выводу о том, что скользящий контроль характеризует качество алгоритма всего лишь не хуже, чем частота ошибок на обучении [1,2,3]. В статье Бонтемпи и Бираттари [4] показано, что этот подход извращает суть скользящего контроля. Не надо требовать от CV того, для чего он плохо подходит. Он оценивает качество метода обучения или, если угодно, модели, а не конкретного алгоритма. Он не в состоянии учесть, насколько плоха могла оказаться обучающая выборка в конкретном (единичном!) случае. Именно от этого и перестраховываются оценки типа sanity-check bounds.
Литература
- Kearns M. A bound on the error of cross validation using the approximation and estimation rates, with consequences for the training-test split // Advances in Neural Information Processing Systems / Ed. by D. S. Touretzky, M. C. Mozer, M. E. Hasselmo. — Vol. 8. — The MIT Press, 1996. — Pp. 183–189.
- Kearns M. J., Ron D. Algorithmic stability and sanity-check bounds for leave-one-out cross-validation // Computational Learning Theory. — 1997. — Pp. 152–162.
- Holden S. B. Cross-validation and the pac learning model: Tech. Rep. RN/96/64: Dept. of CS, Univ. College, London, 1996.
- Bontempi G., Birattari M. A bound on the cross-validation estimate for algorithm assessment // Eleventh Belgium/Netherlands Conference on Artificial Intelligence (BNAIC). — 1999. — Pp. 115–122.

