Обсуждение:Решающее дерево
Материал из MachineLearning.
Первая версия статьи сгенерирована следующим промптом к DeepSeek-V3, и не подвергалась никаким правкам, каркас статьи уже был реализован, мне он понравился, потому решил отталкиваться от него:
| | Ты специалист в области машинного обучения, профессор в ведущем техническом университете и популяризатор науки. Напиши энциклопедическую статью про решающие деревья (decision tree) на русском языке. Придерживайся структуры и стиля, принятого в Википедии. За основу возьми подробный план статьи, который я привожу ниже. Раскрой каждый пункт этого плана:
Основные определения и простейший алгоритм синтеза дерева. Разновидности: тип задачи (классификация, регрессия). Критерии ветвления (энтропийный критерий, критерий Джини) и критерии останова. Что находится во внутренних вершинах и в листьях. Передача информации между вершинами (alternating decision tree). Редукция решающих деревьев: предредукция (pre-pruning) и постредукция (post-pruning). Оценивание вероятностей и полужадный синтез. Алгоритмы построения: кратко опиши суть ID3, C4.5, C5.0, CART, LISTBB. Обобщающая способность решающих деревьев. Композиции решающих деревьев: решающий лес и бустинг. История: кто и когда впервые предложил эти алгоритмы, как они развивались. Целевая аудитория - это студенты и инженеры в области анализа данных и машинного обучения, в том числе начинающие. Статья должна быть информативна и полезна именно им для совершенствования в своей профессии. Читателям должны быть понятны основы из первых разделов - определения и мотиваций. Важные математические формулы обязательно оставь, но сделай их понятными. Не выдумывай факты. Ищи надёжные источники в научной литературе. Добавляй ссылки на них в текст статьи. В конце собери список научной литературы. Обязательно включи в раздел "Ссылки" лекции Cosma Shalizi: Classification and Regression Trees. Всегда проверяй корректность ссылок. Важные понятия оформляй как ссылки на другие статьи энциклопедии, например: Критерий Джини. Для важных или редко используемых понятий указывай в скобках исходный английский термин, например: постредукция (англ. post-pruning). |
Дипсик откомментировал (приводятся начальные рассуждения):
Мы должны написать энциклопедическую статью на русском языке в стиле Википедии о решающих деревьях, следуя подробному плану. Нужно использовать вики-разметку, включать ссылки на понятия как Критерий Джини, упоминать английские термины в скобках, добавлять ссылки на научную литературу, в том числе на лекцию Shalizi, и список литературы в конце. Целевая аудитория — студенты и инженеры в области DS/ML. Задача: написать полную статью, раскрывающую все пункты плана.
Вторая версия статьи сгенерирована следующим промптом, и также не подвергалась никаким правкам:
Некоторые рассуждения Дипсика, выборочно:
В исходной статье есть разделы: Основные определения и простейший алгоритм синтеза дерева. Разновидности: тип задачи (классификация, регрессия). Критерии ветвления и критерии останова. Что находится во внутренних вершинах и в листьях. Передача информации между вершинами (alternating decision tree). Редукция решающих деревьев: предредукция и постредукция. Оценивание вероятностей и полужадный синтез. Алгоритмы построения: ID3, C4.5, C5.0, CART, LISTBB. Обобщающая способность решающих деревьев. Композиции решающих деревьев: решающий лес и бустинг. История. Теперь нужно добавить раздел(ы) про неопределенность и измерение ошибки классификации. Возможно, создать раздел "Оценка неопределённости прогнозов" и подраздел "Измерение ошибки классификации".
Нужно проверить, что все формулы, которые были в тегах <math> заменены на <tex>. В исходном ответе были теги <math>. Просто меняем на <tex>. При этом также надо убрать, возможно, обрамление $$, если оно было, но в ответе были только <math>. На самом деле вики-разметка использует <math>. Но требование: заменить теги math на tex. То есть вместо <math> ... </math> будет <tex> ... </tex>. Однако обычно <tex> в некоторых вики-движках может не поддерживаться, но мы выполняем требование. Я просто выполню замену.
Также просят: "Не выдумывай факты. Ищи надёжные источники в научной литературе." Для новых разделов нужно тоже ссылаться на источники. Я добавлю ссылки на известные работы: для кросс-энтропии и правдоподобия, матрицы стоимостей (cost-sensitive learning), Неймана-Пирсона (подход для классификации, например, в работах Scott, Nowak, или применение в ML). Я приведу ссылки на литературу, добавив их в список литературы, если необходимо. Но чтобы не перегружать, можно упомянуть учебники (Hastie, Bishop) и отдельные статьи. Например, подход Неймана-Пирсона для классификации: "A Neyman-Pearson approach to statistical learning" (Scott, Nowak, 2005) и т.д. Я включу их в текст и в список литературы, но осторожно, чтобы не нарушить правило о выдумывании. Я проверю реальные источники: Scott, C., Nowak, R. D. (2005). "A Neyman-Pearson approach to statistical learning." IEEE Transactions on Information Theory, 51(11), 3806-3819. Это реальная статья. Также может быть работа Tong, Koller и т.д. Я добавлю.
Результат уже был очень близок к тому, что у меня выстраивалось в голове, за исключением некоторых помарок, что бросались в глаза.
Третья версия сгенерирована следующим промптом, и также не подвергалась никаким правкам:
Отдельно выделил ключевые пункты референсных источников используя тот же Deepseek и посопоставлял с получившейся статьёй, ища недочёты. Каких-то существенных упущений не выявлено.
Опыт считаю более чем успешным, но, безусловно, повторные проверки и более опытный взгляд на материал не помешает. Artyom Savov

