Обсуждение:Свёрточная нейронная сеть
Материал из MachineLearning.
Содержание |
Начальный запрос
Первый промпт к Gemini 3.1 Pro был таким:
Ты инженер машинного обучения и популяризатор науки. Напиши статью в стиле википедии про сверточные нейронные сети. Используй стиль == Заголовок == и === Подзаголовок ===. Следуй плану: 1. Определение. Здесь можно сказать про то, что они пришли на замену классическому MLP и ручному извлечению признаков, а также про биологическую предпосылку. Если есть интересная история появления, то можно включить. Но не раздувай сильно введение. Все-таки не энциклопедию пишем. 2. Архитектура и принцип работы. Затронь основные этапы: извлечение признаков и классификация. Первое выполняется с помощью свертки, функции активации, пулинга, а второе с помощью классической нейронной сети. 3. История (или Примеры). Стоит поговорить про LeNet-5, AlexNet, ResNet и прочее. Если есть интересные примеры, включи их. Сильно эту часть не раздувай. Не больше, чем первая часть (Определение). 4. Обучение. Напиши про то, как обучается модель. Стоит еще отметить про то, что модель можно дообучить с помощью Transfer Learning или fine-tuning. Как нибудь переведи эти термины на русский, но в скобках оставь оригинал. 5. Преимущества 6. Недостатки Если ты считаешь, что текущий план не полон, ты можешь его немного подкорректировать и добавить доп.пункты, но скажи мне об этом. Выполни работу и оцени ее потом от 0 до 100 с полным отчетом. Старайся добавлять немного формул. Они должны быть оформлены в теге <tex></tex>. Английские термины, которые можно локализовать, локализуй. В общем, сделай по красоте. Если что, дальше подправим
Модель оценила себя на 100/100. Весьма оптимистично, но я бы оценил на 30/100.
Правки
Мне не понравилось, как были написаны отдельные блоки текста. Промпты привожу в хронологическом порядке.
Архитектура и принцип работы
Раздел "Архитектура и принцип работы". Тут стоит отметить, что в отличие от классического подхода,
где признаки конструируются, в сверточных сетях применяется обучаемый извлекатель признаков.
В "Слой свёртки" используй другую формулу, чтобы она сочеталась с изображением:
(x*w)[i, j] = \sum_{a = -A}^A \sum_{b = -B}^B w_{ab}\times x[i+a, j+b]
Обязательно нужно отметить, что есть что. Этого в твоих формулах нет. Укажи, что x[i, j] -- это
исходные признаки, пиксели изображения (nxm), w_{ab} -- ядро свёртки.
Стоит привести формулу размера результирющей матрицы, сказать, что можно выбрать padding (переведи это слово удачно),
stride (тоже переведи как "шаг"). Покажи, как зависит итоговый размер от этих параметров.
В "Слой активации" нужно поговорить про разные популярные виды функций активаций и их модификации:
гиперболический тангенс, сигмоида, ReLU с модификациями.
Если есть ещё интересные примеры, добавь. Расскажи особенности и преимущества каждой функции активации.
В "Слой субдискретизации". Нет ни одной формулы. Добавь формулу
y[i, j] = F(x[hi, hj], \dots, x[hi + h - 1, hj + h - 1]),
где F -- агрегирующая функция, а h -- шаг. Ты сказал про Max pooling, но из твоего текста ничего не понятно.
Недостаточно одной фразы. Запиши формулу для него. Выдели на это абзац.
Также выдели абзац на average pooling. Запиши формулу для него.
Будет изображение, где показана разница между Max
pooling и Average pooling.
Расскажи в абзаце и про другие существующие подходы и причины их "непопулярности".
Выдай мне только измененный раздел "Архитектура и принцип работы"
Модель ответила в своём репертуаре. Один промпт вылечил её:
дурень. дай мне этот же текст в каком нибудь блоке сырого кода. я должен сырой код скопировать и вставить в редактор
и до конца работы над статьёй проблем больше не возникало.
Вывод на первый взгляд показался неплохим. Остальная шлифовка была ручной.
Преимущества и Недостатки
Хорошо. Про "Преимущества". Текущий текст очень плох, из него ничего не понятно. Расскажи про инвариантность к сдвигу (и пиши это нормальным языком; добавь пример, например, что кошку можно определить в любой части изображения), устойчивость к шумам, про weight sharing (переведи термин на русский), обязательно про параллелизацию. Теперь про "Недостатки". Нужно хорошо написать этот пункт понятным языком. Утеря пространственной информации (тоже конкретный пример приведи), неустойчивость к повороту (пример не помешает), сложность (или невозможность) интерпретации для глубоких сетей, уязвимость к состязательным атакам (немного про то, что это такое), вычислительная сложность.
На мой взгляд модель справилась отлично.
Применение
Отлично. Про "Применение". Текст написан очень плохо. Напиши в первую очередь про применение в комп.зрении.
В медицине, на дорогах (как работает система от ГИБДД),
биометрия и безопасность на предприятии. Далее стоит поговорить про то, что можно использовать
CNN для распознавания речевых сигналов, разложив фрагменты сигнала векторами спектрального
разложения (прилагаю картинку; смотря на нее напиши хороший текст), кардиограммы, анализ ЭКГ и ЭЭГ, использование 1D-CNN для
анализа ДНК и РНК,
классификации предложений в тексте (тоже прилагаю картинку).
Сделай список, раздробленный на сферы ("Медицина" и т.п.).
Чтобы промпт "работал лучше" приложил картинки из презентации Константина Воронцова. Получился неплохой текст.
История и развитие
Хорошо. Теперь про "История и развитие". Нужно подробнее про каждую архитектуру поговорить. Также добавь, что часто используются такие приемы как dataset augmentation (переведи термин на русский), dropout и batch normalization (все термины переведи на русский). Дай свои комментарии в каждому подходу.
Модель добавила много лишнего мусора. Текст в остальном получился хорошим.
Мини-правки
Иногда я использовал LLM без конкретного промпта, просто чтобы она прочитала текст и исправила некоторые ошибки или стилистически украсила текст.
Считаю, что опыт работы был неплохим, хотя мне не особо понравилось чистить текст за моделью.
Osman Osmanov 16:48, 30 июня 2026 (MSD)

