Обсуждение:Трансформер (модель)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Промпт для генерации статьи через Claude Sonnet 4)
(Исправлен промпт — убраны шаблоны из blockquote)
 
Строка 5: Строка 5:
'''Промпт:'''
'''Промпт:'''
-
<blockquote>
+
Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера
-
Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера (модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017).
+
(модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017).
-
 
+
-
Статья должна включать:
+
Статья должна включать:
-
1. Вводное определение с ключевыми терминами
+
1. Вводное определение с ключевыми терминами
-
2. Предпосылки и мотивировку (проблемы RNN/LSTM)
+
2. Предпосылки и мотивировку (проблемы RNN/LSTM)
-
3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention, многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization
+
3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention,
-
4. Параметры базовой и большой модели
+
многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization
-
5. Схему обучения (Adam, warmup scheduler, label smoothing)
+
4. Параметры базовой и большой модели
-
6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры
+
5. Схему обучения (Adam, warmup scheduler, label smoothing)
-
7. Вычислительную сложность и законы масштабирования
+
6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры
-
8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели)
+
7. Законы масштабирования
-
9. Историческое значение
+
8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели)
-
 
+
9. Историческое значение
-
Используй вики-разметку: формулы в тегах <tex>...</tex>, внутренние ссылки [[...]], шаблон {{well|...}} в начале, {{TOCright}}, категории [[Категория:Машинное обучение]] и другие, раздел «Примечания» с <ref>, раздел «Литература», раздел «См. также».
+
-
</blockquote>
+
Используй вики-разметку: формулы в тегах <tex>...</tex>, внутренние ссылки, шаблон {{well|...}}
 +
в начале, {{TOCright}}, категории, раздел «Примечания» с <ref>, раздел «Литература».
— [[Участник:Emil Petrov|Emil Petrov]] ~~~~
— [[Участник:Emil Petrov|Emil Petrov]] ~~~~

Текущая версия

Промпт для генерации статьи

Статья сгенерирована с помощью Claude Sonnet 4 (claude-sonnet-4-6) в среде Cowork (Claude Desktop).

Промпт:

Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера
(модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017).

Статья должна включать:
1. Вводное определение с ключевыми терминами
2. Предпосылки и мотивировку (проблемы RNN/LSTM)
3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention,
   многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization
4. Параметры базовой и большой модели
5. Схему обучения (Adam, warmup scheduler, label smoothing)
6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры
7. Законы масштабирования
8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели)
9. Историческое значение

Используй вики-разметку: формулы в тегах ..., внутренние ссылки, шаблон 
...


в начале, 

Содержание

, категории, раздел «Примечания» с [1]
Личные инструменты