Изобретение модели Трансформер (как это было кратко, и кто изобрел)
-
Кто эти люди по образованию?
Авторы Transformer — в основном специалисты в области компьютерных наук, математики и machine learning, многие с опытом в нейросетях и NLP. Вот их краткие "досье":
-
Ашыш Васуани (Ashish Vaswani)
- Образование: PhD в Computer Science (USC, University of Southern California).
- До Google работал в стартапах и занимался NLP.
- В 2017 году был research scientist в Google Brain.
-
Ноам Шейзер (Noam Shazeer)
- Один из самых опытных в команде. Работал в Google с 2000-х.
- Участвовал в создании Google Translate, механизма PageRank и ранних NLP-моделей.
- Образование: CS в Stanford.
-
Илья Суцкевер (Ilya Sutskever)
- PhD под руководством Джеффри Хинтона (пионера deep learning) в University of Toronto.
- Сооснователь OpenAI (позже стал Chief Scientist).
- Работал над AlexNet (прорыв в компьютерном зрении, 2012).
-
Якоб Усковоре (Jakob Uszkoreit)
- Сын известного лингвиста.
- Образование: Computer Science в Берлинском университете.
- До Google работал над семантическим поиском.
-
Лукай Кайзер (Łukasz Kaiser)
- PhD по математике и computer science (Paris Diderot University).
- Специалист по алгоритмам и теории нейросетей.
-
Ники Пармар (Niki Parmar)
- Магистр CS в University of Southern California.
- До Google работала над NLP в стартапах.
-
Илья Полосухин (Illia Polosukhin)
- Выпускник Computer Science (University of Illinois).
- Позже ушел из Google и основал NEAR Protocol (блокчейн-стартап).
---
Как пришли к прорыву? Что послужило толчком?
-
Критика RNN/LSTM
- Все авторы знали главную проблему NLP-2017: рекуррентные сети (RNN/LSTM) медленные и плохо запоминают длинные тексты.
- Механизм attention уже использовали (например, в Google Translate), но как "довесок" к RNN.
-
Идея: "А что если attention — это всё?"
- Васуани и Шейзер предложили полностью убрать RNN и оставить только attention.
- Это была радикальная идея — многие в комьюнити сомневались.
-
Эксперименты
- Команда быстро собрала прототип на TensorFlow.
- Первые тесты показали, что модель учится быстрее RNN и дает лучшие результаты.
-
Поддержка Google
- У Google были огромные вычислительные ресурсы (TPU) и датасеты.
- Это позволило обучить модель, которая переплюнула все SOTA (state-of-the-art).
---
Сильно радовались?
Да, но не сразу.
- Сначала были скептики (многие не верили, что RNN можно выкинуть).
- Когда Transformer побил все рекорды в машинном переводе — осознали масштаб.
- Илья Суцкевер (будущий сооснователь OpenAI) сразу понял, что это революция.
- Ноам Шейзер позже говорил, что даже не ожидал, насколько Transformer изменит индустрию.---
Почему именно они?
- Правильная команда
- Сочетание теоретиков (Кайзер, Суцкевер) и практиков (Шейзер, Васуани).
- Смелость отказаться от RNN
- До этого все улучшали старые подходы, а они решили сломать шаблон.
- Ресурсы Google
- Без TPU и больших данных Transformer мог остаться "просто интересной идеей".
---
Что было после статьи?
- Через год (2018) на основе Transformer сделали BERT (Google) и GPT (OpenAI).
- Сейчас вся NLP-индустрия работает на его архитектуре (ChatGPT, Claude, Gemini и др.).
- В 2023 авторы получили Премию Тьюринга (как и Хинтон, Лекун и Бенджио за deep learning).Вывод:
Они не просто "придумали" — они посмели сделать иначе, и это изменило мир ИИ. А радость пришла, когда осознали, что создали новую эпоху в машинном обучении. -
-
Как собирали прототип Transformer?
-
Базовая идея:
- Полностью отказались от RNN и CNN, заменив их self-attention (механизмом внимания).
- Добавили positional encoding (чтобы модель учитывала порядок слов).
-
Архитектура (кодировщик-декодировщик):
- Encoder (кодирует входные данные, например, текст).
- Decoder (генерирует выход, например, перевод).
- Оба блока использовали многослойные attention-головы.
-
Обучение:
- Обучали на задачах машинного перевода (WMT 2014, English-German).
- Использовали Adam-оптимизатор и dropout для регуляризации.
- Запускали на TPU/GPU (Google дал мощные ресурсы).
-
Результат:
- Побил рекорды в переводе, при этом обучался быстрее LSTM/GRU.
---
Чем отличается оригинальный Transformer от BERT, GPT и DeepSeek?
Модель Отличия от оригинального Transformer BERT (2018) – Только encoder (без декодера).<br> – Обучался на masked language modeling (предсказывал пропущенные слова).<br> – Двунаправленный (видит контекст слева и справа). GPT (2018) – Только decoder (без энкодера).<br> – Обучался на авторегрессии (предсказывает следующее слово).<br> – Однонаправленный (только слева направо). DeepSeek (2024) – Современная оптимизация Transformer.<br> – Улучшенные механизмы внимания (например, grouped-query attention).<br> – Огромный размер (до 67B параметров). ---
Ключевые отличия в одной строке:
- Transformer (2017) → Encoder + Decoder, self-attention, параллельное обучение.
- BERT → Только encoder, двунаправленный, для классификации/поиска.
- GPT → Только decoder, авторегрессия, для генерации текста.
- DeepSeek → Улучшенный decoder, эффективное внимание, для длинных контекстов.Вывод:
Оригинальный Transformer — это "отец" всех современных моделей. BERT, GPT и DeepSeek взяли его идеи, но упростили или оптимизировали под свои задачи. -
-
Премии, связанные с Transformer и глубоким обучением
1. Премия Тьюринга (Turing Award) — «Нобелевка» в Computer Science
- За что дают?
За выдающийся вклад в области информатики.- Кто получил за Transformer и deep learning?
В 2023 году премию получили:- Йошуа Бенджио (Yoshua Bengio)
- Джеффри Хинтон (Geoffrey Hinton)
- Ян Лекун (Yann LeCun)
(Но не авторы Transformer! Они получили её за более ранние работы по нейросетям.)
Однако авторы Transformer (Васуани, Шейзер и др.) тоже могут её получить в будущем — их работа считается революционной.
2. ACL Test of Time Award (премия за долгосрочное влияние)
- За что дают?
Награждают статьи, которые сильно повлияли на NLP через 10+ лет после публикации.- Кто получил?
Пока "Attention Is All You Need" (2017) ещё не получила (ей всего 7 лет), но, скорее всего, получит в 2027–2030 годах.3. NeurIPS Best Paper (премия за лучшую статью на конференции NeurIPS)
- За что дают?
За самые значимые исследования в machine learning.- Получал ли Transformer?
Нет, статья вышла в arXiv (2017), а не на NeurIPS. Но если бы подавали — точно бы выиграла.---
Почему авторы Transformer ещё не получили Тьюринга?
- Премию Тьюринга дают с задержкой (обычно через 10–20 лет после открытия).
- В 2023 наградили "отцов deep learning" (Хинтона и др.) — их работы 1980–2000-х сделали возможным появление Transformer.
- Transformer ещё "слишком молод" (2017), но его авторы — главные кандидаты на премию в 2030-х.
---
Какие ещё награды получили авторы Transformer?
- Google Research Awards (внутренние премии).
- Упоминания в топ-конференциях (ICML, ACL, NeurIPS) как одна из самых влиятельных работ.
- Цитирования (более 80 000+ ссылок на статью — это гигантский показатель).---
Вывод
- Пока авторы Transformer не получили Тьюринга, но их работа изменила всю NLP-индустрию.
- Скорее всего, их наградят в будущем — как Бенджио, Хинтона и ЛеКуна.
- Сейчас они получают признание через цитирования и внедрение их идей в ChatGPT, Gemini и другие ИИ.Transformer — это как изобретение транзистора для ИИ: пока не всегда награждают, но без него ничего не работает.