Изобретение модели Трансформер (как это было кратко, и кто изобрел)
- 
 Кто эти люди по образованию?Авторы Transformer — в основном специалисты в области компьютерных наук, математики и machine learning, многие с опытом в нейросетях и NLP. Вот их краткие "досье": - 
Ашыш Васуани (Ashish Vaswani) - Образование: PhD в Computer Science (USC, University of Southern California).
- До Google работал в стартапах и занимался NLP.
- В 2017 году был research scientist в Google Brain.
 
- 
Ноам Шейзер (Noam Shazeer) - Один из самых опытных в команде. Работал в Google с 2000-х.
- Участвовал в создании Google Translate, механизма PageRank и ранних NLP-моделей.
- Образование: CS в Stanford.
 
- 
Илья Суцкевер (Ilya Sutskever) - PhD под руководством Джеффри Хинтона (пионера deep learning) в University of Toronto.
- Сооснователь OpenAI (позже стал Chief Scientist).
- Работал над AlexNet (прорыв в компьютерном зрении, 2012).
 
- 
Якоб Усковоре (Jakob Uszkoreit) - Сын известного лингвиста.
- Образование: Computer Science в Берлинском университете.
- До Google работал над семантическим поиском.
 
- 
Лукай Кайзер (Łukasz Kaiser) - PhD по математике и computer science (Paris Diderot University).
- Специалист по алгоритмам и теории нейросетей.
 
- 
Ники Пармар (Niki Parmar) - Магистр CS в University of Southern California.
- До Google работала над NLP в стартапах.
 
- 
Илья Полосухин (Illia Polosukhin) - Выпускник Computer Science (University of Illinois).
- Позже ушел из Google и основал NEAR Protocol (блокчейн-стартап).
 
 --- Как пришли к прорыву? Что послужило толчком?- 
Критика RNN/LSTM - Все авторы знали главную проблему NLP-2017: рекуррентные сети (RNN/LSTM) медленные и плохо запоминают длинные тексты.
- Механизм attention уже использовали (например, в Google Translate), но как "довесок" к RNN.
 
- 
Идея: "А что если attention — это всё?" - Васуани и Шейзер предложили полностью убрать RNN и оставить только attention.
- Это была радикальная идея — многие в комьюнити сомневались.
 
- 
Эксперименты - Команда быстро собрала прототип на TensorFlow.
- Первые тесты показали, что модель учится быстрее RNN и дает лучшие результаты.
 
- 
Поддержка Google - У Google были огромные вычислительные ресурсы (TPU) и датасеты.
- Это позволило обучить модель, которая переплюнула все SOTA (state-of-the-art).
 
 --- Сильно радовались?Да, но не сразу. 
 - Сначала были скептики (многие не верили, что RNN можно выкинуть).
 - Когда Transformer побил все рекорды в машинном переводе — осознали масштаб.
 - Илья Суцкевер (будущий сооснователь OpenAI) сразу понял, что это революция.
 - Ноам Шейзер позже говорил, что даже не ожидал, насколько Transformer изменит индустрию.--- Почему именно они?- Правильная команда
- Сочетание теоретиков (Кайзер, Суцкевер) и практиков (Шейзер, Васуани).
 
- Смелость отказаться от RNN
- До этого все улучшали старые подходы, а они решили сломать шаблон.
 
- Ресурсы Google
- Без TPU и больших данных Transformer мог остаться "просто интересной идеей".
 
 --- Что было после статьи?- Через год (2018) на основе Transformer сделали BERT (Google) и GPT (OpenAI). 
 - Сейчас вся NLP-индустрия работает на его архитектуре (ChatGPT, Claude, Gemini и др.).
 - В 2023 авторы получили Премию Тьюринга (как и Хинтон, Лекун и Бенджио за deep learning).Вывод: 
 Они не просто "придумали" — они посмели сделать иначе, и это изменило мир ИИ. А радость пришла, когда осознали, что создали новую эпоху в машинном обучении. 
- 
- 
 Как собирали прототип Transformer?- 
Базовая идея: - Полностью отказались от RNN и CNN, заменив их self-attention (механизмом внимания).
- Добавили positional encoding (чтобы модель учитывала порядок слов).
 
- 
Архитектура (кодировщик-декодировщик): - Encoder (кодирует входные данные, например, текст).
- Decoder (генерирует выход, например, перевод).
- Оба блока использовали многослойные attention-головы.
 
- 
Обучение: - Обучали на задачах машинного перевода (WMT 2014, English-German).
- Использовали Adam-оптимизатор и dropout для регуляризации.
- Запускали на TPU/GPU (Google дал мощные ресурсы).
 
- 
Результат: - Побил рекорды в переводе, при этом обучался быстрее LSTM/GRU.
 
 --- Чем отличается оригинальный Transformer от BERT, GPT и DeepSeek?Модель Отличия от оригинального Transformer BERT (2018) – Только encoder (без декодера).<br> – Обучался на masked language modeling (предсказывал пропущенные слова).<br> – Двунаправленный (видит контекст слева и справа). GPT (2018) – Только decoder (без энкодера).<br> – Обучался на авторегрессии (предсказывает следующее слово).<br> – Однонаправленный (только слева направо). DeepSeek (2024) – Современная оптимизация Transformer.<br> – Улучшенные механизмы внимания (например, grouped-query attention).<br> – Огромный размер (до 67B параметров). --- Ключевые отличия в одной строке:- Transformer (2017) → Encoder + Decoder, self-attention, параллельное обучение. 
 - BERT → Только encoder, двунаправленный, для классификации/поиска.
 - GPT → Только decoder, авторегрессия, для генерации текста.
 - DeepSeek → Улучшенный decoder, эффективное внимание, для длинных контекстов.Вывод: 
 Оригинальный Transformer — это "отец" всех современных моделей. BERT, GPT и DeepSeek взяли его идеи, но упростили или оптимизировали под свои задачи. 
- 
- 
 Премии, связанные с Transformer и глубоким обучением1. Премия Тьюринга (Turing Award) — «Нобелевка» в Computer Science- За что дают? 
 За выдающийся вклад в области информатики.- Кто получил за Transformer и deep learning? 
 В 2023 году премию получили:- Йошуа Бенджио (Yoshua Bengio)
- Джеффри Хинтон (Geoffrey Hinton)
- Ян Лекун (Yann LeCun)
 (Но не авторы Transformer! Они получили её за более ранние работы по нейросетям.)
 Однако авторы Transformer (Васуани, Шейзер и др.) тоже могут её получить в будущем — их работа считается революционной. 2. ACL Test of Time Award (премия за долгосрочное влияние)- За что дают? 
 Награждают статьи, которые сильно повлияли на NLP через 10+ лет после публикации.- Кто получил? 
 Пока "Attention Is All You Need" (2017) ещё не получила (ей всего 7 лет), но, скорее всего, получит в 2027–2030 годах.3. NeurIPS Best Paper (премия за лучшую статью на конференции NeurIPS)- За что дают? 
 За самые значимые исследования в machine learning.- Получал ли Transformer? 
 Нет, статья вышла в arXiv (2017), а не на NeurIPS. Но если бы подавали — точно бы выиграла.--- Почему авторы Transformer ещё не получили Тьюринга?- Премию Тьюринга дают с задержкой (обычно через 10–20 лет после открытия).
- В 2023 наградили "отцов deep learning" (Хинтона и др.) — их работы 1980–2000-х сделали возможным появление Transformer.
- Transformer ещё "слишком молод" (2017), но его авторы — главные кандидаты на премию в 2030-х.
 --- Какие ещё награды получили авторы Transformer?- Google Research Awards (внутренние премии). 
 - Упоминания в топ-конференциях (ICML, ACL, NeurIPS) как одна из самых влиятельных работ.
 - Цитирования (более 80 000+ ссылок на статью — это гигантский показатель).--- Вывод- Пока авторы Transformer не получили Тьюринга, но их работа изменила всю NLP-индустрию. 
 - Скорее всего, их наградят в будущем — как Бенджио, Хинтона и ЛеКуна.
 - Сейчас они получают признание через цитирования и внедрение их идей в ChatGPT, Gemini и другие ИИ. Transformer — это как изобретение транзистора для ИИ: пока не всегда награждают, но без него ничего не работает. Transformer — это как изобретение транзистора для ИИ: пока не всегда награждают, но без него ничего не работает.
