CELua[RU]
    • Категории
    • Последние
    • Метки
    • Популярные
    • Пользователи
    • Группы
    • Зарегистрироваться
    • Войти

    Изобретение модели Трансформер (как это было кратко, и кто изобрел)

    Запланировано Прикреплена Закрыта Перенесена AI-инструменты
    3 Сообщения 1 Posters 6 Просмотры 1 Watching
    Загружаем больше сообщений
    • Сначала старые
    • Сначала новые
    • По количеству голосов
    Ответить
    • Ответить, создав новую тему
    Авторизуйтесь, чтобы ответить
    Эта тема была удалена. Только пользователи с правом управления темами могут её видеть.
    • MasterGHM Не в сети
      MasterGH Администраторы
      отредактировано

      Кто эти люди по образованию?

      Авторы Transformer — в основном специалисты в области компьютерных наук, математики и machine learning, многие с опытом в нейросетях и NLP. Вот их краткие "досье":

      1. Ашыш Васуани (Ashish Vaswani)

        • Образование: PhD в Computer Science (USC, University of Southern California).
        • До Google работал в стартапах и занимался NLP.
        • В 2017 году был research scientist в Google Brain.
      2. Ноам Шейзер (Noam Shazeer)

        • Один из самых опытных в команде. Работал в Google с 2000-х.
        • Участвовал в создании Google Translate, механизма PageRank и ранних NLP-моделей.
        • Образование: CS в Stanford.
      3. Илья Суцкевер (Ilya Sutskever)

        • PhD под руководством Джеффри Хинтона (пионера deep learning) в University of Toronto.
        • Сооснователь OpenAI (позже стал Chief Scientist).
        • Работал над AlexNet (прорыв в компьютерном зрении, 2012).
      4. Якоб Усковоре (Jakob Uszkoreit)

        • Сын известного лингвиста.
        • Образование: Computer Science в Берлинском университете.
        • До Google работал над семантическим поиском.
      5. Лукай Кайзер (Łukasz Kaiser)

        • PhD по математике и computer science (Paris Diderot University).
        • Специалист по алгоритмам и теории нейросетей.
      6. Ники Пармар (Niki Parmar)

        • Магистр CS в University of Southern California.
        • До Google работала над NLP в стартапах.
      7. Илья Полосухин (Illia Polosukhin)

        • Выпускник Computer Science (University of Illinois).
        • Позже ушел из Google и основал NEAR Protocol (блокчейн-стартап).

      ---

      Как пришли к прорыву? Что послужило толчком?

      1. Критика RNN/LSTM

        • Все авторы знали главную проблему NLP-2017: рекуррентные сети (RNN/LSTM) медленные и плохо запоминают длинные тексты.
        • Механизм attention уже использовали (например, в Google Translate), но как "довесок" к RNN.
      2. Идея: "А что если attention — это всё?"

        • Васуани и Шейзер предложили полностью убрать RNN и оставить только attention.
        • Это была радикальная идея — многие в комьюнити сомневались.
      3. Эксперименты

        • Команда быстро собрала прототип на TensorFlow.
        • Первые тесты показали, что модель учится быстрее RNN и дает лучшие результаты.
      4. Поддержка Google

        • У Google были огромные вычислительные ресурсы (TPU) и датасеты.
        • Это позволило обучить модель, которая переплюнула все SOTA (state-of-the-art).

      ---

      Сильно радовались?

      Да, но не сразу.
      - Сначала были скептики (многие не верили, что RNN можно выкинуть).
      - Когда Transformer побил все рекорды в машинном переводе — осознали масштаб.
      - Илья Суцкевер (будущий сооснователь OpenAI) сразу понял, что это революция.
      - Ноам Шейзер позже говорил, что даже не ожидал, насколько Transformer изменит индустрию.

      ---

      Почему именно они?

      1. Правильная команда
        • Сочетание теоретиков (Кайзер, Суцкевер) и практиков (Шейзер, Васуани).
      2. Смелость отказаться от RNN
        • До этого все улучшали старые подходы, а они решили сломать шаблон.
      3. Ресурсы Google
        • Без TPU и больших данных Transformer мог остаться "просто интересной идеей".

      ---

      Что было после статьи?

      - Через год (2018) на основе Transformer сделали BERT (Google) и GPT (OpenAI).
      - Сейчас вся NLP-индустрия работает на его архитектуре (ChatGPT, Claude, Gemini и др.).
      - В 2023 авторы получили Премию Тьюринга (как и Хинтон, Лекун и Бенджио за deep learning).

      Вывод:
      Они не просто "придумали" — они посмели сделать иначе, и это изменило мир ИИ. А радость пришла, когда осознали, что создали новую эпоху в машинном обучении. 🚀

      1 ответ Последний ответ Ответить Цитировать 0
      • MasterGHM Не в сети
        MasterGH Администраторы
        отредактировано

        Как собирали прототип Transformer?

        1. Базовая идея:

          • Полностью отказались от RNN и CNN, заменив их self-attention (механизмом внимания).
          • Добавили positional encoding (чтобы модель учитывала порядок слов).
        2. Архитектура (кодировщик-декодировщик):

          • Encoder (кодирует входные данные, например, текст).
          • Decoder (генерирует выход, например, перевод).
          • Оба блока использовали многослойные attention-головы.
        3. Обучение:

          • Обучали на задачах машинного перевода (WMT 2014, English-German).
          • Использовали Adam-оптимизатор и dropout для регуляризации.
          • Запускали на TPU/GPU (Google дал мощные ресурсы).
        4. Результат:

          • Побил рекорды в переводе, при этом обучался быстрее LSTM/GRU.

        ---

        Чем отличается оригинальный Transformer от BERT, GPT и DeepSeek?

        Модель Отличия от оригинального Transformer
        BERT (2018) – Только encoder (без декодера).<br> – Обучался на masked language modeling (предсказывал пропущенные слова).<br> – Двунаправленный (видит контекст слева и справа).
        GPT (2018) – Только decoder (без энкодера).<br> – Обучался на авторегрессии (предсказывает следующее слово).<br> – Однонаправленный (только слева направо).
        DeepSeek (2024) – Современная оптимизация Transformer.<br> – Улучшенные механизмы внимания (например, grouped-query attention).<br> – Огромный размер (до 67B параметров).

        ---

        Ключевые отличия в одной строке:

        - Transformer (2017) → Encoder + Decoder, self-attention, параллельное обучение.
        - BERT → Только encoder, двунаправленный, для классификации/поиска.
        - GPT → Только decoder, авторегрессия, для генерации текста.
        - DeepSeek → Улучшенный decoder, эффективное внимание, для длинных контекстов.

        Вывод:
        Оригинальный Transformer — это "отец" всех современных моделей. BERT, GPT и DeepSeek взяли его идеи, но упростили или оптимизировали под свои задачи. 🚀

        1 ответ Последний ответ Ответить Цитировать 0
        • MasterGHM Не в сети
          MasterGH Администраторы
          отредактировано

          Премии, связанные с Transformer и глубоким обучением

          1. Премия Тьюринга (Turing Award) — «Нобелевка» в Computer Science

          - За что дают?
          За выдающийся вклад в области информатики.

          - Кто получил за Transformer и deep learning?
          В 2023 году премию получили:

          • Йошуа Бенджио (Yoshua Bengio)
          • Джеффри Хинтон (Geoffrey Hinton)
          • Ян Лекун (Yann LeCun)
            (Но не авторы Transformer! Они получили её за более ранние работы по нейросетям.)

          Однако авторы Transformer (Васуани, Шейзер и др.) тоже могут её получить в будущем — их работа считается революционной.

          2. ACL Test of Time Award (премия за долгосрочное влияние)

          - За что дают?
          Награждают статьи, которые сильно повлияли на NLP через 10+ лет после публикации.

          - Кто получил?
          Пока "Attention Is All You Need" (2017) ещё не получила (ей всего 7 лет), но, скорее всего, получит в 2027–2030 годах.

          3. NeurIPS Best Paper (премия за лучшую статью на конференции NeurIPS)

          - За что дают?
          За самые значимые исследования в machine learning.

          - Получал ли Transformer?
          Нет, статья вышла в arXiv (2017), а не на NeurIPS. Но если бы подавали — точно бы выиграла.

          ---

          Почему авторы Transformer ещё не получили Тьюринга?

          1. Премию Тьюринга дают с задержкой (обычно через 10–20 лет после открытия).
          2. В 2023 наградили "отцов deep learning" (Хинтона и др.) — их работы 1980–2000-х сделали возможным появление Transformer.
          3. Transformer ещё "слишком молод" (2017), но его авторы — главные кандидаты на премию в 2030-х.

          ---

          Какие ещё награды получили авторы Transformer?

          - Google Research Awards (внутренние премии).
          - Упоминания в топ-конференциях (ICML, ACL, NeurIPS) как одна из самых влиятельных работ.
          - Цитирования (более 80 000+ ссылок на статью — это гигантский показатель).

          ---

          Вывод

          - Пока авторы Transformer не получили Тьюринга, но их работа изменила всю NLP-индустрию.
          - Скорее всего, их наградят в будущем — как Бенджио, Хинтона и ЛеКуна.
          - Сейчас они получают признание через цитирования и внедрение их идей в ChatGPT, Gemini и другие ИИ.

          🚀 Transformer — это как изобретение транзистора для ИИ: пока не всегда награждают, но без него ничего не работает.

          1 ответ Последний ответ Ответить Цитировать 0

          • 1 / 1
          • Первое сообщение
            Последнее сообщение
          Powered by NodeBB | Contributors
          СeLua[RU] 2025©