• Deep Seek

    1
    1
    0 Голоса
    1 Сообщения
    137 Просмотры
    Нет ответов
  • Изобретение модели Трансформер (как это было кратко, и кто изобрел)

    3
    0 Голоса
    3 Сообщения
    104 Просмотры
    MasterGHM
    Премии, связанные с Transformer и глубоким обучением 1. Премия Тьюринга (Turing Award) — «Нобелевка» в Computer Science - За что дают? За выдающийся вклад в области информатики. - Кто получил за Transformer и deep learning? В 2023 году премию получили: Йошуа Бенджио (Yoshua Bengio) Джеффри Хинтон (Geoffrey Hinton) Ян Лекун (Yann LeCun) (Но не авторы Transformer! Они получили её за более ранние работы по нейросетям.) Однако авторы Transformer (Васуани, Шейзер и др.) тоже могут её получить в будущем — их работа считается революционной. 2. ACL Test of Time Award (премия за долгосрочное влияние) - За что дают? Награждают статьи, которые сильно повлияли на NLP через 10+ лет после публикации. - Кто получил? Пока "Attention Is All You Need" (2017) ещё не получила (ей всего 7 лет), но, скорее всего, получит в 2027–2030 годах. 3. NeurIPS Best Paper (премия за лучшую статью на конференции NeurIPS) - За что дают? За самые значимые исследования в machine learning. - Получал ли Transformer? Нет, статья вышла в arXiv (2017), а не на NeurIPS. Но если бы подавали — точно бы выиграла. --- Почему авторы Transformer ещё не получили Тьюринга? Премию Тьюринга дают с задержкой (обычно через 10–20 лет после открытия). В 2023 наградили "отцов deep learning" (Хинтона и др.) — их работы 1980–2000-х сделали возможным появление Transformer. Transformer ещё "слишком молод" (2017), но его авторы — главные кандидаты на премию в 2030-х. --- Какие ещё награды получили авторы Transformer? - Google Research Awards (внутренние премии). - Упоминания в топ-конференциях (ICML, ACL, NeurIPS) как одна из самых влиятельных работ. - Цитирования (более 80 000+ ссылок на статью — это гигантский показатель). --- Вывод - Пока авторы Transformer не получили Тьюринга, но их работа изменила всю NLP-индустрию. - Скорее всего, их наградят в будущем — как Бенджио, Хинтона и ЛеКуна. - Сейчас они получают признание через цитирования и внедрение их идей в ChatGPT, Gemini и другие ИИ. Transformer — это как изобретение транзистора для ИИ: пока не всегда награждают, но без него ничего не работает.
  • Рекомендации для изучения промтинга LLM

    2
    0 Голоса
    2 Сообщения
    21 Просмотры
    MasterGHM
    Мультимодальные LLM: когда ИИ видит, слышит и понимает контекст Что это? Модели, способные одновременно обрабатывать текст, изображения, аудио и видео. Это не просто "распознавание картинок", а глубокое понимание связей между разными типами данных. Пример работы: Загружаете фото схемы электронной платы + текстовый запрос: "Найди ошибку в разводке конденсатора C7 и предложи исправление в формате KiCad". Модель: 1️⃣ Анализирует изображение, 2️⃣ Сопоставляет с текстовым контекстом, 3️⃣ Генерирует инструкцию с исправлением. --- Ключевые возможности и применение Тип данных Что умеет модель Практическое применение Текст + Изображение Описание сцен, анализ графиков, чтение рукописных заметок Автоматизация документооборота, генерация ALT-текста, поиск дефектов на чертежах Текст + Аудио Транскрибация с контекстным анализом, генерация эмоциональной речи Виртуальные ассистенты с "характером", анализ колл-центров, озвучка презентаций Видео + Текст Понимание сюжета, поиск ключевых моментов, аннотирование Автосуммаризация записей встреч, модерация контента, создание монтажных листов --- ️ Как работать с мультимодальностью? Выбор инструментов: OpenAI GPT-4o (vision + text + voice) — через API или ChatGPT. Google Gemini 1.5 — поддерживает до 1 млн токенов контекста (включая видео!). Open-source: LLaVA, Fuyu-8B (можно запустить локально с GPU). Специфика промтов: Четко указывайте тип данных: "Проанализируй скриншот ошибки (вложение 1) и лог-файл (вложение 2). Предложи 3 решения." Управляйте фокусом: "Сравни графики продаж за 2023 и 2024 (PDF-страница 5). Сосредоточься на падении в Q3." Используйте ролевые модели: "Ты инженер-электронщик. По фото прототипа определи, где перегревается компонент." Технические требования: Для локальных моделей: GPU с 8+ GB VRAM (например, LLaVA-1.6 требует NVIDIA RTX 3090). В облаке: API с поддержкой multipart/form-data (для загрузки бинарных файлов). --- Зачем это технарю? - Автоматизация сложных задач: Запрос: "По видео сборки робота составь checklist для тестирования (вывод в Markdown)". Результат: Готовый чеклист с привязкой к временным меткам. - Работа с документацией: Анализ сканов ТУ, схем, диаграмм без ручного ввода данных. - Быстрый прототипинг: "Сгенерируй UI для приложения по этому наброску на салфетке (фото) + описание функционала (текст)". --- ️ Ограничения (на 2025 год): - Точность распознавания: Может ошибаться в деталях (например, номера микросхем на фото). - Контекстное окно: Видео длительностью >10 мин часто требуют препроцессинга. - Стоимость: Мультимодальные API в 3-5x дороже текстовых (например, GPT-4o vision — $5-15 за 1к запросов). --- Как начать? Поэкспериментируйте в Google Gemini (бесплатно) с загрузкой PDF/изображений. Для кода: Llama 3 с LLaVA (туториал). Протестируйте API через OpenRouter (поддержка >30 мультимодальных моделей). Главный принцип: Мультимодальность — не замена текстовым LLM, а мощное расширение для задач, где контекст требует визуала или звука.