Модель Gato и Глубокий Разум

Gato — это универсальная модель ИИ, разработанная DeepMind, представленная в 2022 году. Она является шагом к искусственному общему интеллекту (AGI), способному выполнять множество задач, не ограничиваясь узкой специализацией.

Gato — эксперимент, а не коммерческий продукт. DeepMind использует его для исследований в области AGI.

Ключевые особенности Gato

  • Многозадачность: Gato обучена на 600+ задачах, включая игры (Atari), управление роботами, обработку текста, анализ изображений и чат. Она может, например, играть в видеоигры, описывать картинки или управлять роботизированной рукой.
  • Архитектура: Трансформер с 1.2 миллиарда параметров, что меньше, чем у крупных языковых моделей (например, GPT-3), но оптимизирован для универсальности.
  • Обучение: Модель использует мультимодальный подход, обрабатывая текст, изображения и данные управления в едином формате токенов. Это позволяет ей переключаться между задачами без переобучения.
  • Производительность: Gato показывает результаты, сравнимые с узкоспециализированными моделями в 50% случаев, но уступает в сложных задачах, требующих глубокого анализа.

Значимость

  • Gato демонстрирует потенциал универсального ИИ, который может адаптироваться к новым задачам без дообучения.
  • Подчёркивает подход DeepMind к созданию AGI , где модель учится обобщать знания, как человек.

Ограничения

  • Меньшая производительность в сравнении с узкими моделями в сложных задачах.
  • Ограниченные вычислительные ресурсы (по меркам крупных моделей).
  • Этические вопросы: риски универсального ИИ требуют строгого контроля.

Контекст

Gato — эксперимент, а не коммерческий продукт. DeepMind использует его для исследований в области AGI, акцентируя безопасность и этику. Это не конечная точка, а шаг к более мощным универсальным системам.

Нюансы

Разработка Gato вдохновлена успехами таких моделей, как GPT-3, Gopher и Flamingo, что подтолкнуло исследователей DeepMind к расширению границ универсальных языковых и визуально-языковых моделей. Ранее в этом году Google представила модель PaLM, основанную на системе Pathways, а Meta AI выпустила data2vec — первый высокопроизводительный самообучающийся алгоритм для нескольких модальностей, превосходящий специализированные алгоритмы в задачах компьютерного зрения, речи и обработки естественного языка.

Gato использует подход, схожий с Gopher — моделью с 280 миллиардами параметров, основанной на архитектуре трансформера и обученной на 10,5 терабайтах текстовых данных. Gopher показал значительные улучшения в задачах, требующих знаний, но менее эффективен в задачах, связанных с логическим мышлением. Аналогично, модель Google GLaM, основанная на смеси экспертов, демонстрирует конкурентоспособные результаты в задачах с малым количеством примеров, включая ответы на открытые вопросы, понимание текста и логические выводы.

Gato — это шаг вперед в создании универсальных агентов, способных адаптироваться к различным задачам и средам, что делает его настоящим «швейцарским ножом» в мире искусственного интеллекта.

Гениальность или мираж?

Gato, созданный DeepMind, впечатляет своей многозадачностью: он играет в игры, управляет роботами и даже генерирует тексты. Но не спешите называть его «универсальным» ИИ. Андреас из MIT подчёркивает: настоящий универсальный интеллект должен гибко адаптироваться к новым, незнакомым задачам, а Gato пока лишь мастерски справляется с тем, чему его научили. Увеличение размеров моделей, как показывает практика, не наделяет их способностью учиться всю жизнь, словно человека, который, освоив одно, применяет знания к новым вызовам.

Эммануэль Кахембве, исследователь ИИ и робототехники, член Black in AI, добавляет, что шумиха вокруг таких проектов, как Gato, отвлекает от действительно важных направлений. Многие перспективные идеи остаются в тени, не получая должного финансирования, ведь крупные техгиганты и их исследователи гонятся за громкими заголовками, а не за глубокими прорывами. Путь к настоящему ИИ ещё долог, и он требует не только технологий, но и смены приоритетов.

Gato обучается на множестве наборов данных с информацией об опыте агентов в смоделированных и реальных средах. Также использовались наборы данных на естественном языке и изображениях.

На этапе развёртывания для формирования начальной последовательности используется токенизация запроса. После этого среда выдаёт первое наблюдение, которое токенизируется и добавляется к последовательности. Затем Gato авторегрессивно выбирает вектор действий. Он обрабатывает по одному токену за раз, и после выборки всех токенов Gato декодирует действие и отправляет его в среду. Затем среда выдаёт новое наблюдение, и процесс повторяется в цикле. «Модель всегда видит все предыдущие наблюдения и действия в пределах своего контекстного окна размером 1024 токена», — заявили исследователи.

Экономика данных

Компании, люди, географические координаты, населённые пункты, инфографика, аналитика, карточки объектов, сайты, контакты, адреса, искусственный интеллект, большие данные, фиас, кладр, октмо, окато, оквэд, огрн, инн, кпп, окпф.

Данные Московской области

Репозитории

  1. GitVerse
  2. GitLab
  3. GitHub

Telegram

@mosregdata