Модель Gato и Глубокий Разум
Gato — это универсальная модель ИИ, разработанная DeepMind, представленная в 2022 году. Она является шагом к искусственному общему интеллекту (AGI), способному выполнять множество задач, не ограничиваясь узкой специализацией.
Gato — эксперимент, а не коммерческий продукт. DeepMind использует его для исследований в области AGI.
Ключевые особенности Gato
- Многозадачность: Gato обучена на 600+ задачах, включая игры (Atari), управление роботами, обработку текста, анализ изображений и чат. Она может, например, играть в видеоигры, описывать картинки или управлять роботизированной рукой.
- Архитектура: Трансформер с 1.2 миллиарда параметров, что меньше, чем у крупных языковых моделей (например, GPT-3), но оптимизирован для универсальности.
- Обучение: Модель использует мультимодальный подход, обрабатывая текст, изображения и данные управления в едином формате токенов. Это позволяет ей переключаться между задачами без переобучения.
- Производительность: Gato показывает результаты, сравнимые с узкоспециализированными моделями в 50% случаев, но уступает в сложных задачах, требующих глубокого анализа.
Значимость
- Gato демонстрирует потенциал универсального ИИ, который может адаптироваться к новым задачам без дообучения.
- Подчёркивает подход DeepMind к созданию AGI , где модель учится обобщать знания, как человек.
Ограничения
- Меньшая производительность в сравнении с узкими моделями в сложных задачах.
- Ограниченные вычислительные ресурсы (по меркам крупных моделей).
- Этические вопросы: риски универсального ИИ требуют строгого контроля.
Контекст
Gato — эксперимент, а не коммерческий продукт. DeepMind использует его для исследований в области AGI, акцентируя безопасность и этику. Это не конечная точка, а шаг к более мощным универсальным системам.
Нюансы
Разработка Gato вдохновлена успехами таких моделей, как GPT-3, Gopher и Flamingo, что подтолкнуло исследователей DeepMind к расширению границ универсальных языковых и визуально-языковых моделей. Ранее в этом году Google представила модель PaLM, основанную на системе Pathways, а Meta AI выпустила data2vec — первый высокопроизводительный самообучающийся алгоритм для нескольких модальностей, превосходящий специализированные алгоритмы в задачах компьютерного зрения, речи и обработки естественного языка.
Gato использует подход, схожий с Gopher — моделью с 280 миллиардами параметров, основанной на архитектуре трансформера и обученной на 10,5 терабайтах текстовых данных. Gopher показал значительные улучшения в задачах, требующих знаний, но менее эффективен в задачах, связанных с логическим мышлением. Аналогично, модель Google GLaM, основанная на смеси экспертов, демонстрирует конкурентоспособные результаты в задачах с малым количеством примеров, включая ответы на открытые вопросы, понимание текста и логические выводы.
Gato — это шаг вперед в создании универсальных агентов, способных адаптироваться к различным задачам и средам, что делает его настоящим «швейцарским ножом» в мире искусственного интеллекта.
Гениальность или мираж?
Gato, созданный DeepMind, впечатляет своей многозадачностью: он играет в игры, управляет роботами и даже генерирует тексты. Но не спешите называть его «универсальным» ИИ. Андреас из MIT подчёркивает: настоящий универсальный интеллект должен гибко адаптироваться к новым, незнакомым задачам, а Gato пока лишь мастерски справляется с тем, чему его научили. Увеличение размеров моделей, как показывает практика, не наделяет их способностью учиться всю жизнь, словно человека, который, освоив одно, применяет знания к новым вызовам.
Эммануэль Кахембве, исследователь ИИ и робототехники, член Black in AI, добавляет, что шумиха вокруг таких проектов, как Gato, отвлекает от действительно важных направлений. Многие перспективные идеи остаются в тени, не получая должного финансирования, ведь крупные техгиганты и их исследователи гонятся за громкими заголовками, а не за глубокими прорывами. Путь к настоящему ИИ ещё долог, и он требует не только технологий, но и смены приоритетов.
Gato обучается на множестве наборов данных с информацией об опыте агентов в смоделированных и реальных средах. Также использовались наборы данных на естественном языке и изображениях.
На этапе развёртывания для формирования начальной последовательности используется токенизация запроса. После этого среда выдаёт первое наблюдение, которое токенизируется и добавляется к последовательности. Затем Gato авторегрессивно выбирает вектор действий. Он обрабатывает по одному токену за раз, и после выборки всех токенов Gato декодирует действие и отправляет его в среду. Затем среда выдаёт новое наблюдение, и процесс повторяется в цикле. «Модель всегда видит все предыдущие наблюдения и действия в пределах своего контекстного окна размером 1024 токена», — заявили исследователи.
Экономика данных
Компании, люди, географические координаты, населённые пункты, инфографика, аналитика, карточки объектов, сайты, контакты, адреса, искусственный интеллект, большие данные, фиас, кладр, октмо, окато, оквэд, огрн, инн, кпп, окпф.