Google представила мощную модель ИИ Gemini 2.0 с новыми функциями

Google анонсировала запуск Gemini 2.0, самой мощной модели ИИ на сегодняшний день, с расширенными функциональными возможностями и новыми ИИ-агентами.

📅 12-12-2024, 19:43 👁️ 100

👤 Андрей Текстов

Фото: forklog

Новая модель Gemini 2.0 обладает мультимодальными функциями и является более мощной по сравнению с предыдущей версией.
Интегрирован инструмент Deep Research для углубленного анализа и рассуждений.
Представлен ИИ-агент Project Mariner, который выполняет действия на компьютере самостоятельно.
Улучшена система AI Overviews для обобщения поисковых запросов.

11 декабря Google представила свою новейшую модель искусственного интеллекта Gemini 2.0, заявив, что это «самая мощная на сегодняшний день» версия.

Welcome to the world, Gemini 2.0 ✨ our most capable AI model yet.

We're first releasing an experimental version of 2.0 Flash ⚡ It has better performance, new multimodal output, @Google tool use - and paves the way for new agentic experiences. 🧵 https://t.co/ywY2oZv76p pic.twitter.com/1Wgcr3m2Ip
— Google DeepMind (@GoogleDeepMind) December 11, 2024

Запущена экспериментальная версия 2.0 Flash, обладающая высокой производительностью и мультимодальными функциями, которая «открывает новые горизонты для агентского опыта».

Gemini 2.0 Flash превзошла предыдущую 1.5 Pro по ключевым показателям, демонстрируя удвоенную скорость. Она может генерировать текст, изображения и речь на нескольких языках. Данная модель значительно улучшилась в сферах программирования и анализа изображений.

С точки зрения архитектуры, 2.0 Flash становится флагманской нейросетью, заменив 1.5 Pro. Новая версия может интегрироваться с сторонними приложениями и сервисами, включая Google Поиск и внешние API, что отличает ее от предыдущих версий.

As our workhorse model, Gemini 2.0 Flash outperforms 1.5 Pro on key benchmarks, at twice the speed.

It can generate images mixed with text as well as customizable text-to-speech multilingual audio. 2.0 Flash can also call tools like @Google Search, code execution and third-party… pic.twitter.com/OVicGFnJdP
— Google DeepMind (@GoogleDeepMind) December 11, 2024

Gemini 2.0 Flash доступна для всех в чат-формате, а мультимодальная версия ИИ с функциями преобразования текста в речь и изображение — для разработчиков через Gemini API в Google AI Studio и Vertex AI. В ближайшее время улучшенная версия ИИ будет внедряться в различные продукты, такие как Android Studio, Chrome DevTools, Firebase, Gemini Code Assist и другие.

ИИ-агент Google

Подразделение Google по искусственному интеллекту — DeepMind — представило своего первого ИИ-агента, именуемого Project Mariner, который может выполнять действия в интернете автономно.

Project Mariner, созданный на базе Gemini 2.0, доступен ограниченному числу тестировщиков. Он управляет браузером Chrome, перемещает курсор, нажимает кнопки и заполняет форму, имитируя поведение человека в сети.

После настройки на экране браузера появляется окно чата, где пользователь может давать инструкции ИИ, например, создавать корзину покупок на основе указанного списка продуктов.

Агент, выполнив все указания, переходит на сайт супермаркета, находит необходимые товары и добавляет их в виртуальную корзину. Однако стоит отметить, что скорость выполнения запросов относительно медленная — ждите около пяти секунд для каждого нажатия кнопки.

Важно, что Project Mariner не может заполнять данные кредитных карт и другую платежную информацию, а также принимать файлы cookie и подписывать соглашения, чтобы пользователи могли сохранять контроль.

Агент может быть использован для поиска рейсов, бронирования отелей, подбора рецептов и других задач. При этом использование компьютера во время выполнения задач невозможно.

Доступность Project Mariner для широкой аудитории пока неизвестна, так как дата его публичного релиза не сообщена.

Другие ИИ-агенты

Помимо Project Mariner, Google анонсировала и ряд других специализированных ИИ-агентов:

Deep Research — для помощи в изучении сложных тем, создавая многоэтапные учебные планы. Он не предназначен для решения математических или логических задач, написания кода или анализа данных;
Jules — программа для программирования, интегрирующаяся в рабочие процессы на GitHub, ожидается в 2025 году;
Еще один ИИ — для помощи в видеоиграх, дата его выпуска пока не уточнена.

Gemini научили рассуждать

Обновленная версия Gemini также включает функцию Deep Research, которая использует «продвинутые рассуждения» и «возможности длинного контекста» для создания кратких исследований. Брифы, созданные этой функцией, могут экспортироваться в Google Docs для дальнейшего редактирования.

The new Deep Research feature from Google feels like one of the most appropriately "Google-y" uses of AI to date, and is quite impressive.

I've had access for a bit and it does very good initial reports on almost any topic. The paywalls around academic sources puts some limits. pic.twitter.com/dwSqr6aKGZ
— Ethan Mollick (@emollick) December 11, 2024

Система способна анализировать информацию с помощью интернета, функционируя как своеобразный научный сотрудник. Результаты рассматриваются в виде краткого резюме с ссылками на источники. Алгоритм работы Deep Research таков:

Пользователь формулирует запрос.
Deep Research создает многоэтапный план исследования.
Пользователь подтверждает начало анализа.
Deep Research выполняет исследование в течение нескольких минут и генерирует ответ.

Данная функция доступна только для владельцев платной подписки на Gemini Advanced.

AI Overviews станет умным и мультимодальным

Google анонсировала обновление системы сводок поисковых запросов AI Overviews. Сообщено, что сервис в скором времени сможет обрабатывать более сложные, мультимодальные и многоэтапные поисковые задачи, включая расширенные математические запросы и задачипрограммирования.

Тестирование данного функционала начнется на этой неделе, а широкое внедрение ожидается в начале следующего года.

Улучшение AI Overviews стало возможным благодаря запуску Gemini 2.0.

Не забудьте, что в ноябре Google обучила чат-бот Gemini запоминать контекстную информацию о жизни и интересах пользователя.