Что нового в обновлении Vertex AI от Google — генерация музыки и улучшение видео

Компания Google представила обновления платформы Vertex AI, включая интеграцию генеративной модели Lyria, улучшения для видеомоделей и новые функции редактирования изображения.

📅 10-04-2025, 15:10 👁️ 145

👤 Андрей Текстов

Фото: trashbox

9 апреля Google анонсировала масштабное обновление своей платформы искусственного интеллекта Vertex AI. Главной новинкой стала возможность преобразования текстового контента в музыку с помощью генеративной модели Lyria. Таким образом, Vertex AI становится единственной платформой с генеративными медиа-моделями для создания видео, изображений, речи и музыки.

Пользователи теперь могут генерировать контент от текстовых подсказок до готовых видеоматериалов с музыкальным сопровождением и озвучкой.

Новые функции в видеомодели Veo 2

В рамках обновления Google также улучшила имеющиеся инструменты. Например, видеомодель Veo 2 обрела функцию Inpainting, позволяющую удалять нежелательные элементы из видео. На демонстрации был представлен ролик, где ИИ "стер" трос, благодаря чему персонаж выглядел так, будто парит в воздухе.

Кроме того, модель получила функцию Outpainting, которая расширяет видеоряд, что идеально подходит для адаптации контента под разные форматы, включая вертикальные короткие видео для социальных сетей.

Управление композицией и ракурсами

Veo 2 теперь имеет улучшенные инструменты для изменения композиции кадров и ракурсов камеры. С помощью текстовых команд пользователи могут задавать направление движения камеры, положение съемки объекта и переключение ракурсов.

Дополнительно, инструмент интерполяции позволяет пользователям указать начальный и конечный кадры, чтобы ИИ мог качественно заполнить промежуточные моменты.

Улучшения в Imagen 3 Editing

Google также обновила инструмент Imagen 3 Editing, который теперь более эффективно удаляет объекты из изображений, восстанавливая при этом недостающие участки. В качестве примера была продемонстрирована работа модели, которая убрала микрофон, закрывающий часть лица.

Реалистичная генерация речи

Модель Chirp 3 теперь включает функцию Instant Custom Voice, которая позволяет генерировать натуральный голос человека на основе 10-секундного аудиопроизношения. Также новая функция Transcription with Diarization осуществляет точную идентификацию спикеров при расшифровке аудиофайлов, облегчая взаимодействие с контентом.

Google