Что нового в генеративной модели Nova Sonic от Amazon

Компания Amazon представила Nova Sonic — новую генеративную модель ИИ для обработки речи, которая демонстрирует высокую производительность и экономичность по сравнению с аналогами.

👁️ 116
Nova Sonic
Фото: trashbox

8 апреля Amazon анонсировала свою новую генеративную модель искусственного интеллекта, названную Nova Sonic. Эта модель может эффективно обрабатывать голосовые команды и генерировать естественную речь на основе текстовых запросов. Представители компании подчеркивают, что по производительности эта модель сопоставима с последними голосовыми системами от OpenAI и Google, что служит доказательством значительного прогресса в данной области.

В официальном пресс-релизе Amazon также заявила, что Nova Sonic является самой экономичной моделью ИИ для голосовой обработки, обходя модель GPT-4o от OpenAI почти на 80%. В условиях стремительного развития технологий искусственного интеллекта, когда затраты на их создание и поддержку становятся все более критичными, такая экономия является приоритетом как для компаний, так и для их пользователей. Оказывается, Nova Sonic построена на технической архитектуре, занятой в работе голосового помощника Alexa.

Разработчики Nova Sonic отметили, что модель эффективно справляется с маршрутизацией запросов пользователя к различным API, что делает ее более практичным решением. Например, во время обращения она может самостоятельно искать актуальную информацию в интернете, анализировать источники данных или взаимодействовать с внешними приложениями, используя соответствующие инструменты. Кроме того, модель способна вести диалог, ожидая подходящего момента для ответа, учитывая паузы в речи собеседника.

Ключевым преимуществом Nova Sonic является высокая точность распознавания речи. Модель способна понимать озвученные фразы даже в условиях шума, а также распознавать их, когда пользователь говорит нечетко или делает ошибки.

В тестах Multilingual LibriSpeech, связанных с распознаванием речи на нескольких языках, Nova Sonic показала средний уровень ошибок 4,2% — это значит, что из 100 слов только 4 могут быть распознаны некорректно. В рамках теста Augmented Multi Party Interaction решение Amazon оказалось на 46,7% точнее, чем GPT-4o-transcribe от OpenAI. Кроме того, Nova Sonic обеспечивает более высокую скорость обработки — средняя задержка составляет 1,09 секунды, в то время как у GPT-4o этот показатель равен 1,18 секунды.