Как языковые модели Instella от AMD способны изменить мир ИИ

AMD представила Instella - новые языковые модели с открытым исходным кодом и высоким уровнем производительности, обеспечиваемую графическими процессорами.

👁️ 118
языковые модели AMD Instella
Фото: trashbox

Компания анонсировала новое семейство языковых моделей Instella, разработанных с 3 миллиардами параметров и открытым исходным кодом. Эти модели были обучены на графических процессорах AMD Instinct MI300X и демонстрируют производительность, сопоставимую с Llama 3.2 3B, Gemma-2 2B и Qwen 2.5 3B. Кроме того, Instella иногда даже превосходит своих конкурентов. AMD не только выпустила исходный код, но и предоставила веса, конфигурации и набор данных, что позволяет дополнительно обучать модели с помощью программной платформы AMD ROCm.

Семейство Instella включает четыре модели: Instella-3B-Stage1, Instella-3B, Instella-3B-SFT и Instella-3B-Instruct. Все они поддерживают контекст до 4096 токенов и имеют словарь, состоящий из примерно 50000 токенов с использованием токенизатора OLMo. В компании отметили, что данные модели не подходят для решений, требующих высоких уровней фактологической точности, критических ситуаций, связанных с безопасностью, здравоохранением или медицинским применением. Чтобы узнать больше о новых языковых моделях AMD, вы можете посетить сайт компании, а исходный код доступен на платформе GitHub.