Как EXO Labs запустили Llama на 26-летнем ПК с Pentium II

Специалисты EXO Labs успешно запустили языковую модель Llama на старом ПК, демонстрируя возможности ИИ даже на ограниченных ресурсах.

👁️ 106
большая языковая модель
Фото: trashbox

29 декабря команда EXO Labs, выступающая за доступность технологий на основе искусственного интеллекта, поделилась в своём блоге впечатляющим достижением: им удалось запустить большую языковую модель Llama на 26-летнем компьютере с Windows 98 и процессором Pentium II (с тактовой частотой 350 МГц). Для этого разработчики использовали кастомный движок Llama2.c, созданный Андреем Карпати, бывшим директором по ИИ в Tesla и одним из основателей OpenAI, который он выложил в открытый доступ на GitHub.

Запустив LLM на столь старом компьютере, специалисты поставили перед системой задачу — сгенерировать историю о Sleepy Joe («Сонный Джо»). Радует, что ИИ не только справился с этой задачей, но и создавал текст с довольно высокой скоростью. Этот опыт демонстрирует, что запуск больших языковых моделей возможен даже на устройствах с ограниченными ресурсами. Тем не менее, пользователю необходимо обладать определёнными техническими навыками, так как передача данных на такое старое устройство оказалась непростой задачей.

В блоге EXO Labs также упоминается, что скомпилировать современный код для Windows 98 было непросто. Команда смогла адаптировать движок Llama2.c с помощью устаревшей IDE и компилятора Borland C++ 5.02, внесев несколько небольших правок. Результатом стал исполняемый файл, совместимый с Windows 98. Примечательно, что полученное решение обеспечивало хорошую производительность — скорость генерации текстового контента составила 35,9 токенов в секунду при использовании модели размером 260К.

Несмотря на это, в современных условиях данная большая языковая модель может показаться довольно скромной. В то же время, способность запускать ИИ технологии на компьютере с 128 МБ оперативной памяти впечатляет. На этой системе удалось запустить и более крупные LLM, такие как Llama 3.2 1B. Однако обработка этой модели оказалась затруднена: скорость генерации снизилась до 0,0093 токена в секунду.