Cerebras Systems представляет Cerebras Inference — самый быстрый движок для выводов ИИ

Cerebras Systems представила Cerebras Inference — «самый быстрый движок для выводов ИИ», который в 20 раз превосходит решения на базе GPU от NVIDIA.

Новый движок способен обрабатывать 1800 токенов в секунду для модели Llama 3.1 8B (принадлежит Meta, которая признана в РФ экстремистской и запрещена) и 450 токенов в секунду для модели Llama 3.1 70B (принадлежит Meta, которая признана в РФ экстремистской и запрещена).

Ключевой особенностью Cerebras Inference является сохранение точности без ущерба для скорости. В отличие от других решений, которые могут снижать точность для ускорения обработки, Cerebras Inference работает в 16-битной области на протяжении всего цикла вычислений, обеспечивая разработчикам быстрый доступ к высококачественным результатам.

Cerebras Inference доступен в версиях Free, Developer и Enterprise, и обещает революционизировать разработку ИИ, особенно в приложениях, требующих обработки в реальном времени или больших объемов данных.

Раннее ITinfo сообщало, что Apple представит новые MacBook и Mac с чипом M4 в ноябре.