에피소드 217: Psionic: 빠른 Qwen 3.5
Psionic에 Qwen 3.5(0.8B/2B/4B/9B) 지원을 추가하고 네 가지 모델 모두에서 @ollama의 추론 속도를 능가했습니다.
NVIDIA 4080 한 대에서 초당 토큰 처리량:
🏆 0.8B: Psionic 523.20, Ollama 328.72
🏆 2B: Psionic 247.21, Ollama 205.24
🏆 4B: Psionic 166.75, Ollama 141.62
🏆 9B: Psionic 102.68, Ollama 94.62
멋진 모델을 제공해주신 @Alibaba_Qwen님과 Codex를 이용해 머신러닝 엔지니어인 척할 수 있도록 도와주신 @OpenAIDevs님께 감사드립니다. 😆
분석 및 재현 방법: github.com/OpenAgentsInc/psion...…
Psionic, 최악이면서 최고의 머신러닝 라이브러리에 대한 더 많은 기능이나 모델 요청을 환영합니다!
twitter.com/OpenAgentsInc/stat...