速度秒殺GPT-4o,Mistral開源首個22B代碼模型破記錄,支持80+編程語言

avatar
36氪
05-30

【導讀】就在剛剛,法國AI初創公司Mistral發佈了自家首款代碼生成模型Codestral。不僅支持32K長上下文窗口以及80多種編程語言,而且還用22B的參數量取得了與70B的Llama 3相近的性能。目前,已經開放API與IDE插件供用戶使用。

真正Open的AI公司Mistral又低調上新了。 

這次,他們發佈了首款代碼生成模型Codestral,支持80多種編程語言以及32K長上下文窗口。 

不僅在基準測試上取得了驚豔的表現,而且代碼生成的速度也讓試用的網友非常滿意。 

目前,Codestral提供了多種API,而且模型權重也公開在HuggingFace上。 

項目地址:https://huggingface.co/mistralai/Codestral-22B-v0.1/tree/main 

代碼生成新SOTA

Codestral的訓練數據包含80多種編程語言,包括最流行的Python、Java、C、C++和Bash,以及HTML、JavaScript等前端語言,在Swift和Fortran上也有良好表現。 

模型可以完成的任務包括編寫特定功能的函數、編寫測試,以及代碼填充。 

此外,由於Codestral同時精通英語,也可以與開發人員進行交互,有助於提高工程師的編碼水平並減少錯誤和漏洞。 

可以通過Le Chat對話界面免費使用模型的交互功能。 

在線地址:https://chat.mistral.ai/chat 

作為一個參數量只有22B的模型,Codestral實現了32K的長上下文窗口,是Llama 3 70B的四倍。 

Codestral使用了Llama架構,但在7種語言的HumanEval均分超過了CodeLlama,可以和Llama 3打個平手。 

RepoBench是一個用於評估存儲庫級代碼補全任務的新基準,考驗模型的跨文件檢索和理解長上下文能力。在RepoBench上,Codestral使用Python語言達到了SOTA成績。 

此外,在其他語言的評估中,包括C++、bash、Java、PHP、Typescript和C#,Codestral也取得了不錯的成績。 

FIM基準可以評估模型在中間填充任務上的性能,但CodeLlama和Llama不直接支持這個功能。 

在FIM任務中,Codestral用更少的參數量,在Pyhon、JavaScript和Java三種語言上的分數全面超過DeepSeek Coder 33B。 

目前,Mistral開放了兩個API供開發者調用Codestral,分別是codestral.mistral.ai和api.mistral.ai,前者有8周的免費測試期,後者按token收費。 

此外,還可以通過Continue.dev或者Tabnine插件在VSCode或JetBrains的IDE中使用Codestral的功能。 

開發者們已經用上了

基準測試畢竟只是參考,代碼工具好不好用,只有試過才知道。 

有網友感嘆「80種語言太瘋狂了」「終於有人想起來Swift了」。 

而且實測中可以看到,Codestral的代碼生成速度非常快,而且響應延遲也很短。 

有人給了GPT-4o和Codestral相同的任務,讓它們用Go語言實現基本的發佈/訂閱系統。 

雖然兩個模型的響應延遲都很短,但Codestral寫完的時候,GPT-4o剛寫到一半,生成速度高下立現。

有開發者分析,雖然Codestral不是最大、最好的代碼模型,但自己還是會從Claude Opus爬牆,改用Codestral。

因為模型確實包含了更多前沿知識,可以幫助編寫最新的AI代碼,但ChatGPT和Opus都做不到。 

但也有Python工程師吐槽:「沒有一個LLM明白,在Python 3.9之後的版本中,就不再需要使用from typing import List了。」 

「GPT-4、GPT-4o、Claude Opus、Gemini和Codestral都無法理解這一點。即使明確說明,它們仍然無法理解。」 

看來人類程序員剩下的為數不多的優勢還有「知錯就改」。 

參考資料: 

https://mistral.ai/news/codestral/ 

本文來自微信公眾號“新智元”(ID:AI_era),編輯:喬楊 好睏 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論