東西編譯程茜編輯心緣智東西6月17日消息,今日,AI基準測試平臺LMArena公布最新WebDevArena排行榜,新版DeepSeek-R1編程能力沖上第一。從榜單可以看出,新版DeepSeek-R1與ClaudeOpus4、Gemini2.5Pro并列第一。自今年2月底,Anthropic發布首款混合推理模型與最佳編碼模型Claude3.7Sonnet,到5月發布Claude4,此前,WebDevArena榜單第一幾乎被Anthropic家的Claude系列模型壟斷。此次,新版DeepSeek-R1沖上榜一與ClaudeOpus4并列,佐證了其在編程方面的能力提升。此外,文本領域,新版DeepSeek-R1在開源模型中排名第一,整體排名第6,與ClaudeOpus4、GPT-4.1、Gemini-2.5-flash并列。按類別劃分,新版DeepSeek-R1在編程方面排名第2,在困難提示方面排名第4,在數學方面排名第5。新DeepSeek-R1于5月28日開源,從DeepSeek當時發布的基準測試結果來看,其整體表現已接近OpenAI-o3與谷歌Gemini-2.5-Pro等模型。
完整榜單:https://lmarena.ai/leaderboardLMArena評論區對新版DeepSeek-R1沖上榜一給予了很高的評價:DeepSeek-R1在
WebDevArena上的性能現已追平ClaudeOpus4,鑒于Claude長期以來作為編程導向型AI的標桿地位,這是一個值得關注的里程碑,這標志著開源AI迎來了關鍵時刻。
結語:AI編程模型、產品加速迭代,開啟群雄混戰當下,全球AI編程的熱度空前高漲,AI加速滲透到AI編程環節中,為開發者帶來空前的生產力提升。
這一背景下,各路AI編程模型、產品快速迭代。
今日凌晨,月之暗面推出針對軟件工程任務的全新開源代碼大模型Kimi-Dev-72B,還有此前OpenAI、谷歌、微軟、Anthropic、阿里等企業紛紛亮出相應模型、產品。與此同時,新版DeepSeek-R1登頂編程能力榜單,意味著國內外AI編程競爭態勢愈發火熱。