Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
2024-12-27 17:12 Deepseek

据Reddit网友爆料,Deepseek-v3已在 API 和网页上发布,一些榜单跑分也新鲜出炉。在 Aider 多语言编程测试排行榜中,Deepseek-v3 一举超越 Claude 3.5 Sonnet,排在第 1 位的 o1 之后。(相比 Deepseek-v2.5,完成率从 17.8% 大幅上涨至 48.4%。)且在 LiveBench 测评中,它是当前最强开源 LLM,并在非推理模型中仅次于 gemini-exp-1206,排在第二。