11 月 6 日消息,月之暗面今晚推出 Kimi 迄今能力最強的開源思考模型 ——Kimi K2 Thinking。
據介紹,該模型是月之暗面基于“模型即 Agent”理念訓練的新一代 Thinking Agent,原生掌握“邊思考,邊使用工具”的能力。在人類最后的考試(Humanity's Last Exam)、自主網絡瀏覽能力(BrowseComp)、復雜信息收集推理(SEAL-0)等多項基準測試中表現達到 SOTA 水平,并在 Agentic 搜索、Agentic 編程、寫作和綜合推理能力等方面取得全面提升。

該模型無需人類干預,即可自主實現高達 300 輪的工具調用和持續穩定的多輪思考能力,從而幫助用戶解決更復雜的問題。
附 Hugging Face、ModelScope 部署鏈接如下:
Hugging Face:https://huggingface.co/moonshotai
ModelScope:https://www.modelscope.cn/organization/moonshotai
“人類最后的考試”是一項涵蓋 100 多個專業領域的終極封閉式學術測試。在允許使用工具 —— 搜索、Python、網絡瀏覽工具的同等情況下,Kimi K2 Thinking 在這項基準評測中取得了 44.9% 的 SOTA 成績。

官方提供的示例中,Kimi K2 Thinking 經過 5 輪搜索和推理,結合每輪搜索到的新信息,層層深入,最終推理出了答案:

根據介紹,在復雜搜索和瀏覽場景中,Kimi K2 Thinking 模型也表現出色。BrowseComp 是由 OpenAI 發布的一個專門評估 AI Agent 網絡瀏覽能力的基準測試,這項測試的初衷是衡量 AI Agent 在信息過載環境中展現出的堅持性與創造力,即能否像人類研究員一樣“刨根問底”。在這項極具挑戰的任務上,人類平均只能達到 29.2% 的成績。Kimi K2 Thinking 在這項基準測試中展現出極強的鉆研能力,以 60.2% 的成績成為新的 SOTA 模型。

在長程規劃和自主搜索能力的驅動下,Kimi K2 Thinking 可借助多達上百輪的“思考 → 搜索 → 瀏覽網頁 → 思考 → 編程”動態循環,持續地提出并完善假設、驗證證據、進行推理,并構建出邏輯一致的答案。這種邊主動搜索邊持續思考的能力,使 Kimi K2 Thinking 能夠將模糊且開放式的問題分解為清晰、可執行的子任務。
在官方提供的另一個例子中,Kimi K2 Thinking 經過兩輪搜索和思考,先根據股回購的已知信息找到了這家制造快速的公司,然后在美國證券交易委員會(SEC)的官網上找到了股回購公告信息,得出了準確的答案:

Kimi K2 Thinking 模型的編碼能力也得到了增強,在多語言軟件工程基準 SWE-Multilingual、SWE-bench 驗證集和 Terminal 終端使用等基準測試中的表現有了進一步提升。
月之暗面表示,Kimi K2 Thinking 的通用基礎能力也得到了升級:
創意寫作:Kimi K2 Thinking 顯著提升了寫作能力,能將粗略的靈感轉化為清晰、動人且意圖明確的敘述,使其兼具韻律感和深度。它能輕松駕馭微妙的文風差異和模糊的結構,并在長篇大論中保持風格的連貫性。在創意寫作方面,它筆下的意象更生動,情感共鳴更強烈,將精準的表達與豐富的表現力融為一體。
學術與研究:在學術研究和專業領域,Kimi K2 Thinking 在分析深度、信息準確性和邏輯結構方面均有顯著提升。它能有條不紊地剖析復雜的指令,并以清晰嚴謹的方式拓展思路。這使其尤其擅長處理學術論文、技術摘要,以及那些對信息完整性和推理質量要求極高的長篇報告。
個人與情感:在回應個人或情感類問題時,Kimi K2 Thinking 的回答更富同理心,立場也更中正平和。它的思考深入周到且具體明確,能提供細致入微的觀點和切實可行的后續建議。它能清晰并關切地幫助用戶梳理復雜的決策,其語氣既腳踏實地又切實中肯,更有人情味。