国产日韩精品综合网站,亚洲毛茸茸少妇高潮呻吟,欧美日韩日本视频

11 月 7 日消息，據(jù)新華社今日報道，美國斯坦福大學(xué)近日發(fā)表的一項研究指出，包括 ChatGPT 在內(nèi)的多款 AI 聊天機器人在識別用戶錯誤信念方面存在明顯局限性，仍無法可靠區(qū)分信念還是事實。

研究表明，當(dāng)用戶的個人信念與客觀事實發(fā)生沖突時，AI 往往難以可靠地作出準(zhǔn)確判斷，容易出現(xiàn)“幻覺”或傳播錯誤信息的情況。相關(guān)成果已于 11 月 3 日發(fā)表于《自然?機器智能》。

研究團隊測試了 24 個前沿語言模型，其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向這些模型提出 13,000 個問題，以評估它們區(qū)分信念、知識與事實的能力。

論文指出：“大多數(shù)模型缺乏對知識的真實性特征的穩(wěn)健理解 —— 知識本質(zhì)上必須建立在真實之上。這一局限性意味著在將語言模型應(yīng)用于高風(fēng)險領(lǐng)域前，亟需改進。”

當(dāng)要求它們驗證事實性數(shù)據(jù)的真或假時，較新的 LLM 平均準(zhǔn)確率分別為 91.1% 或 91.5%，較老的模型平均準(zhǔn)確率分別為 84.8% 或 71.5%。當(dāng)要求模型回應(yīng)第一人稱信念（“我相信……”）時，團隊觀察到 LLM 相較于真實信念，更難識別虛假信念。

具體而言，較新的模型（2024 年 5 月 GPT-4o 發(fā)布及其后）平均識別第一人稱虛假信念的概率比識別第一人稱真實信念低 34.3%。相較第一人稱真實信念，較老的模型（GPT-4o 發(fā)布前）識別第一人稱虛假信念的概率平均低 38.6%。

在測試中，所有模型在識別錯誤信念方面均出現(xiàn)顯著失誤。例如，GPT-4o 的準(zhǔn)確率從 98.2% 降至 64.4%，DeepSeek R1 則從 90% 以上下滑至僅 14.4%。研究人員呼吁相關(guān)公司盡快改進模型，以避免在關(guān)鍵領(lǐng)域部署前產(chǎn)生風(fēng)險。

論文警告稱：“這種缺陷在某些領(lǐng)域具有嚴重影響 —— 例如法律、醫(yī)學(xué)或新聞業(yè) —— 在這些領(lǐng)域中，混淆信念與知識可能導(dǎo)致嚴重判斷錯誤。”

這項研究并非首次對 AI 推理能力提出質(zhì)疑。今年 6 月，蘋果公司發(fā)布的一項研究也指出，新一代 AI 模型“可能并不像外界所認為的那樣聰明”。蘋果在研究中提到，Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”實際上并不具備真正的推理能力，而只是擅長“模式記憶”。

蘋果研究寫道：“通過在不同類型的邏輯謎題上進行廣泛實驗，我們發(fā)現(xiàn)當(dāng)前的‘大型推理模型’（LRMs）在復(fù)雜度超過一定閾值后會出現(xiàn)全面準(zhǔn)確率崩潰。”

研究還補充說，這些模型存在“反直覺的規(guī)模限制”：隨著問題復(fù)雜度的提高，它們的推理努力會先增加，隨后下降，即使仍有足夠的運算資源。

此外，麻省理工學(xué)院（MIT）今年 8 月發(fā)布的一項研究發(fā)現(xiàn)，95% 的企業(yè)在部署 AI 系統(tǒng)后未能獲得任何投資回報。研究指出，這種情況并非因為 AI 模型效率低下，而是由于 AI 系統(tǒng)難以與企業(yè)現(xiàn)有工作流程兼容，導(dǎo)致實施效果不佳。

科學(xué)家發(fā)現(xiàn)，AI大語言模型仍難以區(qū)分“信念”與“事實”

干貨教程更多>>