中國DeepSeek推新AI模型:效能提升、成本降低,挑戰美國領先地位

這篇報導主要講述了中國新創公司 DeepSeek 最新發布的實驗性 AI 模型 DeepSeek-V3.2-Exp。這個模型的核心亮點在於其「稀疏注意力」(DSA)機制,旨在提升 AI 系統的效率,降低運算成本,並更好地處理大量資訊。相較於前一代模型,V3.2-Exp 的運行成本減少了一半,同時在處理長篇文件和對話方面表現更佳。

報導指出,DeepSeek 去年推出的首個模型 R1 已經在矽谷引起轟動,證明了在資源有限的情況下,也能快速訓練大型語言模型(LLM)。這次的 V3.2-Exp 延續了 DeepSeek 追求效率和成本降低的策略,並採取開源方式分享程式碼和工具,鼓勵社群參與和改進。

然而,報導也提出了對該模型潛在風險的擔憂。稀疏注意力機制雖然能提高效率,但也可能導致模型在判斷資訊重要性時出現偏差,從而影響其可靠性和安全性。投資人 Ekaterina Almasque 認為,這種機制可能犧牲了模型的細微差別,並可能在排除重要資訊的同時,錯誤地排除關鍵數據。

此外,由於 DeepSeek 採取開源策略,其技術的專利保護相對薄弱,競爭優勢可能取決於其篩選資訊的算法。儘管如此,DeepSeek 的模型能夠直接支援中國本土的 AI 晶片,例如 Ascend 和 Cambricon,這在美中 AI 地緣政治競爭中具有重要意義。

總體而言,DeepSeek 的 V3.2-Exp 代表了 AI 發展的一個新趨勢,即效率與效能同樣重要。這家公司正在積極尋求在 AI 領域建立長期競爭力,並希望透過社群合作,不斷提升其模型的性能和可靠性。

原文網頁:China”s DeepSeek launches next-gen AI model. Here”s what makes it different (by Tasmin Lockwood)

Comments

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *