淘寶領投2.9億美金,AI模型將從聊天到「世界模擬」跨越新里程碑

網傳報導顯示,全球人工智慧的發展正經歷一場基礎性的範式轉移。業界已開始認識到,單純基於文本訓練的「大型語言模型」(LLMs)在理解真實世界的物理複雜性方面存在根本性限制。因此,科技巨頭正將重心轉向「世界模型」(World Models)的建構,這些模型不再僅依賴文字數據,而是側重於整合來自影片、自動駕駛場景等多種現實物理情境的「多模態數據」(multimodal data)。

為搶佔這一趨勢,阿里巴巴雲(Alibaba Cloud)宣布領投了兩億元人民幣(約合2.9億美元)的資金,投資於AI視頻生成工具Vidu背後的初創公司ShengShu。此輪資金注入,除了吸引了TAL教育和百度創投等機構參與,更標誌著資金流向清晰地指向「感知與行動」(perception and action)的閉環能力。ShengShu的目標是建立一個「通用世界模型」,目的在於將遊戲/AI視頻的數位世界,與自動駕駛/機器人操控的物理世界連接起來。

這場戰役的競爭者眾多,不僅OpenAI的Sora工具引發了關注,中國本土的快手和字節跳動等短影音巨頭也迅速跟進。阿里巴巴的戰略佈局十分積極,除了對ShengShu的鉅額投資外,它還持續在相關領域進行佈局,包括投資專用於生成3D模型和指導影片生成流程的初創公司,並釋出自主研發的開源模型,甚至推出了用於驅動機器人的模型。整體而言,這不僅是一場技術競賽,更是科技巨頭爭奪通往機器人化和實體世界控制權的權力遊戲。

從專業視角來看,這篇報導揭示了一個極為關鍵的產業轉捩點。以往的AI戰場主要是在「知識層」(Knowledge Layer)——即如何讓機器聰明地「說出答案」(LLM的範疇)。然而,報導和相關專家評論(如Kevin Kelly)都明確指出,要達到「複製人類智慧」的層次,僅有知識是不夠的。人腦具備的是推理(Reasoning)、對物理世界的本能理解(Physical World Understanding)以及持續學習的能力。

「世界模型」正是填補這三個要素中「物理世界理解」這一關鍵鴻溝的學術與工程體現。這意味著,未來AI真正的商業價值點,不再是生成一篇優美的文章或一段酷炫的視頻,而是能夠讓機器「理解」一個玻璃杯會如何掉落、它會撞擊地面的物理軌跡,並據此進行「預測與修正」。這是從「資訊處理」到「實體操作」的躍升,直接決定了下一代工業自動化、服務機器人以及虛實整合(XR)帶來的市場規模。阿里巴巴等企業的資本傾斜,已經明確表明:下一波AI淘金熱點,絕對在「具身智能」(Embodied AI)和世界模型的實證驗證環節。掌握這個世界模型的開發主導權,等於掌握了未來實體世界的控制權。

原文網頁:Alibaba leads $290 million investment for building a new kind of AI model as LLM limits emerge (by Evelyn Cheng)

Comments

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *