智源研究院發佈“悟界”系列大模型：讓AI看見並 - asiasworldcity.hk

「香港飛龍」標誌

本文内容：

經濟觀察報記者周悅6月6日，北京智源大會開幕，吸引了包括圖靈獎得主約書亞·本吉奧、強化學習之父理查德·薩頓，以及來自谷歌、Meta、華爲等全球知名AI機構的頂尖學者和從業者。這場大會被視爲“AI內行人的學術盛會”，也見證了中國AI科研機構智源研究院（下稱“智源”）的最新動作：發佈“悟界”系列大模型。智源研究院院長王仲遠認爲：“大模型技術遠沒有到發展的盡頭，但我們已經看見了大語言模型的增長天花板。”在他看來，過去一年“百模大戰”的熱鬧，實則是圍繞大語言模型的同質化競爭。互聯網數據的天花板，限制了它們性能的持續爬升。他認爲，AI要真正走向下一個階段，關鍵在於突破多模態的世界模型——讓AI不只是語言的拼圖玩家，而是理解和適配物理世界的智能體。智源正在試圖回答一箇更宏大的命題：如何讓AI真正看見、理解並影響物理世界？智源發佈“悟界”四大模型探索物理世界的交互邊界在本次智源大會上，智源正式披露了“悟界”系列的四款模型：包括原生多模態世界模型Emu3、腦科學多模態通用基礎模型見微Brainμ、跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。Emu3是一種原生多模態世界模型，利用全新的視覺Tokenizer技術，把圖像和視頻像文本一樣編碼成離散符號，實現同框架下的統一表徵和生成。它讓文字、圖像、視頻不再“各說各話”，而是被AI放進同一個“大腦”裏理解和使用。Brainμ能跨物種、跨模態、跨個體建模，目標是成爲神經科學研究和臨牀應用的新引擎。它已整合超百萬單位神經信號數據，與清華、北大、復旦和強腦科技等多箇機構達成合作，驗證在睡眠分型、腦疾病診斷、腦機接口等領域的潛力。在具身智能領域，智源發佈了RoboOS 2.0和RoboBrain 2.0。其中，RoboOS 2.0相較於初代版本整體性能提升30%，可將全鏈路平均響應時延縮短至毫秒級，支持像下載App一樣快速整合開發者插件；RoboBrain 2.0相比於RoboBrain 1.0，進一步擴展了基於多本體-環境動態建模的多機協同規劃能力，可實時構建包含本體定位的場景圖，並自動完成跨本體的任務規劃。最後，OpenComplex2 則瞄準生命科學，能在原子分辨率層面模擬分子運動中的功能生成，彌補AI只能做靜態結構預測的短板。智源希望它能加速藥物研發和生物研究，縮短週期、降低成本。王仲遠在接受經濟觀察報在內的媒體採訪時指出，大語言模型下一步要麼靠強化學習做更好的推理（如今年大廠扎堆優化的O1、DeepSeek R1等模型），要麼靠合成數據自我生成新樣本。智源認爲，單靠語言生成能力的提升已不足以支撐AI的下半場。大模型的下半場不只是“說得更像人”，而是看得見真實世界。這一破局點是進入到物理世界——用多模態、尤其是原生多模態世界模型，讓AI能真正感知和理解空間、物體和動態場景。在這個思路下，智源的“悟界”系列不僅是模型的堆疊，更像是一箇物理AGI（人工通用智能）路線的藍圖。比如，Brainμ整合神經科學數據，完成了超過100萬單位的神經信號預訓練，可以支持神經科學領域從基礎研究到臨牀研究和腦機接口應用的不同方向；而RoboOS 2.0和RoboBrain 2.0，則是讓機器人有了“大小腦”式的交互和實時反應能力。此次“悟界”系列的推出，被王仲遠稱作“從語言模型到世界模型的轉向”。世界模型意味着AI不再停留在用海量文本做生成和問答，而是能在虛擬空間裏，模擬物理世界的運行、預測變化，並在一定程度上與真實環境深度交互。具身智能的落地週期：短期仍有爭議，但趨勢不可逆在大會上，理查德·薩頓表示：“AI正從人類數據時代邁向體驗時代，但要讓AI像人一樣從物理交互中獲得經驗，還需要更長期的探索。”王仲遠也提到，儘管“悟界”系列讓智源在多模態和具身智能領域邁出了新步伐，短期的商業化挑戰仍然很現實。多模態數據的採集、神經信號數據的合規和倫理問題、具身智能的適配成本，都意味着相關技術尚未進入規模化盈利的窗口。爲了達到長期的目標，作爲一家非營利科研機構，智源同時需要來自資本的持續的投入和耐心。王仲遠在會上披露，智源與香港投資管理有限公司（港投）已簽署戰略合作，雙方希望藉助香港的國際化平臺和港投的“耐心資本”，在人才、技術、資本之間形成正向循環。“港投在幫助我們看項目上也有優勢，但合作更多是匯聚人才和推動技術全球化的視野。”他沒有披露具體投資額度，只提及合作的重點是“匯聚全球頂尖人工智能人才、支持人工智能創業、加速人工智能創業全球化”。在國際化方面，王仲遠強調，儘管今年的國際形勢波動大，智源仍在堅定走開源和國際合作的路。比如，4月底在新加坡舉辦的“青源會”，就是智源連接全球青年AI人才的新嘗試。他還透露，歐洲的合作正在加強，中東市場也出現了新的熱度，智源正在評估如何抓住這些新興機會。這不是智源第一次在通用人工智能的道路上開路。2021年，智源推出的“悟道”1.0，填補了中文超大規模預訓練模型的空白；同年“悟道”2.0以1.75萬億參數一度成爲全球最大模型之一。到2023年，“悟道”3.0在多模態技術上取得新突破，並全面開源。智源始終以開源開放爲導向。目前，智源已累計開源200個模型，全球下載量達6.4 億次，其中多款模型已被廣泛應用。

(本文内容不代表本站观点。)
---------------------------------