台山饰良建材有限公司

商湯董事長徐立:通用人工智能要么很遠,要么一下子就過去了

1964年,科幻作家亞瑟·克拉克預測未來,人類會成為高級生命的墊腳石。2019年,特斯拉創始人馬斯克在上海說過,碳基生物是硅基生物的引導程序。人類總是致力于通往AGI(Artificial General Intelligence,通用人工智能),但哪一刻才是真正的AGI?未來的超級智能會對人類產生威脅嗎?

4月9日,在商湯科技發布大模型“全家桶”前夕,商湯科技董事長兼CEO徐立對澎湃科技表示,人類一直在朝著更強大的智能發展, 智能達到一定水平時確實需要坐下來一起探討是否要限制智能。目前技術上仍然沒有實現超級智能的路徑,人工智能還沒有發展到令人恐慌的地步,當下要解決的是如何讓模型更通用。

AGI要么離人類很遠,要么一下子就過去了

在這一輪人工智能熱潮中,OpenAI帶著ChatGPT出圈,大模型、大算力的發展指向了AGI之路。人類總是致力于通往AGI,但哪一刻才是真正的AGI?徐立打了個比方,“就像站在高鐵站臺上,高鐵朝人類快速開過來,人類定義這個站點就是AGI,結果高鐵沒停,一下子開過去了。所以AGI要么離人類很遠,要么一下子就過去了,和人類相近的時刻根本測不出來?!?/p>


(資料圖)

“有的人講AGI,但不講Artificial General Intelligence,而是講Digital Super Intelligence(數字超級智能),到了AGI這個時刻,它還是人工的嗎?這很難說。如果它真的到了人的智能水平,誰去按下按鈕,告訴它停在這里,智能不能再高了?”徐立說,AGI本身的定義是模糊的,所謂的AGI在于人類如何定義它,如果拆分成行業里的若干任務,滿足行業的要求,就可以認為完成了行業的AGI。

徐立認為,自然語言模型的參數爆發帶來的“涌現能力”(Emergent Ability)在這一輪人工智能浪潮中勝出。在大型語言模型(LLM)中,涌現能力是指當模型規模跨過閾值,對此類任務的效果就出現突然的性能增長。人們已經看到大模型涌現出了思維鏈的能力。

“谷歌發明了Transformer模型、RLHF(Reinforcement Learning from Human Feedback,帶有人類反饋的強化學習)、CoT(Chain-of-Thought,思維鏈)。最后OpenAI不斷嘗試,ChatGPT突然臨界可用了,就好像所有概率都增長了0.1%,最后連乘起來的誤差就小?!?/p>

“對于涌現能力的解釋,是從量變到質變,它不是突變性的涌現?!毙炝⒓僭O,將一個問題分解成多個子問題,如果每個子問題的準確率80%,連乘起來成功的概率很低。如果每個問題的準確率提升到85%,連乘后就出現了涌現能力?!澳壳翱吹降氖谴竽P头e累的準確率提升,形成了思維鏈的能力,這種涌現從數學角度上是可解釋的?!?/p>

盡管很難說未來的涌現到底會不會存在,但他表示,目前技術上仍然沒有實現超級智能的路徑,沒有看到真正的智能涌現是什么表現。當被問及未來超級智能是否會威脅人類時,他認為,智能達到一定水平時,確實需要坐下來一起探討是否要限制智能。新時代的人工智能三要素是算法(參數)乘以數據等于算力,算力規模決定了模型能力。只要控制算力規模,就控制了智能。但人工智能還沒有發展到令人恐慌的地步,當下要解決的是如何讓模型更通用。而OpenAI帶給行業的一個革命性認知變化是帶來了大模型開發的新范式,就像當年的深度學習一樣。大模型是一個表達器,今天,通過挖掘人的意圖,模型能力可以進一步提升,進而繼續做大模型。

自然語言模型是橋梁,激活其他業態模型

國內科技企業搶灘大模型開發,目前仍處于追趕階段?!白吆米约旱穆罚褪且幸恍┎町惢?。所謂的差異化就是用好行業自身的稟賦。”徐立認為,中國大模型的發展一定會用場景倒逼多模態大模型開發,這種多模態大模型具有行業差異性。

而要真正達到大模型開發的“拐點”,就要設定一個預期的任務集或任務目標,完成真實場景中的系列任務,在這樣的垂直場景中能夠通過圖靈測試?!澳壳皝砜?,大家都在往前走,至于走成什么樣,其實還是要看大家所處的行業。不存在一個泛在式的大模型來解決所有問題?!?/p>

2019年起,商湯布局10億參數規模的視覺模型,2023年4月10日發布“日日新”大模型體系,涵蓋1800億參數中文大語言模型應用平臺“商量”、超10億參數自研文生圖生成模型“秒畫”、AI數字人視頻生成平臺“如影”、3D內容生成平臺“瓊宇”(場景生成)、“格物”(物體生成)等。

自然語言模型作為橋梁,可以激活其他業態的模型和應用。徐立表示,商湯用千億參數級的自然語言模型把其他模型串起來形成一個完整的任務集是第一步?!霸谶@個過程當中,我們會看到有更多的多模態數據喂到網絡中,呈現完全新的能力,以此開發下一階段更加混合式的多模態模型?!?/p>

“日日新”大模型體系針對B端用戶,目的是和用戶的使用習慣完整連接,用更多B端場景挖掘模型的大能力,并提供新的多模態訓練框架,訓練下一階段的多模態大模型,通過細分場景端到端的迭代和應用,幫助多模態大模型的發展。“未來的模型趨勢是一個行業里面可能有1-2個大模型,剩下的小模型、行業模型非常多。實際上自然語言模型也好,多模態模型也好,未來都是這個趨勢,大模型會開發出來,在每一層可以做很多模型疊加,對最后的推理來說也會有很大的性能提升?!?/p>

在人工智能領域,“模型即服務”不斷被提及,徐立也談到了大模型的商業化,模型的訓練和部署、模型下游的應用及模型的增量訓練,整套服務疊加在人工智能基礎設施商湯AI大裝置上,“我們的收益來自于訓練模型、部署模型、推理模型,并且在模型上面還提供了一些增量的服務?!贝送?,收益還來自垂直細分領域,如金融、醫療、商業直播等?!霸贐端的應用當中,肯定會有很多的生產力工具先被發展出來,之后逐步能夠有C端應用出來,就會百花齊放?!?/p>

本文作者:張靜,來源:澎湃新聞,原文標題:《對話商湯董事長徐立:通用人工智能要么很遠,要么一下子就過去了》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: