-
專訪中科院自動化所所長徐波:構(gòu)建紫東太初——全球首個三模態(tài)大模型,類人智能的大門正在打開
最后更新: 2021-07-20 11:17:35導(dǎo)讀人的大腦中,語義是最神秘的。
在神經(jīng)科學(xué)實驗中,當(dāng)看一張猴子照片的時候,大腦中視覺關(guān)聯(lián)區(qū)域神經(jīng)活動會更加活躍;聽到聲音,聲音關(guān)聯(lián)區(qū)域神經(jīng)活動會更加活躍。但是當(dāng)大腦在想象一只猴子的時候,大腦更大片區(qū)域都處于激活狀態(tài)。
語義是人工智能技術(shù)最難表征和最難處理的。其實,它就是人的多個感知模態(tài)相互融合、相互關(guān)聯(lián)、相互協(xié)同、相互激活的結(jié)果。
目前,這種多模態(tài)互動的認(rèn)知過程,正在被人工智能學(xué)習(xí)。
7月9日,2021世界人工智能大會(WAIC)昇騰人工智能高峰論壇上,中國科學(xué)院自動化研究所所長徐波正式報告了跨模態(tài)通用人工智能“紫東太初”平臺。
該平臺以全球首個圖、文、音(視覺、文本、語音)三模態(tài)預(yù)訓(xùn)練模型為核心,并基于國產(chǎn)化自主AI基礎(chǔ)軟硬件平臺(昇騰)開發(fā)實現(xiàn),向更加通用型人工智能跨出一步。
在會后,觀察者網(wǎng)對徐波所長進(jìn)行專訪,就人工智能發(fā)展的現(xiàn)實意義、多模態(tài)大模型的發(fā)展現(xiàn)狀、中外人工智能的技術(shù)對比、三模態(tài)大模型的應(yīng)用案例和未來展望、通用人工智能的路徑探索等話題展開討論。
以下是專訪實錄:
觀察者網(wǎng):我們看到,中國目前在人工智能技術(shù)研發(fā)投入上可謂是不遺余力,作為人工智能行業(yè)專家,您認(rèn)為持續(xù)探索人工智能技術(shù)創(chuàng)新之路,對整個產(chǎn)業(yè)和社會發(fā)展的意義是什么?
徐波:人工智能在本質(zhì)上是一種賦能技術(shù)。隨著社會的持續(xù)發(fā)展和進(jìn)步,人工智能作為社會經(jīng)濟(jì)生活的“發(fā)動機(jī)”,無處不在的推動著多個行業(yè)的智能化發(fā)展。人工智能在不斷與行業(yè)進(jìn)行融合創(chuàng)新的同時,會出現(xiàn)多種形態(tài)的變化,呈現(xiàn)出百花齊放的現(xiàn)象。
人工智能作為新一輪技術(shù)革命和產(chǎn)業(yè)變革的重要驅(qū)動力,已經(jīng)改變很多現(xiàn)有的流程、理念、生產(chǎn)方式、組織形式,將進(jìn)一步解放和發(fā)展社會生產(chǎn)力,深度改變?nèi)藗兊乃枷胗^念。當(dāng)前,人工智能正在全方位賦能商業(yè)、教育、醫(yī)療、制造、交通和社會治理,成為不可或缺的發(fā)展引擎。但人工智能發(fā)展創(chuàng)新絕非一帆風(fēng)順,短時間內(nèi),相關(guān)技術(shù)還將經(jīng)歷一個艱難爬坡、臨界點突破、再遇到新的瓶頸這樣螺旋式的發(fā)展上升過程。
觀察者網(wǎng):自從國外OpenAI公司的GPT3、華為公司的盤古等人工智能模型出現(xiàn)以來,無監(jiān)督學(xué)習(xí)迅速發(fā)展,目前預(yù)訓(xùn)練大模型已經(jīng)發(fā)展到了什么階段?
徐波:圖靈獎獲得者Yann Lecun曾經(jīng)說過,如果智能是一塊蛋糕,那么蛋糕的主體是無監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。人類對世界的理解主要來自于大量未標(biāo)記的信息。
“蛋糕主體”指的是無監(jiān)督學(xué)習(xí),現(xiàn)在很多人工智能碰到的落地上的可信和魯棒性難題,其本質(zhì)問題是現(xiàn)有AI缺乏語義級的認(rèn)知。認(rèn)知如同浮在海平面上的冰山。自然語言是冰山浮出水面的部分,而理解自然語言的基礎(chǔ)是大量的人類常識、背景知識、領(lǐng)域知識等世界知識,這是冰山水面以下看不到的部分。把這些合起來統(tǒng)稱為“語義空間”?,F(xiàn)有的AI系統(tǒng)很難把這些語義空間加以全面準(zhǔn)確的表達(dá)。
例如,“張三吃大碗”、“張三吃食堂”、“張三吃面條”這三句話?!皬埲源笸搿辈⒉皇钦f張三把大碗吃掉,“張三吃食堂”也不是要把食堂吃掉,這種表述背后的邏輯可能是食堂是吃飯的地方,很多人都在食堂吃飯,張三家里可能沒做飯,所以在食堂吃飯。對人工智能來說,必須有這些相關(guān)的背景知識,才能理解“張三吃食堂”這句對人來講很容易理解的話。
人工智能需要學(xué)習(xí)很多背景知識才能理解自然語言。這就是“認(rèn)知冰山”問題,冰山海平面之下才是獲得認(rèn)知的關(guān)鍵。有的人工智能專家把這些大量的背景知識稱作人工智能的“暗物質(zhì)”。怎么把這些“暗物質(zhì)”挖掘出來放在一個系統(tǒng)里?無監(jiān)督學(xué)習(xí)是一條路徑。
這些“暗物質(zhì)”隱含存在于我們的圖片、日常對話和海量文本中。但是,目前的預(yù)訓(xùn)練大多數(shù)還是單模態(tài)?!鞍俾劜蝗缫灰姟?,可能很復(fù)雜的語義表述只需要看一張圖片就能理解。
同時,人類的聲音還蘊(yùn)藏著情緒和感情,只有準(zhǔn)確捕獲這些細(xì)節(jié)信息,才有可能懂得語言背后真正的含義,而不僅僅是文字表面的意思。那么,我們?nèi)绾尾拍芡瑫r有效把聲音、圖片和文字這些信息都整合起來呢?
這次,我們在武漢人工智能計算中心算力支持下研發(fā)的全球首個三模態(tài)大模型“紫東太初”,在實現(xiàn)圖、文、音的統(tǒng)一表達(dá)方面取得重要進(jìn)展。已有多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個模態(tài),如圖像和文本,或者視頻和文本,不但忽視了周圍環(huán)境中普遍存在的語音信息,并且模型不好兼具理解與生成能力,難以在生成任務(wù)與理解類任務(wù)中同時取得良好表現(xiàn)。
我們首次將語音信息引入,并通過一個統(tǒng)一語義空間網(wǎng)絡(luò)表達(dá)生成三模態(tài)模型,可以把剛才提到的“認(rèn)知冰山”或“暗物質(zhì)”的龐大語義空間學(xué)習(xí)出來,能更加接近人類真正的感情和思考。特別地,由于側(cè)重交互功能的語音的加入,使我們的大模型一下子變“活”了,使人工智能邁向更高層次的通用型人工智能方向發(fā)展。
“紫東太初”三模態(tài)訓(xùn)練模型采用了多層次、多任務(wù)、自監(jiān)督、預(yù)訓(xùn)練的學(xué)習(xí)方式,論文已經(jīng)公開發(fā)表。最重要的是提出來三模態(tài)數(shù)據(jù)的語義統(tǒng)一表達(dá),可同時支持三種或者任兩種模態(tài)的若干數(shù)據(jù)預(yù)訓(xùn)練。這個模型不僅可以實現(xiàn)跨模態(tài)理解,還能實現(xiàn)跨模態(tài)生成,做到理解和生成兩個最重要的認(rèn)知能力的平衡,首次實現(xiàn)以圖生音,以音來生圖的功能。
三模態(tài)大模型可能把更多人類許多與生俱來的東西學(xué)習(xí)出來,把“認(rèn)知冰山”水面以下的東西能進(jìn)行挖掘和表達(dá)。另外,單模態(tài)預(yù)訓(xùn)練模型無疑越大越好,但三模態(tài)模型的重點更在于探索如何讓它更“巧”。三模態(tài)大模型要做好還要下很多功夫,但我們已經(jīng)在正確的方向上邁出了重要的一步。
觀察者網(wǎng):多模態(tài)大模型“紫東太初”名稱的內(nèi)涵,是不是包涵了某種開天辟地的意義?
徐波:可以這么理解,就是相當(dāng)于人工智能走向類人智能的一個混沌初開之際,也是感知智能走向通用智能重要的第一步。
一個比較有意思的話題是,人工智能領(lǐng)域之外的人,比如哲學(xué)、科幻領(lǐng)域,特別喜歡討論人工智能的一些終極問題,例如機(jī)器人可能統(tǒng)治人類,同時涉及一些更高層面的倫理問題。但絕大多數(shù)人工智能領(lǐng)域的科學(xué)家非常清楚地認(rèn)知到現(xiàn)有人工智能距離真正的人類智能相差甚遠(yuǎn)。
在成功研發(fā)“紫東太初”三模態(tài)模型后,我們似乎感受到比現(xiàn)有人工智能更為強(qiáng)大的通用型人工智能大門正在打開。有時候,我們甚至在思考怎么讓人工智能依附一個好的軀體,更好地感知到自然和社會環(huán)境中的信息,把類似情緒和情感的信息做進(jìn)一步的處理,AI將會有更大的發(fā)展和比較好的靈活性。這種門檻一旦突破,人工智能的發(fā)展很可能會出現(xiàn)指數(shù)型的增長。這是一個即將呈現(xiàn)爆發(fā)式增長的領(lǐng)域。
觀察者網(wǎng):這個多模態(tài)大模型的技術(shù)水平,跟國外同行相比怎么樣?
徐波: “紫東太初”是全球首個三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語音大模型的相對少一些。我們是少有的同時具備圖、文、音研究儲備和基礎(chǔ)的研究機(jī)構(gòu)。這次自動化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫,并把圖、文、音三個模態(tài)統(tǒng)一起來,在一個共同的語義空間去做相互的轉(zhuǎn)換和統(tǒng)一表述,這在全球是首次。
通過巧妙地構(gòu)建一個多模態(tài)大模型,我們的圖像技術(shù)、語音技術(shù)和文本技術(shù)都超越了現(xiàn)有最好水平。過去業(yè)界習(xí)慣用有監(jiān)督的學(xué)習(xí),而我們的技術(shù)對有標(biāo)注數(shù)據(jù)的依賴性較小,改變了人工智能訓(xùn)練需要標(biāo)注好的大數(shù)據(jù)的固有模式。
首先,性能業(yè)界領(lǐng)先的中文預(yù)訓(xùn)練模型、語音預(yù)訓(xùn)練模型、視覺預(yù)訓(xùn)練模型是我們?nèi)B(tài)模型的基礎(chǔ)。比如,視覺的預(yù)訓(xùn)練模型,首次實現(xiàn)超越有監(jiān)督學(xué)習(xí)的性能,速度比其他的方法提高8倍,在語義分割的結(jié)果上,也超越了有監(jiān)督學(xué)習(xí)的水平。在中文預(yù)訓(xùn)練模型里面提出來任務(wù)感知和推理增強(qiáng)的模型,性能相比比GPT-3明顯提升。語音預(yù)訓(xùn)練模型,針對語音領(lǐng)域語種多樣、標(biāo)注成本高的問題,實現(xiàn)了基于語音預(yù)訓(xùn)練的多語言、多任務(wù)、低資源關(guān)鍵技術(shù)的突破,使我們用很少的有標(biāo)注數(shù)據(jù)就可以實現(xiàn)語音識別的性能大幅度提升。
然后,我們在統(tǒng)一的語義空間網(wǎng)絡(luò)表達(dá)上實現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉(zhuǎn)換,在多任務(wù)上取得了更卓越的性能。在跨模態(tài)檢索和圖文語義轉(zhuǎn)換方面,都比兩個模態(tài)具有更豐富的表達(dá)跟生成能力。語音加速加入后,使得我們的大模型可以跟人類做自然流暢的交互。這意味著,我們?nèi)斯ぶ悄芗夹g(shù)在共性的語義空間表征方面取得了重要進(jìn)展。
觀察者網(wǎng):AI應(yīng)用場景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠?qū)崿F(xiàn)多模態(tài)對話,視頻播報,以音生圖,以圖生音,非常有意思,未來是否有可能所有問題都會通過統(tǒng)一的大模型來解決?
徐波:我覺得非常有可能。我們?nèi)祟愔饕袃煞N能力,一種是與生俱來的能力,到了一定的年齡,通過基本的學(xué)習(xí)就能自然地學(xué)會說話、走路。另外一種是專業(yè)技能,如果要學(xué)會彈鋼琴、水墨畫等,仍然需要長時間的專業(yè)訓(xùn)練才能實現(xiàn),因為這改變了人的特定知識結(jié)構(gòu)。
多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類基本的知識、常識,看到的一些場景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個大模型里面。比如要做語音識別,現(xiàn)在用很小的數(shù)據(jù)量可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學(xué)習(xí)。
預(yù)訓(xùn)練模型作為基座模型雖然不是萬能的,但是人工智能的研究范式和產(chǎn)業(yè)范式也會出現(xiàn)一些變化。比如說,現(xiàn)在產(chǎn)業(yè)都在講算法開源,但算法的維護(hù)成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來人工智能領(lǐng)域開放的可能是模型,客戶獲得大模型的接口再稍微加一點數(shù)據(jù)就能解決問題,即“大模型+小數(shù)據(jù)”,這是我們未來希望看到的大模型對產(chǎn)業(yè)帶來的賦能。
這個大模型技術(shù)從學(xué)術(shù)成果向產(chǎn)業(yè)轉(zhuǎn)化可能還需要一個過程,但我認(rèn)為不會太久,未來2-4年之內(nèi)這些新技術(shù)都會逐漸得到應(yīng)用。
- 責(zé)任編輯: 張建鑫 
-
祥生、藍(lán)光、中駿、星河、宋都入股,五家房企聯(lián)手到底為什么?
2021-07-20 11:11 中國房市 -
大公司早報 | 天鵝到家暫停赴美IPO 喜茶回應(yīng)收購樂樂茶
2021-07-20 09:09 大公司 -
傳保利與平安洽談收購北大資源,標(biāo)的公司2020年預(yù)虧近17億元
2021-07-19 17:23 中國房市 -
郭廣昌繼續(xù)重倉海南,400億欲將海航收入囊中?
2021-07-19 17:21 中國房市 -
Steam掌機(jī)公布,手持游戲電腦的春天要來了?
2021-07-19 17:18 文化 -
侯毅官宣成立盒馬NB事業(yè)部,盒馬鄰里為核心產(chǎn)品
2021-07-19 15:30 大公司 -
辛巴燕窩門事件終裁:辛巴勝訴
2021-07-19 14:01 消費 -
躺在小米渠道上的趣睡科技能一直贏下去嗎?
2021-07-19 12:54 上市公司 -
?投融資周報 | 興盛優(yōu)選將完成3億美元融資 喜茶交割5億美元融資
2021-07-19 11:08 大公司 -
大公司早報 | 美團(tuán)上線打車小程序 滴滴稱停止服務(wù)為謠言
2021-07-19 10:10 大公司 -
vivo S10系列發(fā)布 引領(lǐng)“自然美”自拍潮流
2021-07-17 12:03 大公司 -
海南樓事:除了旅游就是買房?業(yè)內(nèi)回應(yīng)不怕跌價就怕跳漲
2021-07-16 14:37 中國房市 -
海南樓事:投資客瘋搶空置率奇高,有項目淡季入住率僅10%
2021-07-16 14:35 中國房市 -
架構(gòu)調(diào)整后俞永福首亮相,高德“聚合”屬性凸顯
2021-07-16 11:11 -
大公司早報 | 小米銷量超蘋果首居第二 B站回應(yīng)贈送大會員后自動續(xù)費
2021-07-16 09:03 大公司 -
不止電商、教育,野心勃勃的字節(jié)又看上了外賣
2021-07-15 23:49 商業(yè) -
騰訊的“壟斷”:資本留不住用戶,也就救不了游戲
2021-07-15 17:06 反壟斷 -
大公司早報 | 字節(jié)跳動內(nèi)測外賣業(yè)務(wù) 美團(tuán)優(yōu)選取消大小周
2021-07-15 09:06 大公司 -
外媒:阿里和騰訊考慮互相開放生態(tài)系統(tǒng)
2021-07-14 20:43 大公司 -
一季度“爆雷”毛利承壓,順豐上半年盈利下滑八成
2021-07-14 15:23 大公司
相關(guān)推薦 -
最新聞 Hot
-
“整個歐洲,瑟瑟發(fā)抖”
-
“特朗普與普京迎來‘雅爾塔時刻’?”
-
白俄羅斯以間諜罪判處一名日本男子7年監(jiān)禁
-
被特朗普威脅要承擔(dān)“可怕”后果,伊朗強(qiáng)硬回懟
-
與前殖民者“切斷關(guān)系”,尼日爾和布基納法索退出了
-
“中方在最后一刻續(xù)了,但美國牛肉還要等”
-
“歐盟的8000億歐元計劃或讓赤字爆炸,這個代價希臘熟”
-
“中國發(fā)現(xiàn)NASA反應(yīng)堆缺陷,探月競賽天平傾斜了”
-
特朗普關(guān)稅無力阻擋?“中國車擁有我想要的一切”
-
“中國40天沒從美國進(jìn)口LNG,澳企卻拿下大單”
-
“我父親為你父親舉辦了英雄的葬禮,而你卻讓他進(jìn)了監(jiān)獄”
-
這個南太島國從加拿大轉(zhuǎn)向中國,反對派炸了...
-
加拿大總理首訪,選了英法兩個“可靠”盟國
-
哄特朗普改口,共和黨人故意說:這么做會讓中國變富…
-
俄軍官:已控制庫爾斯克州幾乎所有定居點
-
SpaceX確認(rèn)龍飛船已脫離國際空間站:將帶回兩名滯留宇航員
-