-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國人的原創(chuàng)
最后更新: 2024-07-26 16:16:00這樣,一方面實(shí)現(xiàn)了人聲和噪聲的精確分離,另一方面,多維度的語音屬性結(jié)構(gòu)可以進(jìn)一步地把聲音里的內(nèi)容、韻律、音色等處理出來,如此可以進(jìn)一步地去解決雞尾酒會(huì)問題。過去幾年,訊飛連續(xù)4屆參與并獲得國際多通道語音分離和識(shí)別權(quán)威賽事CHiME的冠軍,充分證明我們的語音識(shí)別技術(shù)突破了更加復(fù)雜的場(chǎng)景。再進(jìn)一步結(jié)合大模型,就是我們今年6月27日舉行的訊飛星火V4.0發(fā)布會(huì)上呈現(xiàn)的極復(fù)雜語音轉(zhuǎn)寫技術(shù),基于訊飛星火大模型的多模態(tài)能力,現(xiàn)場(chǎng)在噪聲環(huán)境下三人同時(shí)說話,正常人耳難以聽清,但我們做到了將每個(gè)人的聲音較為準(zhǔn)確分離,并且實(shí)時(shí)轉(zhuǎn)寫出來。
訊飛星火V4.0發(fā)布會(huì)上展示的極復(fù)雜語音轉(zhuǎn)寫
作為一項(xiàng)技術(shù)框架的創(chuàng)新,復(fù)雜語音信號(hào)解耦建模關(guān)鍵技術(shù)還可以再延伸一下,應(yīng)用到語音合成上。在過去,語音合成需要一個(gè)人錄制自己很多的聲音語料之后才能進(jìn)行合成。如果我們沒有研發(fā)剛才所說的語音屬性解耦技術(shù)的話,我們就很難把很多人的聲音合成為一個(gè)合成聲音,因?yàn)槿魧⑺械穆曇羧煸谝黄鸬脑挘上攵獣?huì)變成一個(gè)“四不像”。但是,當(dāng)我們通過這項(xiàng)技術(shù)把每一個(gè)人的聲音屬性解耦出來之后,就可以把很多人的語音混在一起,訓(xùn)練一個(gè)合成的模型,并且能夠分辨每個(gè)人的聲音之間的一些共性和特性是什么。
此后,你如果希望模擬某個(gè)人的聲音,只需要用這個(gè)人聲音的特性以及相關(guān)的數(shù)據(jù)去建模即可。我們將這些屬性進(jìn)一步去建模、去控制時(shí),如果面對(duì)一些新的發(fā)聲人,可能就不再需要那么多的語音。以前語音合成需要錄制一個(gè)人十個(gè)小時(shí)左右的語音,近幾年只需要幾分鐘;目前在大模型框架之下,只需要一句話就可以了。所以,有了語音屬性解耦技術(shù),我們不僅能解決語音識(shí)別的問題,同樣還可以達(dá)到對(duì)特定人更好的語音合成效果。
心智觀察所:本次國獎(jiǎng)的獲獎(jiǎng)項(xiàng)目為訊飛研究多年的成果,而近些年面對(duì)大模型的突然崛起,業(yè)界有聲音質(zhì)疑獲獎(jiǎng)項(xiàng)目是否被大模型的到來所顛覆。請(qǐng)問您會(huì)如何回應(yīng)這些質(zhì)疑,并請(qǐng)您簡(jiǎn)單講述訊飛將如何將大模型與國獎(jiǎng)項(xiàng)目相結(jié)合。
劉聰:最早的大模型技術(shù)關(guān)注的并非語音領(lǐng)域,包括OpenAI的ChatGPT在內(nèi)的大模型大部分是文本大模型,重點(diǎn)在于文本。
智能語音技術(shù)更多是聲學(xué)層面,但以語音識(shí)別為例,語音轉(zhuǎn)變成文字的過程中牽扯到了語言模型,即文本模型的一種。以ChatGPT等為代表的文本大模型,因?yàn)樗哪P透?、語料更多、長(zhǎng)文本的建模能力更強(qiáng),本身能夠直接提升語音識(shí)別和語音翻譯等效果。
語音合成則是反方向的,從文本到語音。當(dāng)我們對(duì)文本做前端分析的時(shí)候會(huì)用到一些語言模型的技術(shù),所以同樣也會(huì)文本大模型能力的提升帶來更好的效果。
其次,我們也可以進(jìn)一步從文本大模型進(jìn)行延伸。當(dāng)有了文本大模型之后,業(yè)界開始研發(fā)一些其他種類的大模型。我們比較熟知的是從文本大模型拓展到多模態(tài)大模型,例如文生視頻模型、文生圖模型、多模態(tài)視覺理解模型等。當(dāng)然,業(yè)界也有專門研究語音大模型的,套用文本大模型的框架來做語音大模型的框架。
雖然此次我們的國獎(jiǎng)獲獎(jiǎng)項(xiàng)目并沒有直接使用大模型,但是針對(duì)語音提出的一些算法創(chuàng)新,可以在大模型時(shí)代進(jìn)一步與語音大模型進(jìn)行結(jié)合。舉個(gè)例子,我們剛才提到的語音屬性解耦、語音信號(hào)時(shí)空分離等創(chuàng)新技術(shù),本質(zhì)上是對(duì)原始的語音信號(hào)進(jìn)行處理之后,獲得更高質(zhì)量的語音編碼向量。我們可以將更高質(zhì)量的語音編碼向量處理之后,再輸入到大語言模型里,這樣做會(huì)比直接把原始語音信號(hào)進(jìn)行建模的效果更好,能夠完成前端的預(yù)處理及預(yù)訓(xùn)練。
原來在多語種領(lǐng)域里,國際上做得最好的一般是谷歌、微軟,他們有很多的多語種數(shù)據(jù)。但OpenAI在發(fā)布文本大模型ChatGPT之后,去年11月發(fā)布了Whisper v3的多語種語音大模型,效果非常驚人。訊飛則在去年12月開始,針對(duì)性結(jié)合此次國獎(jiǎng)獲獎(jiǎng)項(xiàng)目的一些技術(shù)訓(xùn)練星火語音大模型,并于今年1月30日發(fā)布訊飛星火語音大模型。一經(jīng)發(fā)布之后,在中文、英語、法語、俄語等首批37個(gè)主流語種的語音識(shí)別效果已超過了Whisper v3。
此外,我們之前也發(fā)布了超擬人語音合成,意味著我們與機(jī)器進(jìn)行語音對(duì)話時(shí),能聽到像真人一樣的合成聲音,并且有情緒感知能力,不論在語音合成的自然度和擬人度上都有更好的表現(xiàn)。
今年1月30日訊飛星火語音大模型正式發(fā)布
這個(gè)項(xiàng)目涉及的創(chuàng)新方法結(jié)合場(chǎng)景應(yīng)用,可以在通用大模型的基礎(chǔ)之上,進(jìn)一步對(duì)語音問題有更好的建模和理解,同時(shí)也降低我們對(duì)多語種海量數(shù)據(jù)的需求。本項(xiàng)目的技術(shù)跟大模型之間可以形成互相借鑒、互相結(jié)合的關(guān)系。
心智觀察所:現(xiàn)在訓(xùn)練大模型因?yàn)楦鞣N原因,需要更多地使用國產(chǎn)芯片。那么使用國產(chǎn)芯片來開展智能語音算法模型訓(xùn)練和推理的時(shí)候,有哪些難點(diǎn)需要被克服?請(qǐng)問訊飛專門做了哪些優(yōu)化?
劉聰:國產(chǎn)化也是本項(xiàng)目的一大特點(diǎn)。我們一直強(qiáng)調(diào)國產(chǎn)自主可控,一方面是重視自己能夠掌握的算法創(chuàng)新,另一方面注重跟硬件相結(jié)合。2019年訊飛被美國列入“實(shí)體清單”時(shí),我們就開始做儲(chǔ)備。目前,國產(chǎn)芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的軟件生態(tài)也有待發(fā)展。
對(duì)比圖像,在本項(xiàng)目里用國產(chǎn)芯片做語音模型訓(xùn)練相對(duì)而言難度更大。說同樣一個(gè)詞,我可以說得慢、也可以說得快;在語音模型里做芯片的適配時(shí),不同的語音長(zhǎng)度可能會(huì)導(dǎo)致對(duì)算子的適配度不一樣。即使芯片在硬件參數(shù)上水平相當(dāng),但算子適配不好的情況下去直接訓(xùn)練模型,很可能剛開始只有百分之二三十的效率。這樣同樣訓(xùn)練一個(gè)模型,需要的時(shí)間更長(zhǎng),還有些算子會(huì)不支持,實(shí)際上是很重要的一個(gè)問題。
從現(xiàn)在領(lǐng)域里比較關(guān)注的端側(cè)適配的角度來看,一些國外的芯片在端側(cè)使用這些模型時(shí),量化適配做的比較好,不論什么模型在量化后損失可控。而國產(chǎn)化的一些端側(cè)芯片量化之后,積累的誤差損失會(huì)比較大。
所以針對(duì)性能低、適配難以及語音變長(zhǎng)等問題,項(xiàng)目提出了硬件親和的變長(zhǎng)輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),通過軟硬件協(xié)同優(yōu)化的動(dòng)態(tài)張量算子自動(dòng)融合方法,實(shí)現(xiàn)對(duì)語音等變長(zhǎng)輸入的訓(xùn)練性能優(yōu)化達(dá)到國際主流芯片同等水平;通過多硬件聯(lián)合的量化計(jì)算模擬,達(dá)到模型單次訓(xùn)練后可在不同硬件平臺(tái)上一鍵部署,解決了智能語音技術(shù)硬件平臺(tái)的“卡脖子”問題。現(xiàn)在訊飛很多的硬件產(chǎn)品,例如錄音筆、掃描筆、辦公本、學(xué)習(xí)機(jī)等都使用了國產(chǎn)芯片,也基本在使用上面提到的算法,證明了有效性。
值得一提的是,由于我們被列入“實(shí)體清單”,導(dǎo)致這些工作的開展異常艱苦。但是如果沒有這些經(jīng)驗(yàn)和積累,我們此后就無法與華為聯(lián)合攻關(guān),在去年共同建設(shè)出全國首個(gè)國產(chǎn)萬卡算力集群“飛星一號(hào)”,并且此后基于“飛星一號(hào)”推出訊飛星火大模型V3.5、V4.0,這些星火新版本都是在全國產(chǎn)平臺(tái)上訓(xùn)練出來的。據(jù)我所知,如此大規(guī)模使用國產(chǎn)化平臺(tái)訓(xùn)練模型成功的只有訊飛。
去年10月24日,“飛星一號(hào)”正式發(fā)布
所以我想強(qiáng)調(diào)的是,此獲得國獎(jiǎng)的項(xiàng)目不光是解決了歷史上智能語音技術(shù)相關(guān)模型的國產(chǎn)化問題,更是為大模型時(shí)代的國產(chǎn)化能力奠定堅(jiān)實(shí)的基礎(chǔ),讓大家看到在全國產(chǎn)算力平臺(tái)上訓(xùn)練對(duì)標(biāo)國際頂尖水平的大模型是完全可行的。
心智觀察所:您剛才談到了首個(gè)萬卡的全國產(chǎn)算力平臺(tái)“飛星一號(hào)”,我們想了解一下它目前的基本情況,請(qǐng)問此平臺(tái)目前表現(xiàn)怎么樣?
此外,因?yàn)槟鷦倓傄舱劦綖閲a(chǎn)硬件芯片做專門的優(yōu)化非常辛苦。作為走過這條路的企業(yè)來說,你覺得國產(chǎn)芯片除了硬件的計(jì)算性能之外的軟件生態(tài)建設(shè)方面,您還有什么呼吁和建議嗎?
劉聰:從進(jìn)展來說,去年底“飛星一號(hào)”整體訓(xùn)練性能相對(duì)于英偉達(dá)集群已提升到90%,并且之后還在不斷優(yōu)化提升,但是整體和國外先進(jìn)水平對(duì)比還是有一定差距。由于模型與模型之間的適配邏輯不完全一樣,有些不同尺寸結(jié)構(gòu)的模型需要持續(xù)地適配,我們的重點(diǎn)在訓(xùn)練最主要的模型上,同時(shí)持續(xù)地訓(xùn)練和迭代多模態(tài)模型、語音模型等。我們也將繼續(xù)與華為合作,深入完成全國產(chǎn)算力平臺(tái)相關(guān)的工作。
我認(rèn)為生態(tài)是共建的,而不是靠某一家企業(yè)的算力和人工智能。如果我們想要做到英偉達(dá)一般的生態(tài)和框架,能足以應(yīng)對(duì)任意一個(gè)模型,就要對(duì)各種各樣的結(jié)構(gòu)、尺寸、模型創(chuàng)新有充足的支撐,以及在硬件的底層能力上持續(xù)進(jìn)行演進(jìn),變得更加友好。
對(duì)此,我有另外一個(gè)呼吁:開放算子庫。開放的方式有很多,例如從底層的算子庫到上層的框架,以及配合一些社區(qū)的內(nèi)容。目前,訊飛和華為共建的算子庫大部分都已經(jīng)共享到庫中,未來如果有更多能夠比較開放地使用算子庫的企業(yè),他們自己的很多創(chuàng)新算法就可以用這些算子去驗(yàn)證,并且會(huì)不斷地去發(fā)現(xiàn)問題、閉環(huán)問題,這對(duì)于我們行業(yè)很關(guān)鍵,核心還是大家要去用。
心智觀察所:據(jù)了解,如奇瑞、一汽等車企也做過一些比較,認(rèn)為訊飛的多語種智能語音技術(shù)效果全面領(lǐng)先于競(jìng)品賽輪思。華為隨后也做過一個(gè)測(cè)評(píng),稱訊飛領(lǐng)先于谷歌。請(qǐng)問在這些評(píng)比中具體比較的是一些什么樣的項(xiàng)目?
劉聰:一般評(píng)測(cè)指標(biāo)有兩種,第一種為技術(shù)指標(biāo)。技術(shù)指標(biāo)一般需要我們要通過國際上權(quán)威的評(píng)測(cè)來做,可以理解成純算法本身的比拼。例如我們?cè)?021年國際低資源多語種語音識(shí)別挑戰(zhàn)賽OpenASR,獲得了15個(gè)語種22項(xiàng)第一。故此,這種指標(biāo)是一個(gè)較為學(xué)術(shù)性的指標(biāo)。
你剛剛提到的這些測(cè)試主要是站在產(chǎn)品的層面來做評(píng)估,考驗(yàn)端到端效果。舉個(gè)例子,在奇瑞、一汽等車企的評(píng)測(cè)里,它評(píng)估的不只是一個(gè)單點(diǎn)的語音識(shí)別指標(biāo),而是考慮整個(gè)汽車語音交互的流暢度、任務(wù)的信息傳達(dá)準(zhǔn)確性、功能多樣性、喚醒成功率等各種各樣的維度。
|舉報(bào)-
違反法律法規(guī) -
垃圾信息、廣告 -
色情、淫穢信息 -
人身攻擊 -
謠言、不實(shí)信息 -
冒充,冒用信息 -
破壞社區(qū)秩序 -
其他 -
涉未成年人有害信息
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 武守哲 
-
歐盟港停滿中國車?“產(chǎn)能過?!辈槐冲?/a>
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進(jìn)
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍(lán)屏網(wǎng)災(zāi)”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認(rèn)知局限!我國科學(xué)家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補(bǔ)貼調(diào)查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過程”
2024-07-23 21:54 天文 -
我國科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級(jí)液氫液氧發(fā)動(dòng)機(jī)長(zhǎng)程高模試驗(yàn)成功
2024-07-23 10:17 航空航天 -
國內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
-
意義重大!中國電力體系的壯闊藍(lán)圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學(xué)家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團(tuán)隊(duì)研發(fā)出太陽能動(dòng)力微型無人機(jī)
2024-07-19 07:22 科技前沿 -
重大突破!我國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
2024-07-18 20:45 科技前沿 -
我國科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機(jī)直連衛(wèi)星,中國星鏈何時(shí)能登場(chǎng)?
2024-07-18 08:33 -
“設(shè)計(jì)速度400公里每小時(shí),試驗(yàn)臺(tái)速度達(dá)600公里每小時(shí)”
2024-07-18 07:13 中國精造
相關(guān)推薦 -
-
“特朗普不代表所有美國人,請(qǐng)別報(bào)復(fù)我們州” 評(píng)論 72中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行 評(píng)論 143美股蒸發(fā)超5萬億美元,“95年來最大政策失誤” 評(píng)論 347美國人瘋狂囤貨,“中國電視被買空” 評(píng)論 2234月10日起,對(duì)原產(chǎn)美國的所有進(jìn)口商品加征34%關(guān)稅 評(píng)論 915最新聞 Hot
-
“特朗普不代表所有美國人,請(qǐng)別報(bào)復(fù)我們州”
-
中柬掛牌,洪瑪奈感謝中國
-
特朗普轉(zhuǎn)發(fā)“巴菲特支持特朗普經(jīng)濟(jì)政策”,巴菲特回應(yīng)了
-
演都不演了,特朗普顧問直說:阿根廷得結(jié)束這份中國協(xié)議,不然…
-
中柬云壤港聯(lián)合保障和訓(xùn)練中心正式掛牌運(yùn)行
-
這一重大科研裝置,成功部署!
-
美媒關(guān)注:辛辣回?fù)籼乩势贞P(guān)稅,中國媒體用上AI歌曲和短片
-
特朗普再要求降息,鮑威爾:關(guān)稅遠(yuǎn)超預(yù)期,再等等
-
美股蒸發(fā)超5萬億美元,“95年來最大政策失誤”
-
萬斯:歐洲最大威脅不是中俄
-
魯比奧辯解:美國需要回到制造業(yè)時(shí)代
-
在美烏克蘭人限期7日離境?美官方:發(fā)錯(cuò)了
-
美股“血流成河”,特朗普選擇…去打高爾夫球
-
魯比奧告訴北約:特朗普快對(duì)普京沒耐心了
-
美國人瘋狂囤貨,“中國電視被買空”
-
美股三大股指收盤暴跌,納指進(jìn)入熊市
-