-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國(guó)人的原創(chuàng)
最后更新: 2024-07-26 16:16:00不久前,科大訊飛作為第一完成單位的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目,榮獲2023年度國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng),這是過(guò)去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng),對(duì)引領(lǐng)我國(guó)的語(yǔ)音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級(jí)等都有重要意義。
觀(guān)察者網(wǎng)·心智觀(guān)察所日前與科大訊飛研究院院長(zhǎng)劉聰進(jìn)行了一次交流,討論了科大訊飛最新的語(yǔ)音技術(shù)進(jìn)展、現(xiàn)有語(yǔ)音技術(shù)與大模型的結(jié)合、國(guó)產(chǎn)芯片及生態(tài)建設(shè)等問(wèn)題。在對(duì)話(huà)中,劉聰提到了訊飛現(xiàn)有多語(yǔ)種智能語(yǔ)音技術(shù)的領(lǐng)先優(yōu)勢(shì),目前已經(jīng)應(yīng)用在多個(gè)產(chǎn)品中,支撐中國(guó)智造出海。訊飛采用國(guó)產(chǎn)芯片做語(yǔ)音模型訓(xùn)練,難度很大,工作開(kāi)展異常艱苦,劉聰呼吁各個(gè)企業(yè)聯(lián)合建設(shè)更完善的軟件生態(tài)。
項(xiàng)目主要完成人代表在領(lǐng)獎(jiǎng)后合影
對(duì)話(huà)全文如下:
心智觀(guān)察所:科大訊飛這次作為第一個(gè)完成多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化的單位,獲得了國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。據(jù)聞,這是過(guò)去十年人工智能領(lǐng)域首個(gè)一等獎(jiǎng)。請(qǐng)您總體上介紹一下此項(xiàng)目的基本情況,它的背景和意義。
劉聰:我們這次得獎(jiǎng)項(xiàng)目的核心是智能語(yǔ)音技術(shù),也是訊飛的初心。在這個(gè)項(xiàng)目歷經(jīng)的十年間,深度學(xué)習(xí)領(lǐng)域發(fā)展迅速,也代表著人工智能第三次浪潮的快速發(fā)展。在這一背景下,此次也是過(guò)去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
智能語(yǔ)音領(lǐng)域?qū)ξ覀円恢焙苤匾?。過(guò)去十年里,我們一直強(qiáng)調(diào)語(yǔ)音作為人類(lèi)最自然、最便捷的交流方式,是萬(wàn)物互聯(lián)、人機(jī)交互的關(guān)鍵入口。
在人工智能領(lǐng)域里,多語(yǔ)種智能語(yǔ)音廣受關(guān)注。訊飛雖然是從中文語(yǔ)音技術(shù)起家,但我們?cè)谶^(guò)去十年里逐步拓展到更多語(yǔ)種以及方言領(lǐng)域當(dāng)中,這是一個(gè)非常重要的跨越。
國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)主要考量?jī)纱蠓矫?,一是提?bào)項(xiàng)目需要有核心技術(shù)創(chuàng)新,代表中國(guó)從技術(shù)原創(chuàng)角度在世界上取得領(lǐng)先。另一方面,與其他獎(jiǎng)項(xiàng)不同,國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)特別強(qiáng)調(diào)提報(bào)項(xiàng)目的技術(shù)創(chuàng)新能否帶來(lái)大規(guī)模的產(chǎn)業(yè)化落地。
從技術(shù)創(chuàng)新上來(lái)看,語(yǔ)音領(lǐng)域涉及合成、識(shí)別等技術(shù),本項(xiàng)目主要針對(duì)智能語(yǔ)音關(guān)鍵技術(shù)產(chǎn)業(yè)化中攻克了多項(xiàng)技術(shù)難題,例如面向很多復(fù)雜場(chǎng)景時(shí),會(huì)出現(xiàn)語(yǔ)音識(shí)別聽(tīng)不準(zhǔn)、語(yǔ)音合成不自然、口語(yǔ)理解歧義等問(wèn)題,以及當(dāng)我們從中英文向多語(yǔ)種拓展、走向全球化的時(shí)候,出現(xiàn)數(shù)據(jù)資源稀缺的問(wèn)題。在持續(xù)攻關(guān)中,我們提出了四個(gè)方面的關(guān)鍵技術(shù)創(chuàng)新:復(fù)雜語(yǔ)音信號(hào)解耦建模關(guān)鍵技術(shù)突破、多語(yǔ)種共享建模關(guān)鍵技術(shù)突破、語(yǔ)音語(yǔ)義聯(lián)合建模關(guān)鍵技術(shù)突破、語(yǔ)音語(yǔ)義聯(lián)合建模關(guān)鍵技術(shù)突破、國(guó)產(chǎn)異構(gòu)硬件平臺(tái)訓(xùn)練及推理加速關(guān)鍵技術(shù)突破。通過(guò)這些技術(shù)創(chuàng)新,我們解決了剛剛所說(shuō)的技術(shù)難題,實(shí)現(xiàn)了在多個(gè)行業(yè)領(lǐng)域和智能設(shè)備上的應(yīng)用落地。
總結(jié)來(lái)說(shuō),本項(xiàng)目的意義,第一在于開(kāi)創(chuàng)引領(lǐng)了我國(guó)的語(yǔ)音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)出海和升級(jí)。
第二,通過(guò)支持多語(yǔ)言互通,助力民族團(tuán)結(jié),促進(jìn)全球語(yǔ)音語(yǔ)言互通,協(xié)助“一帶一路”建設(shè)。在這個(gè)過(guò)程中,我們很好支撐了北京冬奧會(huì)和冬殘奧會(huì)、進(jìn)博會(huì)、博鰲論壇等國(guó)家重大活動(dòng)。
第三,我們一直強(qiáng)調(diào)自主可控,本項(xiàng)目整個(gè)構(gòu)建了自主可控的多語(yǔ)種智能語(yǔ)音技術(shù),以及全球的產(chǎn)業(yè)生態(tài)。
第四,我們認(rèn)為技術(shù)也要有溫度,所以本項(xiàng)目里面的相關(guān)技術(shù)也持續(xù)助力公益,關(guān)注關(guān)愛(ài)我們的弱勢(shì)群體和特殊人群。
心智觀(guān)察所:我稍微補(bǔ)充問(wèn)一下,請(qǐng)問(wèn)此項(xiàng)目的發(fā)起時(shí)間大概是什么時(shí)候?訊飛雖然是第一完成單位,但獲獎(jiǎng)團(tuán)隊(duì)不止是訊飛這一家。請(qǐng)問(wèn)獲獎(jiǎng)團(tuán)隊(duì)的構(gòu)成如何?
劉聰:這個(gè)項(xiàng)目開(kāi)始時(shí)間大概是在2012年左右,至今差不多是一個(gè)十年左右的周期。
除了訊飛作為第一單位牽頭,過(guò)去十年里在該項(xiàng)目上與我們有緊密合作的還有一些科研機(jī)構(gòu),如中國(guó)科學(xué)技術(shù)大學(xué)、清華大學(xué),訊飛與這兩所高校都有聯(lián)合共建的實(shí)驗(yàn)室;還有產(chǎn)業(yè)鏈上的相關(guān)單位,如華為終端有限公司、中移(杭州)信息技術(shù)有限公司、訊飛醫(yī)療、訊飛智元等。
心智觀(guān)察所:語(yǔ)音識(shí)別研究當(dāng)中有一個(gè)非常有挑戰(zhàn)的問(wèn)題名叫雞尾酒會(huì)效應(yīng),請(qǐng)問(wèn)訊飛是怎么突破這個(gè)難題的?然后,能否用一些比較通俗的比喻來(lái)向公眾解釋一下其中的原理。
劉聰:雞尾酒會(huì)是語(yǔ)音領(lǐng)域一個(gè)非常具有挑戰(zhàn)性的難題,討論的是在復(fù)雜環(huán)境下分辨聲音種類(lèi)的問(wèn)題。人的聽(tīng)覺(jué)系統(tǒng)非常強(qiáng)大,例如你如果參加一個(gè)雞尾酒會(huì)的話(huà),周?chē)浅3臭[,酒會(huì)里有非常多的噪聲、談話(huà)聲、音樂(lè)聲以及酒杯碰撞的聲音。此時(shí),如果你想聽(tīng)清楚誰(shuí)在和你說(shuō)話(huà),你會(huì)將你的聽(tīng)力系統(tǒng)集中過(guò)去,在周?chē)艹车沫h(huán)境下專(zhuān)注于某一個(gè)特別定向的人發(fā)出的聲音,這是人類(lèi)所具備的一個(gè)能力。
在我們做語(yǔ)音識(shí)別、語(yǔ)音合成技術(shù)時(shí),若要衡量語(yǔ)音識(shí)別系統(tǒng)的優(yōu)劣,就要跟人的水平去做對(duì)比。在雞尾酒會(huì)難題里,由于噪聲很多,所以對(duì)機(jī)器來(lái)說(shuō)進(jìn)行精準(zhǔn)的語(yǔ)音識(shí)別是非常難的。我從學(xué)生時(shí)代起就在研究通過(guò)單點(diǎn)技術(shù)來(lái)降噪,此后也嘗試過(guò)通過(guò)多麥克風(fēng)陣列來(lái)提升整個(gè)前端的效果。雖然做了很多的工作,但是都只是在循序漸進(jìn),很難徹底解決這樣的問(wèn)題。
此次獲得國(guó)獎(jiǎng)的項(xiàng)目中第一個(gè)創(chuàng)新點(diǎn)——復(fù)雜語(yǔ)音信號(hào)解耦建模關(guān)鍵技術(shù)突破,其中有兩項(xiàng)技術(shù)能夠比較好地解決雞尾酒會(huì)問(wèn)題。
我們?cè)诮翟肜锩娴囊粋€(gè)關(guān)鍵問(wèn)題是要把語(yǔ)音里面的人聲和非人聲解構(gòu)出來(lái),這就叫解耦。對(duì)語(yǔ)音來(lái)說(shuō)非常困難,因?yàn)檎Z(yǔ)音是一個(gè)一維信號(hào)。在這個(gè)一維信號(hào)當(dāng)中包含了很多的信息,如人聲、噪聲等。甚至如果再進(jìn)一步細(xì)化,可能還有人聲里面的說(shuō)話(huà)人聲音,及其音色、內(nèi)容、性別等信息。
為了解決這個(gè)問(wèn)題,我們首先基于深度學(xué)習(xí)的框架,針對(duì)性地對(duì)語(yǔ)音里每一個(gè)人的每一種屬性做了針對(duì)性的建模。建模之后,我們就可以將剛才所說(shuō)的噪聲、人聲的各類(lèi)屬性比較清楚地顯示出來(lái)。通俗來(lái)講,我們可以更加精細(xì)地把控語(yǔ)音里面原來(lái)混雜在一起的、各種各樣的屬性。此后,我們就可以更好地對(duì)噪聲做分離處理,也可以知道語(yǔ)音里的聲音是跟說(shuō)話(huà)人還是跟噪聲的聲音更接近。
同時(shí),如果我們用聲學(xué)前端多麥克風(fēng)陣列的多通道信號(hào)來(lái)采集語(yǔ)音的話(huà),還可以對(duì)這個(gè)信號(hào)的時(shí)間、空間等屬性進(jìn)行分離。
|舉報(bào)-
違反法律法規(guī) -
垃圾信息、廣告 -
色情、淫穢信息 -
人身攻擊 -
謠言、不實(shí)信息 -
冒充,冒用信息 -
破壞社區(qū)秩序 -
其他 -
涉未成年人有害信息
-
本文僅代表作者個(gè)人觀(guān)點(diǎn)。
- 責(zé)任編輯: 武守哲 
-
歐盟港停滿(mǎn)中國(guó)車(chē)?“產(chǎn)能過(guò)?!辈槐冲?/a>
2024-07-26 14:51 心智觀(guān)察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進(jìn)
2024-07-26 14:22 心智觀(guān)察所視頻 -
專(zhuān)稿|“藍(lán)屏網(wǎng)災(zāi)”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀(guān)察所 -
打破認(rèn)知局限!我國(guó)科學(xué)家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補(bǔ)貼調(diào)查,到底圖中國(guó)啥?
2024-07-24 13:56 心智觀(guān)察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來(lái)勝算幾何?
2024-07-24 13:41 心智觀(guān)察所視頻 -
“慢就是快”的啟示:中國(guó)無(wú)人駕駛憑什么后來(lái)居上?
2024-07-24 09:49 心智觀(guān)察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過(guò)程”
2024-07-23 21:54 天文 -
我國(guó)科學(xué)家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級(jí)液氫液氧發(fā)動(dòng)機(jī)長(zhǎng)程高模試驗(yàn)成功
2024-07-23 10:17 航空航天 -
國(guó)內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國(guó)精造 -
-
意義重大!中國(guó)電力體系的壯闊藍(lán)圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國(guó)沒(méi)有,國(guó)際也沒(méi)有,但不意味中國(guó)科學(xué)家不能做出來(lái)”
2024-07-19 08:11 科技前沿 -
我國(guó)團(tuán)隊(duì)研發(fā)出太陽(yáng)能動(dòng)力微型無(wú)人機(jī)
2024-07-19 07:22 科技前沿 -
重大突破!我國(guó)科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
2024-07-18 20:45 科技前沿 -
我國(guó)科學(xué)家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學(xué)證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機(jī)直連衛(wèi)星,中國(guó)星鏈何時(shí)能登場(chǎng)?
2024-07-18 08:33 -
“設(shè)計(jì)速度400公里每小時(shí),試驗(yàn)臺(tái)速度達(dá)600公里每小時(shí)”
2024-07-18 07:13 中國(guó)精造
相關(guān)推薦 -
-
美股蒸發(fā)超5萬(wàn)億美元,“95年來(lái)最大政策失誤” 評(píng)論 201美國(guó)人瘋狂囤貨,“中國(guó)電視被買(mǎi)空” 評(píng)論 208“特朗普白給,中國(guó)要贏得全世界了” 評(píng)論 173尹錫悅被罷免 評(píng)論 353最新聞 Hot
-
美股蒸發(fā)超5萬(wàn)億美元,“95年來(lái)最大政策失誤”
-
萬(wàn)斯:歐洲最大威脅不是中俄
-
魯比奧辯解:美國(guó)需要回到制造業(yè)時(shí)代
-
在美烏克蘭人限期7日離境?美官方:發(fā)錯(cuò)了
-
美股“血流成河”,特朗普選擇…去打高爾夫球
-
魯比奧告訴北約:特朗普快對(duì)普京沒(méi)耐心了
-
美國(guó)人瘋狂囤貨,“中國(guó)電視被買(mǎi)空”
-
美股三大股指收盤(pán)暴跌,納指進(jìn)入熊市
-
美股開(kāi)盤(pán)重挫,特朗普:我的政策永不改變
-
90億美元還想不想要?哈佛被下“整改通牒”
-
“2300美元一臺(tái)?特朗普要親手毀掉‘美國(guó)象征’?”
-
4月10日起,對(duì)原產(chǎn)美國(guó)的所有進(jìn)口商品加征34%關(guān)稅
-
中方出手,美指期貨應(yīng)聲暴跌
-
美媒爆料:美國(guó)國(guó)安局局長(zhǎng)被解職
-
對(duì)中國(guó)進(jìn)口產(chǎn)品征收關(guān)稅,特朗普政府被起訴
-
石破茂:這是一場(chǎng)“國(guó)家危機(jī)”
-