亚洲成av人在线观看影院,亚洲欧美人成网站在线观看看,a级国产乱理伦片在线播放

APP下載

掃一掃

下載觀察者APP

大橘財(cái)經(jīng)：科大訊飛的AI科技樹(shù)——從直播場(chǎng)景識(shí)別到智能醫(yī)療
- 劉聰科大訊飛AI研究院常務(wù)副院長(zhǎng)
- 大橘一群講大局的財(cái)經(jīng)觀察者
分享到：

2020-10-26 08:10:55 字號(hào)：A- A A+ 來(lái)源：觀察者網(wǎng)

最后更新: 2020-10-26 10:54:39

導(dǎo)讀

我們?cè)?017年11月份，醫(yī)考機(jī)器人以456的高分通過(guò)了國(guó)家職業(yè)醫(yī)師資格考試。在接下來(lái)的時(shí)間里面，我們基于領(lǐng)先的核心技術(shù)，深入到醫(yī)療輔診的各個(gè)核心的剛需場(chǎng)景，去解決實(shí)際問(wèn)題，核心指標(biāo)有了大幅度的進(jìn)步。

觀察者網(wǎng)·大橘財(cái)經(jīng)訊（文/一鳴編輯/周遠(yuǎn)方）10月23日下午，在科大訊飛“全球1024開(kāi)發(fā)者節(jié)”上，科大訊飛AI研究院常務(wù)副院長(zhǎng)劉聰發(fā)表了關(guān)于“構(gòu)筑AI科技樹(shù)，煥新美好新生活”的主題演講。劉聰表示，語(yǔ)音識(shí)別是科大訊飛的傳統(tǒng)強(qiáng)項(xiàng)，目前其已將直播場(chǎng)景下復(fù)雜任務(wù)的識(shí)別效果從60%提到了85%。

科大訊飛AI研究院常務(wù)副院長(zhǎng)劉聰

劉聰介紹，近年來(lái)，科大訊飛陸續(xù)推出了方言識(shí)別、遠(yuǎn)場(chǎng)交互、多麥克風(fēng)陣列等相關(guān)的功能，將語(yǔ)音聽(tīng)寫(xiě)從簡(jiǎn)單場(chǎng)景的可用做到了通用；語(yǔ)音轉(zhuǎn)寫(xiě)從原來(lái)的不好不可用，做到了演講、會(huì)議、庭審等復(fù)雜場(chǎng)景的好用；語(yǔ)音控制、命令喚醒，也從簡(jiǎn)單場(chǎng)景的可用，做到了復(fù)雜場(chǎng)景的好用。

下一步，科大訊飛將持續(xù)深耕語(yǔ)音識(shí)別，去挑戰(zhàn)更加復(fù)雜的場(chǎng)景，去實(shí)現(xiàn)從語(yǔ)音到聲音，從單純的文字內(nèi)容的識(shí)別，到音頻的全場(chǎng)景解析。例如直播場(chǎng)景這樣有游戲、音樂(lè)以及笑聲、掌聲等各種音效嘈雜的背景下，如何有針對(duì)性地提取想要的聲音。

“面對(duì)這種復(fù)雜的環(huán)境，科大訊飛已經(jīng)有一套全場(chǎng)景音頻解析的整體方案。目前，我們?cè)谥辈?chǎng)景下一個(gè)很復(fù)雜任務(wù)上的識(shí)別效果，已經(jīng)從60%提到了85%，”他表示未來(lái)相關(guān)技術(shù)會(huì)在訊飛開(kāi)放平臺(tái)和訊飛聽(tīng)見(jiàn)上線(xiàn)。

以下是劉聰演講節(jié)選：

我們知道語(yǔ)音識(shí)別是訊飛的傳統(tǒng)強(qiáng)項(xiàng)，從早期的呼叫導(dǎo)航到2010年我們發(fā)布了訊飛超腦語(yǔ)音云和輸入法，開(kāi)啟了中文語(yǔ)音輸入的時(shí)代；通過(guò)深度學(xué)習(xí)框架持續(xù)的迭代效果，接下來(lái)我們又陸續(xù)推出了方言識(shí)別、原廠交互、多麥克風(fēng)陣列等相關(guān)的能力；2015年我們又將人機(jī)交互的場(chǎng)景拓展到人人對(duì)話(huà)的場(chǎng)景。

整體來(lái)說(shuō)，我們總結(jié)出三點(diǎn)，我們將語(yǔ)音聽(tīng)寫(xiě)從簡(jiǎn)單場(chǎng)景的可用，做到了通用；語(yǔ)音轉(zhuǎn)寫(xiě)從原來(lái)的不好不可用，做到了演講、會(huì)議、庭審等復(fù)雜場(chǎng)景的好用；語(yǔ)音控制、命令喚醒，也從簡(jiǎn)單場(chǎng)景的可用，做到了復(fù)雜場(chǎng)景的好用。

那隨著現(xiàn)在語(yǔ)音識(shí)別在更多場(chǎng)景的應(yīng)用。我們要想一下，語(yǔ)音識(shí)別下一步發(fā)展的方向是什么？又有哪些技術(shù)可以從實(shí)驗(yàn)室場(chǎng)景走向成熟，還有哪些價(jià)值值得我們發(fā)掘？

首先我們認(rèn)為語(yǔ)音識(shí)別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場(chǎng)景，去實(shí)現(xiàn)從語(yǔ)音到聲音，從單純的文字內(nèi)容的識(shí)別，到音頻的全場(chǎng)景解析。例如現(xiàn)在我們?cè)诜簥蕵?lè)當(dāng)中，我們可以看到直播短視頻有很多更加復(fù)雜的聲音現(xiàn)象，需要我們?nèi)ソ鉀Q。例如在直播的過(guò)程當(dāng)中，背景可能是復(fù)雜多樣的，可能有視頻聲、游戲聲或者音樂(lè)聲。此外直播連麥的時(shí)候還會(huì)經(jīng)常出現(xiàn)多人混疊的對(duì)話(huà)，這些對(duì)我們的語(yǔ)音識(shí)別都會(huì)有很大的影響。除此之外，這些視頻當(dāng)中還會(huì)包含像笑聲、掌聲、各種音效這樣一些其他的聲音現(xiàn)象。

針對(duì)這樣一個(gè)場(chǎng)景，我們一方面需要降低各種背景的噪聲對(duì)識(shí)別精度的影響。另外一方面，要有針對(duì)性的將我們感興趣的聲音提取出來(lái)。這里我們展示了全場(chǎng)景音頻解析的整體方案。首先我們通過(guò)多分辨率特征提取的聲音檢測(cè)方案，再結(jié)合我們的序列訓(xùn)練，對(duì)一些相似聲音進(jìn)行精細(xì)建模，可以實(shí)現(xiàn)將笑聲、音效等非語(yǔ)音的聲音和語(yǔ)音內(nèi)容分離。

針對(duì)包含語(yǔ)音的有效內(nèi)容，我們也使用了語(yǔ)音降噪和分離的方案，綜合利用我們的聲音、文本、說(shuō)話(huà)等信息，以及在有條件的情況下，還可以使用多模態(tài)的唇形、視線(xiàn)以及麥克風(fēng)陣列的空間位置等信息來(lái)進(jìn)行聯(lián)合建模。

這些例子都是我們的真實(shí)算法、針對(duì)真實(shí)數(shù)據(jù)的一個(gè)結(jié)果。我們的算法針對(duì)這樣的復(fù)雜音頻，有了一個(gè)很好的處理效果，可以有針對(duì)性的提取出更多層次。目前，我們?cè)谥辈?chǎng)景下一個(gè)復(fù)雜任務(wù)上的識(shí)別效果，已經(jīng)從60%提到了85%，未來(lái)我們相關(guān)的技術(shù)也會(huì)在我們的開(kāi)放平臺(tái)、訊飛聽(tīng)見(jiàn)等上線(xiàn)。

語(yǔ)音合成

接下來(lái)我們來(lái)看一下語(yǔ)音合成。我們知道語(yǔ)音合成一般是以自然通報(bào)分來(lái)作為評(píng)價(jià)指標(biāo)的，其中5分是滿(mǎn)分播音員的水平，4分是普通發(fā)音人的水平。過(guò)去我們是在中英文上，包括冰波形拼接、包括參數(shù)合成的方法上達(dá)到了普通發(fā)音人水平。

近年來(lái)，伴隨著深度學(xué)習(xí)的加持，我們提出了基于聽(tīng)感量化的多人混合訓(xùn)練等合成框架，并進(jìn)一步在向配音合成，然后對(duì)話(huà)合成等更有表現(xiàn)力的場(chǎng)景，做到了接近4.5分的水平。

合成技術(shù)也在持續(xù)進(jìn)步，合成的一些領(lǐng)域，風(fēng)格也是從單一向多元化發(fā)展。那么問(wèn)題又來(lái)了，當(dāng)我們的合成自然度已經(jīng)越來(lái)越接近真人水平的時(shí)候，合成還能有哪些令人驚喜的提升呢？合成下一步發(fā)展方向又是什么？

我們要先想一下，為什么像短視頻有聲書(shū)這樣的內(nèi)容非常吸引人，因?yàn)樗粌H僅是單純的從文本找語(yǔ)音的生成，而是基于我們的文本、聲音、畫(huà)面等基本的素材，實(shí)現(xiàn)了全方位的包裝。例如，我們的語(yǔ)音當(dāng)中會(huì)包含角色演繹、情感切換的內(nèi)容在配合上背景的音樂(lè)，各種音效，從而形成了這樣一個(gè)非常生動(dòng)活潑的內(nèi)容。

像我們的語(yǔ)音合成的發(fā)展方向，同樣不能只以單純的追求自然度MOS分為目標(biāo)，而是要追求用戶(hù)可以感知的，同時(shí)技術(shù)可以實(shí)現(xiàn)的更高表現(xiàn)力的呈現(xiàn)。這里我們也可以通過(guò)從文本內(nèi)容當(dāng)中挖掘到角色、情感等更深層的信息。通過(guò)剛才說(shuō)的音樂(lè)音效等聽(tīng)感的提升，以及我們多模態(tài)這樣更具表現(xiàn)力的呈現(xiàn)來(lái)實(shí)現(xiàn)。

對(duì)應(yīng)于語(yǔ)音識(shí)別的全場(chǎng)景音頻解析，我們認(rèn)為語(yǔ)音合成也需要實(shí)現(xiàn)從語(yǔ)音到聲音的全場(chǎng)景音頻合成。去年1024發(fā)布會(huì)上，我們?cè)谲?chē)載場(chǎng)景下使用我們的環(huán)繞音效，提升了用戶(hù)聽(tīng)感的效果。今年我們又進(jìn)一步進(jìn)行了拓展，一方面，我們可以基于自然語(yǔ)言理解技術(shù)，從文本當(dāng)中分析到合適的情感焦點(diǎn)以及我們角色相關(guān)的信息，并通過(guò)語(yǔ)音呈現(xiàn)出來(lái)，進(jìn)一步結(jié)合我們針對(duì)一些特殊情況打造的背景音樂(lè)，從而呈現(xiàn)出一場(chǎng)全局的音頻、全場(chǎng)的一個(gè)合成。這里我們也是以一個(gè)交互場(chǎng)景為例子，來(lái)看一下我們這樣一個(gè)聽(tīng)感提升的效果，請(qǐng)放視頻。

我們可以看到在這個(gè)例子當(dāng)中，一方面它通過(guò)對(duì)內(nèi)容的理解，實(shí)現(xiàn)一人分飾多角和情感的變化。另外一方面它能通過(guò)對(duì)場(chǎng)景的理解，當(dāng)知道用戶(hù)累的時(shí)候，可以主動(dòng)的去推送這樣一些舒緩的音樂(lè)和音效。這一解決方案除了在交互場(chǎng)景，在小說(shuō)合成、配音合成等場(chǎng)景也大有可為。

另外我們知道情感的表達(dá)、合成和預(yù)測(cè)也是我們語(yǔ)音合成當(dāng)中的一個(gè)重要的方向，也是業(yè)界的研究熱點(diǎn)。但是現(xiàn)在我們看到業(yè)界的情感語(yǔ)音合成一般是輸入一句文本，并指定一種情感，然后輸出一段飽含情感的語(yǔ)音。

但我們想一下，在人與人溝通過(guò)程當(dāng)中，其實(shí)情感的表達(dá)并不是這么全局化、單一化的，而是有一些細(xì)微的變化情況。我們的機(jī)器合成常被人們?cè)嵅?，說(shuō)這個(gè)聲音沒(méi)有人情味的一個(gè)表現(xiàn)。

針對(duì)這樣一個(gè)問(wèn)題，我們也是從單一的情感合成升級(jí)到面向交互場(chǎng)景的這樣一個(gè)微情緒合成的方案。該方案也是基于我們剛才說(shuō)的，通過(guò)聽(tīng)感量化的編碼，來(lái)對(duì)我們多種情感進(jìn)行組合式編碼，以實(shí)現(xiàn)我們對(duì)局部一些情感的準(zhǔn)確的預(yù)測(cè)和控制。在有了這樣一個(gè)方案之后，我們?cè)俳Y(jié)合情緒識(shí)別等其他的方案，就可以在交互當(dāng)中體現(xiàn)出一些細(xì)微的情感變化，讓我們的用戶(hù)用不同的語(yǔ)氣說(shuō)話(huà)的時(shí)候，可以得到一些不同的反饋，讓我們整個(gè)的交互過(guò)程變得更加有趣，更加有人情味。

虛擬形象

接下來(lái)我們來(lái)看一下多模態(tài)合成，也就是虛擬形象。我們?cè)谌ツ臧l(fā)布了全球首個(gè)多語(yǔ)種虛擬主播小晴，大家也非常熟悉了。今年我們也是陸續(xù)發(fā)布了更多的虛擬主播，并在多家媒體使用。

今年我們?yōu)樾∏邕M(jìn)一步研發(fā)了表情生成、動(dòng)作生成等技術(shù)，同時(shí)結(jié)合我們生活化場(chǎng)景的設(shè)計(jì)進(jìn)一步的優(yōu)化，讓我們的小晴具備了交互的能力。當(dāng)我們虛擬形象具備更好的交互能力之后，再結(jié)合我們?cè)谝恍﹫?chǎng)景的靜態(tài)和動(dòng)態(tài)內(nèi)容的嵌入，我們就有可能形成一些更加有意思的現(xiàn)象。

例如我們?cè)趯W(xué)習(xí)機(jī)里面，基于我們的虛擬形象技術(shù)、結(jié)合我們的語(yǔ)音評(píng)測(cè)等技術(shù)，我們?cè)O(shè)計(jì)了一個(gè)可以實(shí)時(shí)互動(dòng)的英文主播的教學(xué)，讓整個(gè)英文的教學(xué)變得特別有趣。我們也來(lái)看一下演示的視頻。這里面所有的內(nèi)容都是合成出來(lái)的。未來(lái)我們也非常歡迎各位合作伙伴可以想一下在我們各自場(chǎng)景有沒(méi)有什么樣的需求，可以用我們的這樣一些虛擬形象的技術(shù)，讓大家在一些場(chǎng)景當(dāng)中交互變得更加有意思。

1 2 下一頁(yè) 余下全文
標(biāo)簽科大訊飛
- 責(zé)任編輯: 一鳴
- 茅臺(tái)三季報(bào)：營(yíng)收、凈利增速均放緩
  
  2020-10-25 17:21 大公司
- 蘋(píng)果5G初代 or 華為麒麟絕唱？
  
  2020-10-23 14:48 商業(yè)
- 科大訊飛劉慶峰：AI是“源頭技術(shù)”，是買(mǎi)不來(lái)的
  
  2020-10-23 14:18 商業(yè)
- 華為前三季營(yíng)收6713億元，同比增長(zhǎng)9.9%
  
  2020-10-23 11:28 大公司
- 天貓精靈“走出”音箱，將接入更多智能硬件
  
  2020-10-22 18:03 商業(yè)
- 國(guó)貨營(yíng)銷(xiāo)新出路：不會(huì)外語(yǔ)也能向全球直播！
  
  2020-10-21 16:22
- 戴森：老板成英國(guó)首富，不是中國(guó)顧客捧起來(lái)的
  
  2020-10-21 15:55 大公司
- 滴滴加磅社區(qū)團(tuán)購(gòu) 網(wǎng)約車(chē)CTO調(diào)任橙心優(yōu)選
  
  2020-10-21 14:11 商業(yè)
- 天貓雙十一增至4天，蔣凡：商家對(duì)“雙11”有更強(qiáng)期待和預(yù)期
  
  2020-10-20 22:36
- 滴滴回應(yīng)明年港股上市：沒(méi)有任何明確計(jì)劃或時(shí)間表
  
  2020-10-20 17:13 商業(yè)
- 西瓜視頻加碼“中視頻”：未來(lái)一年補(bǔ)貼20億元，與抖音深度聯(lián)動(dòng)
  
  2020-10-20 11:00
- 殺入紅海：OPPO電視S1發(fā)布，售價(jià)7999元
  
  2020-10-20 10:27 商業(yè)
- 京東：雙十一將備貨超2億件5折商品，投入30座亞洲一號(hào)倉(cāng)
  
  2020-10-19 21:29
- B站與BBC達(dá)成戰(zhàn)略合作，將聯(lián)合出品《綠色星球》等紀(jì)錄片
  
  2020-10-19 14:35 商業(yè)
- 小米、OPPO囤積日本零部件并大幅增產(chǎn)
  
  2020-10-17 15:18 商業(yè)
- 美國(guó)媒體忍不住說(shuō)了實(shí)話(huà)：制裁螞蟻？?jī)H有象征意義
  
  2020-10-16 16:42 大公司
- 講日本故事的真國(guó)產(chǎn)“MINISO”，赴美上市了
  
  2020-10-16 15:29 商業(yè)
- 螞蟻上市再進(jìn)一步，港股IPO新增簿記管理人
  
  2020-10-16 14:13 大公司
- 華為發(fā)布PowerX 2025能源目標(biāo)網(wǎng) 助力運(yùn)營(yíng)商數(shù)字化轉(zhuǎn)型
  
  2020-10-16 12:18 產(chǎn)業(yè)萬(wàn)象
- 5G的最大敵人是電費(fèi)？華為為此投入3000人研發(fā)團(tuán)隊(duì)
  
  2020-10-15 23:39 華為
搜索

   觀察者頭條查看全部

“中國(guó)正投入萬(wàn)億美元，我們卻在這胡搞” 評(píng)論 41

真急了！“白宮擬成立涉華關(guān)稅應(yīng)急工作組” 評(píng)論 233

這場(chǎng)貿(mào)易戰(zhàn)，美國(guó)就是個(gè)“紙老虎” 評(píng)論 91

特朗普也直說(shuō)了：不行，就放棄評(píng)論 233

特朗普“先眨眼”：很多人催我，期待和中國(guó)談成評(píng)論 246

   風(fēng)聞 · 24小時(shí)最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

大橘財(cái)經(jīng)：科大訊飛的AI科技樹(shù)——從直播場(chǎng)景識(shí)別到智能醫(yī)療

茅臺(tái)三季報(bào)：營(yíng)收、凈利增速均放緩

蘋(píng)果5G初代 or 華為麒麟絕唱？

科大訊飛劉慶峰：AI是“源頭技術(shù)”，是買(mǎi)不來(lái)的

華為前三季營(yíng)收6713億元，同比增長(zhǎng)9.9%

天貓精靈“走出”音箱，將接入更多智能硬件

國(guó)貨營(yíng)銷(xiāo)新出路：不會(huì)外語(yǔ)也能向全球直播！

戴森：老板成英國(guó)首富，不是中國(guó)顧客捧起來(lái)的

滴滴加磅社區(qū)團(tuán)購(gòu) 網(wǎng)約車(chē)CTO調(diào)任橙心優(yōu)選

天貓雙十一增至4天，蔣凡：商家對(duì)“雙11”有更強(qiáng)期待和預(yù)期

滴滴回應(yīng)明年港股上市：沒(méi)有任何明確計(jì)劃或時(shí)間表

西瓜視頻加碼“中視頻”：未來(lái)一年補(bǔ)貼20億元，與抖音深度聯(lián)動(dòng)

殺入紅海：OPPO電視S1發(fā)布，售價(jià)7999元

京東：雙十一將備貨超2億件5折商品，投入30座亞洲一號(hào)倉(cāng)

B站與BBC達(dá)成戰(zhàn)略合作，將聯(lián)合出品《綠色星球》等紀(jì)錄片

小米、OPPO囤積日本零部件并大幅增產(chǎn)

美國(guó)媒體忍不住說(shuō)了實(shí)話(huà)：制裁螞蟻？?jī)H有象征意義

講日本故事的真國(guó)產(chǎn)“MINISO”，赴美上市了

螞蟻上市再進(jìn)一步，港股IPO新增簿記管理人

華為發(fā)布PowerX 2025能源目標(biāo)網(wǎng) 助力運(yùn)營(yíng)商數(shù)字化轉(zhuǎn)型

5G的最大敵人是電費(fèi)？華為為此投入3000人研發(fā)團(tuán)隊(duì)

“中國(guó)正投入萬(wàn)億美元，我們卻在這胡搞”

真急了！“白宮擬成立涉華關(guān)稅應(yīng)急工作組”

黃仁勛訪華盼繼續(xù)合作，特朗普回應(yīng)

中國(guó)男子在TikTok“神評(píng)”美國(guó)關(guān)稅，米爾斯海默秒答：贊同

“內(nèi)地電影票房過(guò)億那一刻，香港電影就被顛覆了”

美國(guó)稅局代理局長(zhǎng)剛上任三天就被免，“貝森特抱怨他是馬斯克的人”

特朗普也直說(shuō)了：不行，就放棄

“中國(guó)深知‘廣場(chǎng)協(xié)議’是致命的，特朗普別想了”

“中國(guó)稀土，關(guān)乎美國(guó)人生死”

美軍高官著急：中國(guó)速度太快了，是美國(guó)3倍

德銀：中國(guó)客戶(hù)減持美債，轉(zhuǎn)頭買(mǎi)歐洲資產(chǎn)

美國(guó)對(duì)中國(guó)再下黑手，“黃仁勛道出最大擔(dān)憂(yōu)…”

跟特朗普談，拿中國(guó)當(dāng)籌碼？英財(cái)相：蠢死了

加總理?yè)P(yáng)言：除了中美，還有其他人

美方將不再斡旋？梅德韋杰夫喊話(huà)歐盟：學(xué)著點(diǎn)

特朗普“先眨眼”：很多人催我，期待和中國(guó)談成