-
專訪數(shù)庫創(chuàng)始人:通用大模型發(fā)展到極致,還有漫長的過程
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 22:46:59【文/觀察者網(wǎng) 呂棟】
“我們現(xiàn)在主要在使用OpenAI的模型,同時(shí)我們也測(cè)試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高。”7月7日,數(shù)庫科技創(chuàng)始人兼總裁沈鑫在第六屆世界人工智能大會(huì)(WAIC)現(xiàn)場(chǎng)接受觀察者網(wǎng)對(duì)話時(shí)說道。
他認(rèn)為,如果通用大模型發(fā)展到極致的話,也就不存在什么行業(yè)大模型了,但這是非常漫長的過程。因?yàn)槟苷嬲┐竽P褪褂玫母哔|(zhì)量數(shù)據(jù)非常缺乏。比如能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司屈指可數(shù),而這些公司肯定不會(huì)把數(shù)據(jù)貢獻(xiàn)給別人。
數(shù)庫科技創(chuàng)始人兼總裁沈鑫
沈鑫向觀察者網(wǎng)坦言,今天人類所處的是一個(gè)萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前可能分析芯片的和分析汽車的人士很少產(chǎn)生交集,但今天產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對(duì)人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對(duì)幫助人們做決策顯得尤為重要。
他同時(shí)也提到,這個(gè)世界不存在所謂的“魔術(shù)”,大模型也不會(huì)一下把所有問題都解決。因?yàn)榇竽P捅旧硎且粋€(gè)效率工具,“我們現(xiàn)在會(huì)把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個(gè)實(shí)際上是我們看待大模型的一個(gè)點(diǎn),不要為了技術(shù)而技術(shù)”。
數(shù)庫科技成立于2009年,由海歸的沈鑫和劉彥海創(chuàng)立,該公司主要是在金融及產(chǎn)業(yè)領(lǐng)域提供基于產(chǎn)業(yè)邏輯的智能數(shù)據(jù)產(chǎn)品與系統(tǒng)服務(wù),幫助金融機(jī)構(gòu)、企業(yè)集團(tuán)、政府部門解決業(yè)務(wù)場(chǎng)景中的數(shù)據(jù)和系統(tǒng)需求。
在本屆WAIC現(xiàn)場(chǎng),觀察者網(wǎng)體驗(yàn)了數(shù)庫科技發(fā)布的概念型產(chǎn)品圖譜——istari,用戶輸入問題用大語言模型解析后,即可轉(zhuǎn)化成統(tǒng)一產(chǎn)品知識(shí)圖譜(UPG)相關(guān)的查詢,呈現(xiàn)出相關(guān)的專業(yè)產(chǎn)業(yè)知識(shí)以及各個(gè)知識(shí)點(diǎn)之間的關(guān)系,該產(chǎn)品主要通過大模型來做產(chǎn)業(yè)關(guān)系的推演。
以下是對(duì)話實(shí)錄:
觀察者網(wǎng):今年數(shù)庫的展臺(tái)比去年要大,重點(diǎn)在展示哪些內(nèi)容?
沈鑫:相比去年,今年展出的內(nèi)容更多是增強(qiáng)和產(chǎn)品化。比如說銀行對(duì)公,去年是方案,今年是標(biāo)準(zhǔn)化產(chǎn)品。因?yàn)殡S著時(shí)間推移,公司想要發(fā)展的話,產(chǎn)品化程度必須越來越高。目前數(shù)字化轉(zhuǎn)型大家還都在摸索,隨著接觸的客戶越來越多,我們要把其中共性的需求提取出來。因?yàn)槲覀兊哪繕?biāo)并不是只服務(wù)于頭部金融機(jī)構(gòu),還要服務(wù)于數(shù)量眾多的中小銀行,他們可能沒有那么多資源和能力,在這種情況下,標(biāo)準(zhǔn)化產(chǎn)品對(duì)他們來說就很重要。而且他們?cè)隗w會(huì)到標(biāo)準(zhǔn)化產(chǎn)品的好處之后,才更有決心和信心投入更多成本去做的更加精細(xì)。
觀察者網(wǎng):連續(xù)參展世界人工智能大會(huì),數(shù)庫業(yè)務(wù)是怎么跟人工智能技術(shù)結(jié)合的?
沈鑫:技術(shù)永遠(yuǎn)是工具,所以數(shù)庫將大量人工智能技術(shù)用在數(shù)據(jù)生產(chǎn)、數(shù)據(jù)解析和數(shù)據(jù)編織三個(gè)層面。技術(shù)賦能是底層能力,我們從來不直接拿技術(shù)去變現(xiàn),這種級(jí)別的炫技沒有意義。一個(gè)公司要想可持續(xù)發(fā)展,關(guān)鍵是要夯實(shí)底層能力。就像運(yùn)動(dòng)員一樣,平時(shí)做的最多的反而是體能訓(xùn)練,雖然最后真實(shí)發(fā)揮的水平跟心態(tài)也有關(guān),但底層能力還是最核心的。
觀察者網(wǎng):數(shù)庫現(xiàn)在利用的人工智能底層技術(shù)能力有哪些?
沈鑫:我們?cè)诜治龊徒馕霾煌愋蛿?shù)據(jù)時(shí),會(huì)用到各種各樣的小模型,比如說NLP(自然語言處理)等。我們以前不做需要海量人工標(biāo)注的數(shù)據(jù)集,因?yàn)檫@會(huì)降低毛利率。但今天通過大模型,我們可以做海量數(shù)據(jù)標(biāo)注,具體是先通過小模型把大的段落拆成小的,再用大模型把關(guān)鍵要素提取出來。通過把工程化的技術(shù)整合到一起,再把數(shù)據(jù)工廠做進(jìn)一步的增強(qiáng)。
觀察者網(wǎng):目前數(shù)庫所利用的模型能力,是自研模型,還是使用市場(chǎng)上的模型?
沈鑫:我們不會(huì)自己去做大模型,因?yàn)榇竽P褪且粋€(gè)長期投入才能出效果的技術(shù),適合大廠來做,而且大模型也有現(xiàn)成的。數(shù)庫現(xiàn)在也在接入OpenAI,國內(nèi)的大模型像百度的文心我們也在測(cè)試。我們?cè)诖怪鳖I(lǐng)域中用好工具就行了,而且可以誰的大模型好用就用誰的。我們更專注垂直領(lǐng)域,包括金融機(jī)構(gòu)也不可能自己去研發(fā)大模型,也是用現(xiàn)成的。因此我們一方面要把市場(chǎng)上大模型的水平認(rèn)知清楚,另一方面我們要把客戶需要的東西兼容上去。
觀察者網(wǎng):目前數(shù)庫主要在和市場(chǎng)上哪些大模型合作?
沈鑫:我們現(xiàn)在主要在使用OpenAI的模型,同時(shí)我們也測(cè)試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高。
觀察者網(wǎng):如何看待大模型的應(yīng)用?
沈鑫:這個(gè)世界不存在所謂的“魔術(shù)”,大模型也不可能一下把所有問題都解決。因?yàn)榇竽P捅旧硎且粋€(gè)效率工具,我們現(xiàn)在會(huì)把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個(gè)實(shí)際上是我們看待大模型的一個(gè)點(diǎn),不要為了技術(shù)而技術(shù)。
觀察者網(wǎng):如何看待通用大模型和行業(yè)大模型之間的應(yīng)用場(chǎng)景沖突?
沈鑫:如果通用大模型發(fā)展到極致的話,我覺得也就不存在什么行業(yè)大模型,但這是非常漫長的過程。能夠真正供大模型使用的高質(zhì)量數(shù)據(jù)是非常缺乏的。
比如我們行業(yè)里,能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司,可能掰手指頭都數(shù)得出來,而這幾家肯定不會(huì)把數(shù)據(jù)貢獻(xiàn)給別人。所以它其實(shí)是一個(gè)漫長的過程,沒有大家想象得那么快。另外一個(gè)點(diǎn),很多的場(chǎng)景是不需要用到大模型的??赡茉谧稍兎?wù)類的場(chǎng)景中大模型有很大的用場(chǎng),但是在金融這種對(duì)數(shù)據(jù)要求很嚴(yán)謹(jǐn)?shù)男袠I(yè)內(nèi),大模型實(shí)際是沒有意義的,因?yàn)榛仞伿窍鄬?duì)比較模糊的。
觀察者網(wǎng):應(yīng)該怎樣理解數(shù)庫的業(yè)務(wù),或者說數(shù)庫是如何使用數(shù)據(jù)的?
沈鑫:我們是把市場(chǎng)上所有看上去像孤島的數(shù)據(jù)融合連接起來。在這樣的數(shù)據(jù)網(wǎng)絡(luò)中,去尋找外界難以捕捉到的一些有用的信息點(diǎn)。因?yàn)槿说乃季S總是有限的,能力再強(qiáng)的專家,可能也只是在一兩個(gè)領(lǐng)域比較專業(yè),一旦跨領(lǐng)域可能就無能為力。今天我們所處的是一個(gè)萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前我們可能會(huì)說,分析芯片的和分析汽車的很少產(chǎn)生交集,但今天新能源汽車已經(jīng)離不開芯片,產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對(duì)人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對(duì)幫助人們做決策就顯得尤為重要。
觀察者網(wǎng):目前數(shù)庫研發(fā)人員的占比大概是什么情況?
沈鑫:我們現(xiàn)在有兩百多名員工,其中有一百多人在做研發(fā),占比超過一半,這些研發(fā)人員也在不斷夯實(shí)數(shù)庫的底層能力。當(dāng)?shù)讓蛹夹g(shù)能力達(dá)到一定水平的時(shí)候,你就會(huì)發(fā)現(xiàn)數(shù)據(jù)提取能力和數(shù)據(jù)精度全部都在上升。這就跟中國發(fā)射火箭探月一樣,航天技術(shù)一旦突破,所有的技術(shù)點(diǎn)在民用領(lǐng)域都會(huì)整體提升。
觀察者網(wǎng):數(shù)庫現(xiàn)在的營收大概是什么樣的水平,未來有沒有IPO的計(jì)劃?
沈鑫:我們的營收已經(jīng)破億了,去年業(yè)務(wù)體量翻了三倍,今年還要再翻一倍。我覺的無論是IPO也好,還是未來任何資本市場(chǎng)的出路也好,都取決于公司的基本面,也就是有沒有真正為客戶創(chuàng)造價(jià)值。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 呂棟 
-
國際首次!“量子模擬的圣杯之一”,我國科學(xué)家取得重大進(jìn)展
2024-05-06 12:12 科技前沿 -
嫦娥六號(hào)成功發(fā)射!開啟人類首次月球背面取樣之旅
2024-05-03 17:19 航空航天 -
環(huán)環(huán)相扣、步步關(guān)鍵!嫦娥六號(hào)月背出差之旅日程表
2024-05-03 16:22 航空航天 -
今天上午太陽爆發(fā)強(qiáng)耀斑,對(duì)我國上空電離層產(chǎn)生影響
2024-05-03 14:09 天文 -
嫦娥六號(hào)任務(wù)首選窗口瞄準(zhǔn)今日17時(shí)27分發(fā)射
2024-05-03 07:39 航空航天 -
嫦娥六號(hào)計(jì)劃5月3日發(fā)射
2024-05-01 18:26 航空航天 -
準(zhǔn)備就緒!嫦娥六號(hào)完成發(fā)射前最后一次系統(tǒng)間全區(qū)合練
2024-05-01 15:52 航空航天 -
幣安創(chuàng)始人趙長鵬被判4個(gè)月監(jiān)禁
2024-05-01 10:10 瘋狂比特幣 -
中美研究合作:核聚變實(shí)驗(yàn)實(shí)現(xiàn)兩方面關(guān)鍵技術(shù)突破
2024-04-30 07:33 科技前沿 -
-
-
刷新紀(jì)錄!這一國產(chǎn)芯片交付
2024-04-26 09:13 科技前沿 -
?華為官宣:盤古大模型5.0將和“純血鴻蒙”一同亮相
2024-04-25 10:37 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
楊利偉獲得錢學(xué)森最高成就獎(jiǎng)
2024-04-24 15:36 航空航天 -
“80后”神十八乘組亮相 簡歷來了
2024-04-24 11:13 航空航天 -
中國將實(shí)施國內(nèi)首次在軌水生生態(tài)研究項(xiàng)目
2024-04-24 09:40 航空航天 -
《三體》重要情節(jié)被驗(yàn)證?中國科學(xué)家首次觀測(cè)到電磁波動(dòng)態(tài)傳播
2024-04-23 20:29 三體 -
-
阿斯麥:不走了,就在荷蘭擴(kuò)張
2024-04-23 11:08 觀網(wǎng)財(cái)經(jīng)-海外 -
神十八發(fā)射場(chǎng)區(qū)全系統(tǒng)合練,近日將擇機(jī)發(fā)射
2024-04-21 16:56 航空航天
相關(guān)推薦 -
-
美媒竟來碰瓷:解放軍這次演訓(xùn),“是在考驗(yàn)美國決心” 評(píng)論 65圍島集結(jié)、多向抵近!現(xiàn)場(chǎng)視頻來了 評(píng)論 165美國學(xué)者開始“流亡” 評(píng)論 126“中國走在這場(chǎng)國際救援最前線,美國呢?” 評(píng)論 133“再不打錢,歐洲在這個(gè)領(lǐng)域也會(huì)輸給中國” 評(píng)論 141最新聞 Hot
-
“斯塔默這么努力地討好特朗普,但沒回報(bào)”
-
特朗普最新對(duì)朝表態(tài)
-
美媒竟來碰瓷:解放軍這次演訓(xùn),“是在考驗(yàn)美國決心”
-
“一些政府打電話來問:中國已深耕十年,我們咋追?”
-
圍島集結(jié)、多向抵近!現(xiàn)場(chǎng)視頻來了
-
龍應(yīng)臺(tái):賴清德錯(cuò)了,留給臺(tái)灣的時(shí)間不多了
-
她又來:美歐相爭,中國得利
-
“說好的補(bǔ)貼不作數(shù)了,美商務(wù)部長還讓學(xué)學(xué)臺(tái)積電…”
-
美國學(xué)者開始“流亡”
-
美媒質(zhì)疑:這事真怪得著中國么?
-
“中國走在這場(chǎng)國際救援最前線,美國呢?”
-
“‘AI末日論’是美國的誤導(dǎo),我們的命運(yùn)要自己把握”
-
特朗普:4月2日將是“解放日”
-
馬斯克5月底離任?特朗普:我會(huì)挽留他
-
“馮德萊恩罵我半小時(shí),說我是白癡,就因?yàn)椤?/a>
-
“再不打錢,歐洲在這個(gè)領(lǐng)域也會(huì)輸給中國”
-