-
商湯聯合創(chuàng)始人:DeepSeek不會降低算力需求,長期低價服務難持續(xù)
-
湯普濟我在看著你
由DeepSeek點燃的人工智能熱潮,仍在持續(xù)。面對這場熱鬧異常的“AI春節(jié)檔”,全球大模型市場內的玩家們都在加速行動。
近日,商湯科技聯合創(chuàng)始人、執(zhí)行董事及人工智能基礎設施和大模型首席科學家林達華在一場閉門交流會上,談及了對DeepSeek的看法、算力需求、未來AI技術路徑、商湯未來大模型計劃等。
林達華認為,DeepSeek不會降低市場對算力的需求,在可見的2025年內,整體算力需求仍將保持增長。特別是隨著DeepSeek推理能力不斷突破,它帶動了下游應用市場的快速擴展,推理市場正呈現供不應求、快速增長的態(tài)勢。
DeepSeek是開源路線的堅持者,因此DeepSeek的出圈也被認為是開源的勝利。
林達華認為,開源不僅改變了全球AI和大模型的產業(yè)格局,還加速了技術的傳播和普及。其次,開源模型的追趕速度非???,與頂尖閉源模型的差距正在迅速縮小。未來,大模型應用將從問答、文本改寫等淺層工具,轉向替代行業(yè)中高價值的核心任務。大模型需要在特定行業(yè)任務上突破工業(yè)紅線,才能實現規(guī)?;瘧?。開源只是技術價值鏈中的一環(huán),而非全部。
以下是林達華交流整理實錄:
問:春節(jié)AI熱潮又興起,國民討論度再創(chuàng)新高,DeepSeek最厲害的突破在哪里呢?
林達華:DeepSeek有兩個近期的版本,一個是V3基礎模型,另一個是R1推理模型。這兩個模型的核心亮點是不一樣的。V3在于模型和系統垂直整合后實現的訓練效率的優(yōu)化;而R1是構建強推理能力的新算法路徑。
首先說一下V3,V3整體表現非常優(yōu)秀,綜合能力強,且在多項評測中表現突出。為何V3能夠達到如此高的水平,主要歸功于兩個方面。首先,模型本身達到了一流大模型水平,首先在于數據的多樣性和高質量處理。這是任何一個基礎模型能達到很高水平的根本,V3也不例外。
另一個關鍵因素是DeepSeek V3的訓練效率非常高。它通過模型結構、訓練方法和并行策略的聯合優(yōu)化,提升了訓練效率,使其達到較高水平。用幾百萬美元就完成了一個大模型的訓練。
具體而言,R1能夠將訓練成本降至如此低的水平,主要依賴兩個方面的優(yōu)化。首先是模型結構,它采用了MoE架構(混合專家架構),如今幾乎所有一線企業(yè)都在使用MoE,因此這一點并不特別。但是,它采取了一種更優(yōu)的MoE負載均衡策略,提升了MoE訓練的效率。另一個關鍵因素是訓練技術的優(yōu)化:在確定了模型結構后,訓練方法本身也結合了多種策略。首先,它采用了FP8精度運算,而不是傳統的FP16。這一改進使計算效率相比FP16提升了60%以上。在FP8訓練過程中,值得特別提到的是,它利用了CUDA PTX的底層代碼優(yōu)化,為FP8訓練實現了一種高效的混合精度乘法,這是整個訓練流程中最核心的算子之一,對FP8訓練效率的提升起到了至關重要的作用。在這里我想指出的是,商湯的訓練效率已經與DeepSeek相差不大了。
然后是R1,它選擇了一條獨特且不同于主流的道路:基于結果監(jiān)督的強化學習路線。首先,它建立在DeepSeek V3形成的強大基礎能力之上,強化學習過程本身并不會賦予模型全新的知識或完全前所未有的能力,而是在基礎模型所提供的知識基礎上,使其更容易激發(fā)出完整的推理鏈路。其次,強化學習之前有個冷啟動(cold-start)階段,這是一個“點火”階段,雖然使用數據不多,但是為后續(xù)的強化學習的走通打下很重要的能力基礎(比如指令跟隨等)。然后是DeepSeek-R1-Zero的強化學習訓練,這是這個技術路徑的核心創(chuàng)新所在,它確實是有顯著效果的,在內外部的交叉驗證中也證實這一點。這里面的關鍵不是具體強化學習算法的選型(GRPO),而是證明了在一個強大基模型的基礎上,通過純結果監(jiān)督的強化學習能形成可泛化的推理能力。
問:DeepSeek的高效訓練是否會顯著降低市場對算力的需求?
林達華:我們內部的判斷是算力需求不會下降,主要基于以下幾個觀察:
首先,DeepSeek研發(fā)投入是包含多次實驗試錯尋求最佳技術方案的。幾百萬美元的訓練成本是單次成本,這是我們在估計研發(fā)成本時需要充分考慮的。
其次,RL(強化學習)路徑的成功已經顯現出巨大的價值,我們預計未來許多機構將嘗試大規(guī)模擴展RL訓練,這將進一步提高算力需求。更重要的是,整個行業(yè)的競爭態(tài)勢。即便單次訓練成本得到了優(yōu)化,并不意味著總成本會下降。因為市場競爭白熱化,效率的優(yōu)化會加快迭代,但不會降低總體需求。
此外,隨著DeepSeek推理能力不斷突破,它帶動了下游應用市場的快速擴展。目前,已達到可以與OpenAI同臺競爭的水平。這也導致大量用戶從OpenAI遷移至DeepSeek,但它自身的承載能力有限,難以滿足全部需求。因此,市場上許多國產廠商包括商湯大裝置紛紛上架R1,以支持不斷增長的推理需求。推理市場正呈現供不應求、快速增長的態(tài)勢。
綜合這些因素,我們判斷,在可見的2025年內,整體算力需求仍將保持增長。
問:大模型未來演進路徑會是什么樣的?
林達華:現在大多數講述的仍是語言模型的故事,但在真實業(yè)務場景中,AI需要處理的信息遠不止于語言,而是多模態(tài)數據的融合。
現實世界中,無論是閱讀報告、課堂教學,還是PPT,信息輸入從來都不是單一模態(tài)的,語言只是我們所獲取數據的一部分,還有大量圖像、視頻、音頻、傳感器數據尚未被充分利用。多模態(tài)仍然是AI發(fā)展的必然方向。隨著多模態(tài)技術的發(fā)展,AI將從語言模型,演進為推理模型,最終發(fā)展為世界模型。
在推理與理解能力提升的基礎上,下一步的關鍵方向是智能體。唯有具備完整決策與執(zhí)行能力的AI智能體,才能真正實現商業(yè)價值的閉環(huán)。這類智能體不再局限于提供信息或建議,而是能夠獨立自主地完成各類任務,以更高效、更智能的方式驅動業(yè)務的發(fā)展與創(chuàng)新。
問:多模態(tài)模型技術門檻到底在哪?它是語言模型的擴展嗎?
林達華:一些人認為多模態(tài)只是語言模型的一個簡單擴展,但實際上,真正意義上的多模態(tài)遠不止于此。
AI從一開始就應該具備多模態(tài)感知與理解能力,而不僅僅局限于語言層面。從商業(yè)角度來看,多模態(tài)在真實應用場景中的需求已經非常明顯?,F實中的應用場景本就是多模態(tài)的組合,而真正意義上的多模態(tài),不只是把不同模態(tài)的內容轉換為語言token進行輸入,它應該貫穿整個AI處理流程,從感知、思考到輸出。更重要的是,多模態(tài)模型需要具備記憶能力。這意味要對LLM技術架構徹底重構,而不僅僅是對語言模型的簡單擴展。
當前業(yè)內普遍討論一個問題:未來1-2年內,互聯網的純語料數據將被消耗殆盡。但一個被忽視的重要事實是,我們仍然擁有海量的天然存在的視覺數據。事實上,我們已經看到包括OpenAI等國內外一流的模型研發(fā)機構正花費巨資,從各個渠道收集視頻數據,以用于訓練更高級的大模型。
從第一天開始,我們就堅定地認為,多模態(tài)大模型是我們的核心發(fā)展方向。原因在于,天然語言的信息是有缺失的,單一的語言模型無法完整解決業(yè)務問題。對于多模態(tài)模型,我們設定了明確的技術目標,即:強交互能力、強推理能力和長期記憶能力。
其中,多模態(tài)的強推理能力目前具備較高的技術門檻,因為包括像視頻、圖片這樣數據的信息密度跟語言文字的信息密度,完全差得不是一個數量級。這需要對數據進行一個提煉,這是多模態(tài)模型非常關鍵的地方:怎么樣從大量的冗余里面去提取出里面高密度的關鍵信息,并且與語言互補的信息結合來做整個的分析推理等。進行模態(tài)融入的過程,這里面有很多技術上要去做,記憶過程也有很多工作。
同時,整個過程對基礎設施和訓練系統也提出了很高的要求。在一個訓練過程中,Transformer的計算在GPU上面發(fā)生,對答案或者生成代碼的檢驗等的計算很多需要在CPU上面發(fā)生。然后,視覺等模態(tài)的編碼的計算模式也有差異。需要在一個很短的iteration里面,要完成3到5種很不一樣的計算,而且結果要協同在一起。要高效完成這樣的訓練,需要基礎設施里面配置不同的計算資源,并且需要有一個高效的系統把不同的計算很好地協同在一起,以及支持好不同計算單元之間的頻繁通信。
所以基礎設施需要很強的彈性,能夠有各種不同的資源隨時有彈性地能夠組合在一起,這也是為什么商湯一直在說大裝置跟大模型要緊密結合發(fā)展,因為如果你不掌握底下的基礎設施設計,資源配置肯定是跟計算需求錯配的。
問:大模型是否能賺錢嗎?開源是否會顛覆閉源嗎?
林達華:首先,開源在近年來大模型的發(fā)展中對產業(yè)格局產生了深遠影響。開源不僅改變了全球AI和大模型的產業(yè)格局,還加速了技術的傳播和普及。其次,開源模型的追趕速度非???,與頂尖閉源模型的差距正在迅速縮小。
開源的核心優(yōu)勢在于快速傳播——技術壁壘被打破后,先進成果迅速擴散,例如DeepSeek開源后,同類模型能力可被快速復現。此外,開源可以讓更多人可以參與到大模型的應用創(chuàng)新,加速大模型技術應用探索和普及的進程。
在這種背景下,真正的競爭優(yōu)勢體現在兩個方面:一是與基礎設施的深度整合,通過軟硬件的垂直整合實現成本優(yōu)勢;二是在特定行業(yè)的縱深發(fā)展,通過工程優(yōu)化、業(yè)務理解和模型調優(yōu),為客戶提供深度的價值。
未來,大模型應用將從問答、文本改寫等淺層工具,轉向替代行業(yè)中高價值的核心任務。類似于商湯在AI 1.0時代通過突破人臉識別的工業(yè)紅線,實現了產業(yè)復制。大模型同樣需要在特定行業(yè)任務上突破工業(yè)紅線,才能實現規(guī)?;瘧谩i_源只是技術價值鏈中的一環(huán),而非全部。
問:在競爭格局這方面,DeepSeek V3和R1的API的價格,是否有可能帶來新一輪價格戰(zhàn)?
林達華:當前的價格競爭導致按token計費的利潤空間被壓縮至成本線,但長期低價服務難以持續(xù)。大流量服務商若持續(xù)低于成本定價,用戶量增長反而加劇虧損,市場終將回歸貼近真實成本的合理區(qū)間。
然而,真正的商業(yè)價值并非來自“按字收費”,而在于能否解決高難度業(yè)務問題。例如,生成深度行業(yè)報告或自主完成復雜任務的能力,其溢價遠高于通用問答。若僅依賴chatbot按token收費,難以支撐持續(xù)研發(fā)投入。
行業(yè)終局取決于大模型能否突破關鍵領域的“工業(yè)紅線”,形成端到端的價值閉環(huán)。最終我覺得行業(yè)會走到這樣的一個道路上:看大模型給用戶帶來了何種價值。當你依然采用“論斤算錢”的方式收費時,就代表了這個商業(yè)模式還沒有走的很通;而當你真正形成高價值落地的時候,收費必然會依據所提供服務本身的價值來確定。
問:在如今的競爭格局下,商湯要走怎樣的路?
林達華:當前,許多公司或團隊選擇基于開源大模型進行一次性微調,希望在短期內獲得市場價值。與以往技術迭代周期長達十年、二十年不同,如今的AI發(fā)展周期已大幅縮短至三個月。在這樣的節(jié)奏下,單純依賴淺層微調或工具型產品的商業(yè)利潤空間將極為有限。如果想真正抓住這個時代的紅利,就必須選擇更具挑戰(zhàn)性的方向。
對商湯而言,有兩項關鍵戰(zhàn)略選擇至關重要。其一,打造強大的基礎能力,盡管不同機構在這一方面的定位可能會有所差異。其二,深耕特定行業(yè),做出端到端的全鏈條價值,深入理解行業(yè)需求,將每個環(huán)節(jié)做到極致。
去年十月份,商湯公開提出“大裝置、大模型、應用”三位一體戰(zhàn)略。這一戰(zhàn)略正是基于AI未來高價值方向的判斷。無論市場如何變化,即使 DeepSeek-R1等新技術出現,我們依然堅定這一戰(zhàn)略方向,這些新技術的發(fā)展非但沒有動搖商湯的戰(zhàn)略布局,反而進一步驗證了其高價值定位的必要性:大裝置的支撐,使大模型訓練更高效、推理成本更低;提升模型服務的效率,確保訓練和推理能力始終保持在行業(yè)領先水平;模型與業(yè)務緊密結合,聚焦關鍵領域,突破行業(yè)落地的瓶頸,實現高價值商業(yè)變現。
本文系觀察者網獨家稿件,未經授權,不得轉載。
- 責任編輯: 湯普濟 
-
中興通訊去年研發(fā)投入240億,手機營收增速超40%
2025-02-28 22:23 觀網財經-科創(chuàng) -
“瓜子大王”重回增長,高端瓜子建奇功?
2025-02-28 20:33 觀網財經-消費 -
TikTok追加投資,88億美元!
2025-02-28 19:24 觀網財經-互聯網 -
夸克AI搜索上線“深度思考”
2025-02-28 19:10 觀網財經-互聯網 -
三年了,俄羅斯戰(zhàn)時“反制裁經濟”的韌性從何而來?
2025-02-28 18:42 觀察者頭條 -
茶咖日報|光明乳業(yè)與MANNER聯名上新;中國咖啡市場規(guī)模有望破萬億
2025-02-28 18:23 觀網財經-消費 -
零售巨頭聯手,名創(chuàng)優(yōu)品創(chuàng)始人進入永輝核心決策層
2025-02-28 18:18 -
2月賣地收金179.5億元,杭州土拍也被“六小龍”帶火了
2025-02-28 17:51 觀網財經-房產 -
Mate70 Pro上線優(yōu)享版:降價300元,性能也略降
2025-02-28 17:22 觀網財經-科創(chuàng) -
OpenAI“史上最貴”大模型發(fā)布,定價是DeepSeek的280倍
2025-02-28 16:55 觀網財經-科創(chuàng) -
比爾蓋茨投資的植物肉宣布:暫停中國運營并裁員95%
2025-02-28 16:20 -
即問即答,騰訊元寶即將灰度上線混元Turbo S
2025-02-28 16:05 觀網財經-互聯網 -
小米15Ultra未漲價,盧偉冰:扛不住了,下代一定要漲
2025-02-28 14:31 觀網財經-科創(chuàng) -
推理模型爆火,阿里國際站拿出了第一個產業(yè)應用:做外貿
2025-02-28 13:00 觀網財經-互聯網 -
阿里國際站和航運巨頭馬士基宣布深度合作
2025-02-28 10:55 觀網財經-互聯網 -
國產GPU獨角獸回應“裁員20%”:優(yōu)化比例嚴重失實
2025-02-28 10:49 觀網財經-科創(chuàng) -
扣非凈利下降近六成后,燒錢開“大店”能救太平鳥?
2025-02-28 10:43 -
蘋果天貓官方旗艦店首次加入國補
2025-02-28 10:15 觀網財經-互聯網 -
拉動鴻蒙生態(tài)崛起,唯有中國科技企業(yè)集體沖刺
2025-02-28 07:23 觀網財經-科創(chuàng) -
“亮劍”后廚亂象,美團上線“明廚亮灶”專區(qū)
2025-02-27 23:04 觀網財經-互聯網
相關推薦 -
-
“果然,中國說對了” 評論 109“特朗普會讓世界團結起來,減少對美依賴” 評論 205“剛剛,我看到了未來,它不在美國” 評論 160特朗普竟對中國征收34%“對等關稅” 評論 953解放日?“對于市場而言這是‘屠戮日’” 評論 71最新聞 Hot
-
“美國這么做,堵不住我的嘴”
-
“對等關稅”竟是這么算的?經濟學家集體傻眼
-
“果然,中國說對了”
-
加拿大發(fā)愁:躲過子彈,卻撞上坦克
-
內塔尼亞胡來了,匈牙利退了
-
“禁令之前就有,但伯恩斯離任前擴大了范圍”
-
“地球上沒一個地方是安全的”
-
“美國是特朗普關稅政策下的最大輸家”
-
“對臺灣地區(qū)沖擊明顯,非??膳隆?/a>
-
“剛剛,我看到了未來,它不在美國”
-
誰被征了50%的最高關稅?
-
四名共和黨議員倒戈阻止對加關稅,特朗普破口大罵
-
“特朗普會讓世界團結起來,減少對美依賴”
-
特朗普發(fā)動全球關稅戰(zhàn),美國VS全世界
-
結束全球化?“不是按個開關,美國就能搖身一變”
-
諾獎得主克魯格曼:特朗普在貿易上已經徹底瘋了
-