-
心智觀察所:獨(dú)家對(duì)話|奇異摩爾??|:破解AI算力基礎(chǔ)設(shè)施瓶頸,互聯(lián)大有可為
最后更新: 2025-04-15 15:56:34【對(duì)話/ 觀察者網(wǎng) 心智觀察所】
AI大模型對(duì)于超大規(guī)模算力集群的依賴,已然成為當(dāng)代通識(shí),盡管其中的GPU這一組成要素已被近乎奉上神壇,但算力集群的表現(xiàn),依然極大程度上取決于其他軟硬件要素的綜合集成與優(yōu)化,這一基本特點(diǎn),正是中國(guó)產(chǎn)業(yè)界面對(duì)外部遏制的破局關(guān)鍵。
從大模型算法結(jié)構(gòu)創(chuàng)新,到通信協(xié)議等軟件層面打通異構(gòu)混訓(xùn),再到超大規(guī)模集群網(wǎng)絡(luò)互聯(lián)架構(gòu)的軟硬件創(chuàng)新,大量原始創(chuàng)新成果正在中國(guó)產(chǎn)業(yè)界涌現(xiàn)。
日前,心智觀察所與奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁祝俊東進(jìn)行了一次深入交流。
這家定位于以互聯(lián)為中心,為超大規(guī)模AI計(jì)算平臺(tái)提供高性能互聯(lián)解決方案的廠商,依托Chiplet和高性能RDMA技術(shù),在這一領(lǐng)域走出了一條新路:
心智觀察所:很高興能有機(jī)會(huì)和您交流。說(shuō)起AI大模型訓(xùn)推,我們知道在硬件上除了加速卡,網(wǎng)絡(luò)互聯(lián)架構(gòu)也至關(guān)重要,能否請(qǐng)您先談?wù)剬?duì)目前技術(shù)趨勢(shì)的觀察?
奇異摩爾??|:最近這幾年,AI大模型確實(shí)發(fā)展很快,我們可以看到整個(gè)網(wǎng)絡(luò)訓(xùn)練規(guī)模其實(shí)在不斷增長(zhǎng)。海外大模型訓(xùn)練集群規(guī)模已經(jīng)從萬(wàn)卡級(jí)增長(zhǎng)到10萬(wàn)卡乃至20萬(wàn)卡了,從國(guó)內(nèi)來(lái)看,訓(xùn)練規(guī)模其實(shí)也比較大了,盡管沒有那么高的單卡算力,但我們也看到了一個(gè)很好的發(fā)展趨勢(shì),包括現(xiàn)在涌現(xiàn)出非?;鸬腄eepSeek。所以不管是國(guó)內(nèi)還是國(guó)外,其實(shí)對(duì)于大模型的訓(xùn)練現(xiàn)在都是在快速發(fā)展的一個(gè)階段。
在談AI大模型算力集群前,我們先來(lái)看傳統(tǒng)數(shù)據(jù)中心是怎么樣的,它的網(wǎng)絡(luò)架構(gòu)相對(duì)比較簡(jiǎn)單,通用計(jì)算網(wǎng)絡(luò)的話更多是一個(gè)多租戶體系,服務(wù)上千萬(wàn)甚至更多的用戶,共用一個(gè)云端數(shù)據(jù)中心?,F(xiàn)在AI大模型的特點(diǎn)則是把一個(gè)非常大的集群用來(lái)服務(wù)于數(shù)量有限的大模型訓(xùn)練任務(wù),這就對(duì)于算力硬件之間的互聯(lián)提出了非常高的要求。比如傳輸帶寬上,從以往100G/200G,現(xiàn)在在向400G/800G乃至1.6T演進(jìn),整個(gè)數(shù)據(jù)交換的規(guī)模如果是一個(gè)10萬(wàn)卡集群,那不管是我們講北向Scale Out(網(wǎng)間互聯(lián))的網(wǎng)絡(luò),還是說(shuō)南向Scale Up(GPU互聯(lián))的網(wǎng)絡(luò),都要做大量的數(shù)據(jù)交互,因此AI算力集群網(wǎng)絡(luò)的性能、規(guī)模以及它的復(fù)雜性都是指數(shù)級(jí)上升。
從推理的需求來(lái)看,也在發(fā)生變化。過(guò)去單卡單用戶或者單卡多用戶的方案很流行,但最近一段時(shí)間我們看到推理系統(tǒng)的規(guī)模也在變得更大,像DeepSeek的云端推理集群已經(jīng)到了幾百卡的規(guī)模甚至上千卡。多機(jī)之間組成超節(jié)點(diǎn)(HBD)的方案正在快速增加,它對(duì)于scale up網(wǎng)絡(luò)的要求非常高,這就是我們看到特別是在云端AI互聯(lián)架構(gòu)的一些發(fā)展。
心智觀察所:我知道奇異摩爾是一家Chiplet和互聯(lián)技術(shù)見長(zhǎng)的企業(yè),對(duì)于當(dāng)前大模型訓(xùn)推的技術(shù)趨勢(shì),你們有什么樣的回應(yīng)?
奇異摩爾祝俊東:現(xiàn)在大家更多會(huì)講集群算力,從集群算力來(lái)講的話,我們可以把它分為幾個(gè)層面。最微觀的層面當(dāng)然還是計(jì)算芯片本身,從芯片本身來(lái)說(shuō)算力當(dāng)然是越高越好,但你應(yīng)該知道隨著摩爾定律放緩,芯片本身的算力密度增長(zhǎng)趨勢(shì)也在放緩,所以各家大公司類似AMD、Intel不約而同采用Chiplet技術(shù)來(lái)把芯片做得性能更高、更復(fù)雜,在這個(gè)層面也就是片內(nèi)互聯(lián),奇異摩爾會(huì)提供比方說(shuō)Chiplet互聯(lián)芯粒2.5D/3D IO Die、Die2Die IP,把芯片內(nèi)部更多計(jì)算單元連接起來(lái)。這是第一個(gè)層面,通過(guò)這種方式讓單芯片算力保持持續(xù)增長(zhǎng)。
第二個(gè)層面就是剛剛說(shuō)到的超節(jié)點(diǎn),你可以理解成數(shù)據(jù)中心里面一個(gè)小的機(jī)柜集群,它通常由幾臺(tái)不同的服務(wù)器來(lái)組成一個(gè)小規(guī)模但是超高帶寬的集群。這里面就會(huì)涉及到Scale Up的網(wǎng)絡(luò),英偉達(dá)這樣的廠商可以自己做,但是對(duì)于其他廠商來(lái)說(shuō),這一塊是一個(gè)相對(duì)比較大的短板,奇異摩爾可以提供一種GPU片間互聯(lián)的Die(又名NDSA-G2G),通過(guò)這種方式幫助其他廠商用我們的技術(shù)把片內(nèi)互聯(lián)轉(zhuǎn)成超節(jié)點(diǎn)之間的互聯(lián),這是第二個(gè)層面。
再往上第三個(gè)層面,就是大模型的訓(xùn)練和推理,特別是訓(xùn)練層面,你還是要構(gòu)建更大規(guī)模的集群對(duì)吧?這就需要我們所說(shuō)的智能網(wǎng)卡。AI訓(xùn)推集群比方說(shuō)10萬(wàn)張卡,中間有大量的跨節(jié)點(diǎn)數(shù)據(jù)交互,它對(duì)網(wǎng)絡(luò)數(shù)據(jù)交換性能要求非常高,所以我們另外一個(gè)產(chǎn)品就是基于AI原生的智能網(wǎng)卡,可以提供非常高的帶寬,作為國(guó)產(chǎn)網(wǎng)卡替代主流國(guó)外廠商的高性能網(wǎng)卡。我們通過(guò)這三個(gè)層面的技術(shù)能力,可以為國(guó)內(nèi)算力集群用戶提供端到端互聯(lián)架構(gòu)解決方案,從片內(nèi)到片間到網(wǎng)間。
心智觀察所:RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))技術(shù)也是當(dāng)下算力集群網(wǎng)絡(luò)的熱門概念,能否再展開分享一些這方面的信息?
奇異摩爾祝俊東:這里面有幾個(gè)方面,首先是性能,比如帶寬、延時(shí)以及數(shù)據(jù)傳輸效率,我們通過(guò)高性能RDMA引擎能夠達(dá)到800G傳輸速率、幾百納秒的延時(shí),從性能來(lái)說(shuō)是非常好的;第二呢是因?yàn)橹挥悬c(diǎn)對(duì)點(diǎn)的性能是不夠的,因?yàn)樘貏e是大規(guī)模訓(xùn)練的時(shí)候,其實(shí)有非常高的復(fù)雜網(wǎng)絡(luò)需求,比如容易產(chǎn)生擁塞,而在我們的產(chǎn)品里引入了新的擁塞監(jiān)測(cè)以及處理算法,能夠極大提高擁塞處理效率;第三個(gè)是所謂的多路徑傳輸,因?yàn)樵趶?fù)雜網(wǎng)絡(luò)環(huán)境需要從多條路徑傳輸,我們對(duì)于多徑傳輸引入了優(yōu)化算法,可以自動(dòng)選擇最適合的路徑進(jìn)行傳輸,對(duì)于常見的亂序問(wèn)題,我們的產(chǎn)品引入了亂序重排的算法,可以滿足網(wǎng)絡(luò)對(duì)于亂序恢復(fù)的需求。通過(guò)這些技術(shù)就可以在有損大規(guī)模網(wǎng)絡(luò)里有效部署RDMA方案,讓十萬(wàn)卡甚至以上規(guī)模集群達(dá)到95%甚至更高傳輸效率。
標(biāo)簽 心智觀察所- 原標(biāo)題:獨(dú)家對(duì)話|奇異摩爾??|:破解AI算力基礎(chǔ)設(shè)施瓶頸,互聯(lián)大有可為 本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 李昊 
-
一日三試!火箭、衛(wèi)星發(fā)動(dòng)機(jī)試驗(yàn)均獲成功
2025-04-12 17:26 航空航天 -
全球最大“人造太陽(yáng)”磁體系統(tǒng)“生命線”最大尺寸部件交付
2025-04-12 09:58 能源戰(zhàn)略 -
稀土管制,一場(chǎng)對(duì)“關(guān)稅亂拳”的手術(shù)刀式回?fù)?/a>
2025-04-11 08:19 心智觀察所 -
我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星十七號(hào)
2025-04-11 06:37 航空航天 -
國(guó)際首次!中國(guó)科學(xué)家測(cè)得月背月幔水含量
2025-04-10 10:05 -
獨(dú)家對(duì)話|謝耘:AI仍陷“前科學(xué)”困局,AGI未來(lái)何去何從?
2025-04-09 08:22 心智觀察所 -
獨(dú)家對(duì)話|齊向東:大模型的安全挑戰(zhàn)日益嚴(yán)峻,如何應(yīng)對(duì)
2025-04-09 08:07 心智觀察所 -
南極秦嶺站已具備開展越冬考察保障能力
2025-04-08 15:07 -
“中國(guó)行動(dòng)2.0”背后,閃動(dòng)著“臺(tái)獨(dú)”魅影
2025-04-07 13:34 心智觀察所 -
等了十年還沒用上新干線,這真的很“印度”
2025-04-06 15:25 -
中國(guó)為什么是激光雷達(dá)技術(shù)突破的“應(yīng)許之地”
2025-04-06 09:05 心智觀察所 -
中國(guó)科學(xué)家獲重要進(jìn)展:讓金屬“不可能三角”成為可能
2025-04-05 14:38 科技前沿 -
這一重大科研裝置,成功部署!
2025-04-05 14:33 科技前沿 -
誰(shuí)是美國(guó)對(duì)華科技戰(zhàn)“總架構(gòu)師”
2025-04-02 15:02 心智觀察所 -
賀利氏電子張靖:聚焦前沿需求,以創(chuàng)新材料把握歷史機(jī)遇
2025-04-02 14:58 -
近2000名美國(guó)頂尖科學(xué)家發(fā)“SOS”公開信
2025-04-02 13:26 美國(guó)政治 -
“中國(guó)人‘和諧共生’的價(jià)值觀,同樣適用于AI時(shí)代”
2025-04-01 20:52 -
這些人運(yùn)作著美國(guó)對(duì)華技術(shù)遏制的政策軌道
2025-04-01 08:10 心智觀察所 -
來(lái)自4.8億年前,科學(xué)家發(fā)現(xiàn)迄今為止最古老的層孔海綿化石
2025-04-01 06:55 -
我國(guó)科學(xué)家牽頭成功構(gòu)建近全球地表太陽(yáng)輻射高精度監(jiān)測(cè)系統(tǒng)
2025-03-31 14:05
相關(guān)推薦 -
特朗普“先眨眼”:很多人催我,期待和中國(guó)談成 評(píng)論 90“英偉達(dá)很急:別再卡了,中國(guó)自研芯片已突圍” 評(píng)論 61“痛苦!關(guān)稅戰(zhàn)被中方拿捏,美國(guó)只能二選一” 評(píng)論 78撐不住了?特朗普暗示降低對(duì)華關(guān)稅 評(píng)論 369最新聞 Hot
-
特朗普“先眨眼”:很多人催我,期待和中國(guó)談成
-
“英偉達(dá)很急:別再卡了,中國(guó)自研芯片已突圍”
-
印尼讓步了
-
“痛苦!關(guān)稅戰(zhàn)被中方拿捏,美國(guó)只能二選一”
-
西藏日喀則市原副市長(zhǎng)張?jiān)茖毐徊?,長(zhǎng)期在水利系統(tǒng)工作
-
輪胎高速路上狂奔后滾進(jìn)服務(wù)區(qū)致人死亡,重慶警方通報(bào)
-
中國(guó)在智利合建天文臺(tái)項(xiàng)目,美國(guó)又伸黑手
-
哈佛一下子更有錢了
-
“再?zèng)]進(jìn)展,我們就撤”
-
“正事不干雜事一堆,特朗普讓美國(guó)科研機(jī)構(gòu)‘徹底崩潰’”
-
“中國(guó)人很團(tuán)結(jié),就連親美人士都認(rèn)為必須對(duì)抗美國(guó)”
-
又一位科學(xué)家回國(guó)!曾供職美頂尖能源實(shí)驗(yàn)室
-
撐不住了?特朗普暗示降低對(duì)華關(guān)稅
-
國(guó)家發(fā)改委干將龔楨梽,“空降”廣東
-
廣西東蘭干旱“農(nóng)民求雨”?當(dāng)?shù)鼗貞?yīng):視頻系擺拍
-
外媒繼續(xù)緊盯:中國(guó),70天了…
-