-
Meta開源“記憶層”,重塑Transformer架構大模型
最后更新: 2025-01-03 14:29:3711月3日凌晨三點,全球社交巨頭Meta分享了一個創(chuàng)新研究——Memory layers(記憶層)。
目前,Transformer架構的預訓練大模型在存儲、查詢數(shù)據(jù)時,隨著參數(shù)的變大對算力的需求呈指數(shù)級增長?!坝洃泴印眲t提出了新的高效查詢機制替代了傳統(tǒng)的查詢方法,通過比較查詢鍵與兩個較小集合中的鍵,可以快速找到最相關的鍵,而無需遍歷模型的整個記憶層。
換言之,可以在不增加算力的情況下顯著增加大模型的參數(shù)。在傳統(tǒng)的鍵值查找中,每個查詢都需要與記憶層中的每個鍵進行比較,以找到最匹配的值。該方法在鍵的數(shù)量較少時是可行的,但隨著記憶層規(guī)模的增長,這種暴力搜索的方式變得非常低效,需要消耗巨大算力和時間。
Product - Key Lookup是“記憶層”的核心算法之一,使用了一種分而治之的策略,將傳統(tǒng)的單一鍵集合分解為兩個較小的鍵集合,通過兩個階段的查找來減少必要的比較次數(shù),從而提高查找效率。
除了計算效率之外,Product-Key Lookup模塊還優(yōu)化了內(nèi)存和帶寬的使用。由于每個GPU只需要處理一半的鍵,因此內(nèi)存的使用量減少了一半。由于每個GPU只需要返回與自己處理的鍵相關的值,所以內(nèi)存帶寬的需求也得到了優(yōu)化。
Product-Key Lookup算法不僅提高了記憶層的查詢效率,還為記憶層的應用開辟了新的可能性,使得記憶層可以被應用于更大規(guī)模的數(shù)據(jù)集和更復雜的任務中,包括大規(guī)模知識圖譜的查詢、長文本的語義檢索等。
并行記憶層則主要是用于對硬件GPU的優(yōu)化。在傳統(tǒng)的Transformer架構模型中,隨著模型規(guī)模的增加,計算和內(nèi)存需求也隨之增長。特別是在處理大規(guī)模數(shù)據(jù)集時,單一的計算單元很難滿足這種需求。并行記憶層通過在多個GPU之間分配任務,有效解決這一難題。在并行記憶層的設計中,每個計算單元只負責處理一部分數(shù)據(jù),這樣可以減少單個計算單元的負擔,同時提高整體的處理速度。
共享記憶參數(shù)則是另外一個重要優(yōu)化方法,允許不同層的記憶層共享同一個參數(shù)集合。這種設計的優(yōu)勢在于,它減少了模型的總參數(shù)數(shù)量,同時提高了參數(shù)的利用率。
為了應對訓練期間可能出現(xiàn)的變化,研究人員開發(fā)了一套動態(tài)調整策略。每當有新的鍵加入或舊有的鍵被更新時,系統(tǒng)會自動調整相應的子集,而無需對整個記憶池進行全面改造。這樣的設計既簡化了維護流程,又提高了系統(tǒng)的靈活性和適應性。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權,不得轉載。
- 責任編輯: 朱道義 
-
中國10年期國債收益率跌破1.6%
2025-01-03 10:05 金融觀察 -
茅臺原董事長丁雄軍被查
2025-01-02 20:55 觀網(wǎng)財經(jīng)-消費 -
上海醫(yī)藥收購和黃藥業(yè)10%股權,中藥板塊加速布局
2025-01-02 17:30 觀網(wǎng)財經(jīng)-健康 -
新規(guī)后首家!黃光裕旗下公司觸發(fā)市值退市
2025-01-02 17:30 -
“醫(yī)療大模型第一股”港交所上市:資本簇擁,科大訊飛 “血緣” 深厚
2025-01-02 16:44 觀網(wǎng)財經(jīng)-健康 -
“癌癥早篩第一股”停牌第九個月,CEO辭職
2025-01-02 15:38 觀網(wǎng)財經(jīng)-健康 -
?培育鉆石行業(yè)掀起漲價潮,市場迎來新動向
2025-01-02 14:29 -
臺積電設立2nm試產(chǎn)線,或將在今年量產(chǎn)
2025-01-02 13:35 -
債市開門紅!國債期現(xiàn)貨全線大漲
2025-01-02 11:38 金融觀察 -
?中國結算推出減半優(yōu)惠措施,助力SFISF業(yè)務蓬勃發(fā)展
2025-01-02 11:03 -
重大人事調整,五糧液“85后”副總走馬上任
2024-12-31 17:11 觀網(wǎng)財經(jīng)-消費 -
中核科技重組停牌 標的公司曾謀求上市未果
2024-12-31 13:04 -
央行首開債市罰單:三家機構共罰超7000萬
2024-12-30 22:51 金融觀察 -
貴陽銀行擬任“85后”副行長辭職
2024-12-30 22:51 金融觀察 -
“今年以來大量資金涌向債券市場,市場利率過快下行”
2024-12-30 21:42 金融觀察 -
1766億“紅包雨”來了,四大行股價年內(nèi)創(chuàng)新高
2024-12-30 21:32 金融觀察 -
金融觀察員|12月24日-12月30日銀行周報
2024-12-30 19:09 金融觀察 -
滬上阿姨沖刺港交所,門店數(shù)已達8980家
2024-12-30 15:36 觀網(wǎng)財經(jīng)-消費 -
好麗友第三代繼承人上位,在華高層也有新任命
2024-12-27 19:09 觀網(wǎng)財經(jīng)-消費 -
濱江集團戚金興:明年銷售目標約1000億元
2024-12-27 16:27 觀網(wǎng)財經(jīng)-消費
相關推薦 -
特朗普也直說了:不行,就放棄 評論 0特朗普“先眨眼”:很多人催我,期待和中國談成 評論 104“英偉達很急:別再卡了,中國自研芯片已突圍” 評論 95“中國人很團結,就連親美人士都認為必須對抗美國” 評論 203最新聞 Hot
-
特朗普也直說了:不行,就放棄
-
加總理揚言:除了中美,還有其他人
-
特朗普“先眨眼”:很多人催我,期待和中國談成
-
“英偉達很急:別再卡了,中國自研芯片已突圍”
-
印尼讓步了
-
“痛苦!關稅戰(zhàn)被中方拿捏,美國只能二選一”
-
西藏日喀則市原副市長張云寶被查,長期在水利系統(tǒng)工作
-
輪胎高速路上狂奔后滾進服務區(qū)致人死亡,重慶警方通報
-
中國在智利合建天文臺項目,美國又伸黑手
-
哈佛一下子更有錢了
-
“再沒進展,我們就撤”
-
“正事不干雜事一堆,特朗普讓美國科研機構‘徹底崩潰’”
-
“中國人很團結,就連親美人士都認為必須對抗美國”
-
又一位科學家回國!曾供職美頂尖能源實驗室
-
撐不住了?特朗普暗示降低對華關稅
-
國家發(fā)改委干將龔楨梽,“空降”廣東
-