-
熊節(jié)、塞爾吉奧·阿馬德烏:DeepSeek為什么要開源?這可能與人工智能的領導權息息相關
【導讀】 本文由deepseek翻譯,經觀察者網編輯加工潤色后發(fā)布。
【文/觀察者網專欄作者 熊節(jié)、塞爾吉奧·阿馬德烏】
人工智能領導權之爭——中國與開源
為什么技術領導權如此重要?如何定義人工智能(AI)領域的技術領導權?人工智能是一項橫跨多個領域的技術,其進步會對經濟、社會和國家安全產生深遠影響。技術領導權首先提供了一系列競爭優(yōu)勢,因為發(fā)明和創(chuàng)新賦予開發(fā)者其他人所不具備的收益和利益。其次,技術領導權是一個關鍵的地緣政治因素,因為它能夠影響全球標準、規(guī)范和法規(guī)的制定。第三,技術領導權可以推動創(chuàng)新生態(tài)系統(tǒng)的形成,鞏固長期發(fā)展。第四,領導權可以在國際威脅(包括軍事威脅)的背景下增強安全性。第五,領導權能夠引導技術發(fā)展,以實現社會、環(huán)境和政治目標。
從技術政治的角度來看,技術科學并非中立,它對權力關系和社會組織具有深遠影響(Winner,2020)[1]。人工智能的領導權不僅僅是開發(fā)最先進的技術,還包括創(chuàng)建一個能夠實現更廣泛社會價值和目標的社會技術環(huán)境,確保創(chuàng)新遵循特定的目的。人工智能的發(fā)展軌跡可能會優(yōu)先考慮提高經濟系統(tǒng)的生產力,或者旨在尋找社會公正和環(huán)境可持續(xù)的解決方案。它可能尋求集中權力并加強國際不對稱性,或者促進知識的傳播和公平發(fā)展。它可能抑制人口和文化的創(chuàng)造力,或者確保技術多樣性。它可能與權力的集中或分散密切相關。
目前,人工智能的領導權掌握在美國手中,主要由所謂的“科技巨頭”主導。這些公司控制著開發(fā)現有人工智能(尤其是以深度學習為主導的人工智能)不可或缺的資源。
我們都知道,深度學習方法基于統(tǒng)計學和概率學,用于從大量數據中分類和提取模式。為了執(zhí)行這些操作,人工智能開發(fā)者依賴于強大的計算能力。訓練一個像ChatGPT這樣先進的人工智能模型需要數百萬美元,并且需要大量時間使用專用硬件進行處理,例如專為這些任務設計的芯片。這些芯片被稱為“AI推理芯片”或“推理加速器”,它們能夠在更短的時間內取得更好的結果。例如,谷歌的Tensor Processing Units(TPUs)專為推理和訓練優(yōu)化;神經處理單元(NPUs)或神經網絡加速器常用于移動設備和邊緣計算;圖形處理單元(GPUs)則用于訓練和推理。
目前,這些芯片對于圖像識別、自然語言處理和其他實時人工智能任務至關重要。
美國政府長期以來一直采取限制尖端芯片獲取的政策,主要目的是延緩中國和其他被視為對手國家的AI發(fā)展,目標是保持美國在AI領域的領導地位。隨著唐納德·特朗普于2025年1月就職,技術封鎖政策進一步加劇。此外,美國總統(tǒng)宣布了一項5000億美元的“星際之門”項目投資。特朗普的計劃是與甲骨文、OpenAI和軟銀等公司合作,在美國開發(fā)物理和虛擬的AI基礎設施,以“推動下一代AI的發(fā)展”[2]。英偉達、Arm和微軟等公司是該項目的合作伙伴,該項目已在德克薩斯州開始實施,并將在未來四年內在美國各個地區(qū)建設“巨型數據中心”[3]。
以埃隆·馬斯克為代表的美國科技精英認為,人工智能正在接近“奇點”——即人工通用智能(AGI)的出現。他們聲稱,AGI將完全超越并取代人類在所有智力領域的勞動,如果美國率先實現AGI,其技術霸權將不可撼動。然而,無論是ChatGPT還是DeepSeek,都沒有顯示出接近AGI的跡象。它們是處理自然語言的有用工具,并在特定領域展示了有限的推理能力,但沒有證據表明它們——或任何已知的AI研究——正在接近AGI。
AGI比起一般的AI擅長以更像人類的方式去執(zhí)行任務
開源的轉折點
2024年5月,一家名為DeepSeek的中國小公司推出了其大型語言模型(LLM),該模型受到Llama的啟發(fā),Llama是一個禁止商業(yè)使用的受限研究協議下的模型。開源模型DeepSeek V2的突出之處在于其前所未有的成本效益。DeepSeek將推理成本降低至每百萬個token僅1元人民幣,約為Llama3 70B的七分之一,遠低于GPT-4。
Token是語言模型用于處理和理解人類語言的基本文本單位,根據上下文和語言,token可以被視為單詞、音節(jié)甚至單個字符的“塊”。AI模型將文本轉換為token,并以數字形式表示。這些數字隨后由模型處理以生成響應或執(zhí)行任務。因此,文本中的token數量直接影響成本和處理時間。token越多,推理越復雜且耗時。
與所有中國公司一樣,DeepSeek也受到美國政府尖端芯片封鎖的限制。這促使DeepSeek的領導者及其團隊更加專注于研究和優(yōu)化。梁文鋒在2024年7月的一次采訪中表示:“我們的出發(fā)點不是抓住機會發(fā)財,而是推進到技術前沿,以促進整個生態(tài)系統(tǒng)的發(fā)展?!盵4] 這家中國公司試圖引領AI發(fā)展的意圖顯而易見。為了實現這一目標,DeepSeek并沒有局限于組織數據并在現有云平臺上運行。團隊努力在尖端芯片稀缺的情況下尋找解決方案。這需要改變架構、嘗試新程序以及廣泛的應用數學。
DeepSeek的年輕領導者梁文鋒表示:“我們在創(chuàng)新方面缺乏的絕對不是資本,而是信心和如何組織高密度人才以實現有效創(chuàng)新的知識?!盵5] 他繼續(xù)說道:“創(chuàng)新并不完全由商業(yè)驅動,還需要好奇心和創(chuàng)造力。我們陷入了過去的慣性,但這也是暫時的?!盵6] 梁文鋒的理念是減少模仿,增加研究。他主張押注開源模型,不是為了使用它們,而是為了改進它們,并找到需要更少計算資源的路徑。
開源是DeepSeek戰(zhàn)略的核心,但對騰訊、百度和阿里巴巴等其他中國公司來說可能并非如此。然而,開源允許知識在全球范圍內傳播,從而以更快、更包容的速度產生新發(fā)現的可能性。梁文峰表示:“實際上,開源和論文的發(fā)表并沒有損失。對于技術團隊來說,被追隨是一種巨大的成就感。事實上,開源更像是一種文化行為,而不是商業(yè)行為,因為給予實際上是一種額外的榮譽,這樣做的公司也會更具有文化吸引力。”[7]
開源不是一種技術,而是一個基于知識共享的開發(fā)過程。通常,它鼓勵組織愿意協作解決問題并通過更新維護解決方案的社區(qū)。像Mistral 7B(Mistral AI)和Falcon(技術創(chuàng)新研究所)這樣的語言模型是開源的,并在Apache 2.0許可下發(fā)布;強化學習模型Stable-Baselines3也是開源的,采用MIT許可證。
那么,為什么DeepSeek的模型如此重要?因為它顛覆了全球AI領導權的競爭。如何做到的?通過大幅降低大型語言模型的計算成本。
開源對于知識傳播至關重要,但并不能解決訓練和運行模型所需的計算基礎設施問題。DeepSeek展示了一個高性能且處理需求較低的開源模型。
DeepSeek-R1已經展示了比OpenAI的ChatGPT o1更強的推理能力,而其成本(包括訓練和使用)顯著降低。通過開源其模型,DeepSeek促進了大型語言模型的民主化——使技術基礎設施欠發(fā)達的小公司、國家甚至個人能夠基于DeepSeek訓練自己的“主權AI”,而無需依賴科技巨頭的產品或將數據交給這些公司。印度尼西亞和印度已經開始使用DeepSeek作為基礎構建自己的AI基礎設施[8]。在此之前,只有美國和中國有能力訪問如此高水平的大型語言模型。
上表展示了在lighteval上OpenR1-Qwen-7B、DeepSeek-Distill-Qwen-7B和OpenThinker-7B的性能對比,可以看出在數學成績上,OpenR1-Qwen-7B和DeepSeek-Distill-Qwen-7B差距不是非常明顯。36氪
-
本文僅代表作者個人觀點。
- 責任編輯: 鄭樂歡 
-
鋰電池“打一針”就能“重生”!《自然》刊登我國科研團隊新發(fā)現
2025-02-13 06:42 -
從四個角度全面駁斥美方對DeepSeek的質疑和污蔑
2025-02-12 07:34 心智觀察所 -
我國成功發(fā)射衛(wèi)星互聯網低軌衛(wèi)星
2025-02-11 19:20 航空航天 -
蹭熱度?ai.com重定向至DeepSeek
2025-02-10 14:35 人工智能 -
中國半導體產業(yè)要長遠發(fā)展,這個問題必須解決好
2025-02-10 13:57 心智觀察所 -
“中國物理學研究領先世界,美國機構被擠出前十”
2025-02-09 09:14 科技前沿 -
撬開日本海關的口:日本半導體設備對華依賴度有多高?
2025-02-06 08:06 心智觀察所 -
中國平臺,集中上線
2025-02-04 21:12 -
“人造太陽”再創(chuàng)紀錄,是中國式科研方法論又一次勝利
2025-02-04 13:05 心智觀察所 -
“大洋一號”功勛船舶將升級改造
2025-02-02 15:35 -
“霸榜全球140個市場”,拉新最多的是…
2025-02-01 22:06 觀察者頭條 -
突破70多年來的傳統(tǒng)認知!他們發(fā)現距地球16萬公里的“太空合聲”
2025-02-01 16:53 天文 -
中國光子毫米波雷達技術取得突破性進展
2025-01-31 22:54 科技前沿 -
果然,臺當局又跳了出來
2025-01-31 22:01 臺灣 -
英偉達平臺上線DeepSeek
2025-01-31 18:18 -
阿斯麥CEO:DeepSeek,好消息
2025-01-30 09:34 -
20光年外,科學家又發(fā)現“超級地球”
2025-01-29 19:03 -
DeepSeek超越ChatGPT,登頂美國區(qū)免費APP榜單
2025-01-27 09:02 觀網財經-科創(chuàng) -
理解DeepSeek的中國式創(chuàng)新,要先回顧深度學習的歷史
2025-01-27 08:03 心智觀察所 -
探索宇宙線起源之謎再添“觀天”利器
2025-01-21 20:09 天文
相關推薦 -
圍島集結、多向抵近!現場視頻來了 評論 108美國學者開始“流亡” 評論 126“中國走在這場國際救援最前線,美國呢?” 評論 133“再不打錢,歐洲在這個領域也會輸給中國” 評論 139東部戰(zhàn)區(qū)位臺島周邊開展聯合演訓 評論 274最新聞 Hot
-
圍島集結、多向抵近!現場視頻來了
-
龍應臺:賴清德錯了,留給臺灣的時間不多了
-
她又來:美歐相爭,中國得利
-
“說好的補貼不作數了,美商務部長還讓學學臺積電…”
-
美國學者開始“流亡”
-
美媒質疑:這事真怪得著中國么?
-
“中國走在這場國際救援最前線,美國呢?”
-
“‘AI末日論’是美國的誤導,我們的命運要自己把握”
-
特朗普:4月2日將是“解放日”
-
馬斯克5月底離任?特朗普:我會挽留他
-
“馮德萊恩罵我半小時,說我是白癡,就因為…”
-
“再不打錢,歐洲在這個領域也會輸給中國”
-
特朗普發(fā)聲:勒龐這事很大
-
“波音飛船性能出色,下次還會乘坐”
-
哈佛,也遭“清算”
-
東部戰(zhàn)區(qū)位臺島周邊開展聯合演訓
-