-
“起大早趕晚集”的谷歌大模型,這次真的“遙遙領(lǐng)先”了?
最早推出Transformer架構(gòu)的谷歌,一度在大模型競賽中落后。好在隨著Gemini的不斷進(jìn)化,谷歌正在回到第一梯隊。
3月26日,Gemini 2.5 Pro上線,這個模型一經(jīng)推出就登頂各大榜單,在Chatbot Arena上較第二名高出整整39分!
Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不僅僅指分類和預(yù)測,而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策的能力。
據(jù)悉Gemini 2.5 Pro 目前支持 100 萬 token 的上下文窗口,很快將推出200萬token的上下文窗口,繼承并發(fā)揚了 Gemini 模型的優(yōu)勢——原生多模態(tài)能力和超長上下文長度。
這讓它能夠理解海量數(shù)據(jù)集,并處理來自多種信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉庫。
在Chatbot Arena(由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究者開發(fā),主要用于根據(jù)人類偏好評估大語言模型的性能)上,Gemini 2.5 Pro以橫掃所有類別的顯著優(yōu)勢排名第一,并且比緊隨其后的Grok-3整整高出了39分。
同時Gemini 2.5 Pro還獲得了創(chuàng)意寫作、指令遵循和長查詢?nèi)箢I(lǐng)域唯一的冠軍。
此外,Gemini 2.5 Pro成功登頂了視覺競技場(Vision Arena)排行榜榜首。
在網(wǎng)頁開發(fā)領(lǐng)域,作為首個實力媲美 Claude 3.7 Sonnet 的模型,Gemini 2.5 Pro成功獲得了網(wǎng)頁開發(fā)競技場(WebDev Arena)的第二名。
不僅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和 AIME 2025等數(shù)學(xué)和科學(xué)基準(zhǔn)評測中同樣表現(xiàn)卓越。
Humanity’s Last Exam (no tools)即 “人類的最后考試(無工具)”,這里的 “無工具” 指在進(jìn)行該考試時,不允許使用外部工具,如搜索引擎、數(shù)據(jù)庫等。已往實驗顯示,最先進(jìn)的 LLMs 在 HLE 上的準(zhǔn)確率普遍低于 10%,且存在信心與能力失衡、推理效率低等問題,表明當(dāng)前 LLM 的能力與人類專家在封閉式學(xué)術(shù)問題上的前沿能力之間的差距。在這一背景下,Gemini 2.5 Pro 18.8%的成績顯得非常突出。
據(jù)悉,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應(yīng)用中,向 Gemini Advanced 用戶開放,并將在 Vertex AI 上推出。
而它會在未來幾周內(nèi)公布定價方案,用戶可以在更高使用配額下,將模型應(yīng)用于大規(guī)模生產(chǎn)環(huán)境。
有意思的是,最近國內(nèi)和國外兩大著名的“起大早趕晚集”選手都發(fā)布了最新大模型,含金量是否都能達(dá)到評測顯示的效果呢?
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 Gemini- 責(zé)任編輯: 張睿佳 
-
胖東來,徹底“透明”
2025-03-26 14:26 觀網(wǎng)財經(jīng)-消費 -
補(bǔ)稅+罰款,印度要求三星支付44億
2025-03-26 14:04 觀網(wǎng)財經(jīng)-科創(chuàng) -
騰訊元寶上線最新DeepSeekV3模型
2025-03-26 13:53 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
-
芯片巨頭互撕:高通在全球三大洲投訴ARM壟斷
2025-03-26 12:53 觀網(wǎng)財經(jīng)-科創(chuàng) -
蘋果AI支持中文了,iPhone也能用5.5G了
2025-03-26 12:04 觀網(wǎng)財經(jīng)-科創(chuàng) -
年輕的中國跨境賣家,瘋狂殺入“百萬美金俱樂部”
2025-03-26 10:25 觀網(wǎng)財經(jīng)-海外 -
阿里官宣:與寶馬達(dá)成合作
2025-03-26 10:24 觀網(wǎng)財經(jīng)-科創(chuàng) -
再次打破傳統(tǒng)!DeepSeek發(fā)布更新,可以直接在消費級硬件上運行
2025-03-26 10:24 觀網(wǎng)財經(jīng)-科創(chuàng) -
歐洲專利局2024年收到中國專利申請數(shù)創(chuàng)新高
2025-03-26 09:59 觀網(wǎng)財經(jīng)-科創(chuàng) -
霸王茶姬招股書公布:2024年GMV為295億元,門店數(shù)達(dá)6440家
2025-03-26 09:51 觀網(wǎng)財經(jīng)-消費 -
-
越內(nèi)卷越要建廠擴(kuò)張?創(chuàng)維數(shù)字利潤下滑超6成
2025-03-25 18:11 觀網(wǎng)財經(jīng)-科創(chuàng) -
4億大單,新西蘭農(nóng)業(yè)巨頭加碼中國市場
2025-03-25 16:23 觀網(wǎng)財經(jīng)-消費 -
移動云營收去年首次突破千億,5年增長超50倍
2025-03-25 16:20 觀網(wǎng)財經(jīng)-科創(chuàng) -
謝廣軍已辭職?百度內(nèi)部人士回應(yīng)
2025-03-25 16:03 大公司 -
小米配股融資超400億港元,雷軍曾稱“不缺錢才好融資”
2025-03-25 15:35 觀網(wǎng)財經(jīng)-科創(chuàng) -
珍酒李渡歸母凈利大降43.1%,核心品牌銷量“四連跌”
2025-03-25 15:16 觀網(wǎng)財經(jīng)-消費 -
DeepSeek“偷偷”發(fā)布新版本,最新測評來了
2025-03-25 14:25 -
騰訊等巨頭攜手入股智元機(jī)器人
2025-03-25 13:29 觀網(wǎng)財經(jīng)-科創(chuàng)
相關(guān)推薦 -
無語!不讓來硬來,還拿中俄做借口 評論 209已致144死732傷,緬甸:請求國際支援 評論 105最新聞 Hot
-
《自然》調(diào)查:超75%在美科研人員想“run”
-
果然,“歐盟沒硬起來”
-
美國達(dá)美航空一客機(jī)與軍機(jī)差點又撞……
-
美準(zhǔn)空軍部長:中國留給我們的時間不多了…
-
無語!不讓來硬來,還拿中俄做借口
-
美軍飛行員怒了:這是要害死我們!
-
新協(xié)議更狠!“烏克蘭將變成美國的殖民地…”
-
哥大臨時校長將辭職
-
“他在華直播6小時,美國人發(fā)現(xiàn)自己被騙了”
-
回流美國?美車企集體沉默“裝死”:先讓子彈飛一會兒
-
普京強(qiáng)硬表態(tài),點了英國
-
已致144死732傷,緬甸:請求國際支援
-
“曾被馬斯克嘲笑的中企,現(xiàn)在讓美國人高攀不起”
-
“李嘉誠賣港口交易,暫緩?”
-
“菜鳥防長”訪菲,大談威懾中國…
-
“7年造不了一艘船!美國對華下毒,只會毒死我們”
-