-
星際2職業(yè)高手史上首次被AI擊潰 AlphaStar一戰(zhàn)成名
關(guān)鍵字: AlphaStar戰(zhàn)勝人類選手星際2《星際2》,人類首戰(zhàn)告負(fù)。
2016年3月DeepMind團(tuán)隊(duì)的AlphaGo擊敗世界圍棋頂級棋手李世石,但在AlphaGo還名不見經(jīng)傳時,它首先是與職業(yè)棋手樊麾較量取得勝利,而如今該團(tuán)隊(duì)設(shè)計(jì)的新的AlphaStar同樣擊敗了星際2的職業(yè)選手TLO和MaNa。
TLO是一位德國職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生?,F(xiàn)在效力于職業(yè)游戲戰(zhàn)隊(duì)Liquid。根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
(德國職業(yè)星際2選手TLO)
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
(波蘭的職業(yè)星際2選手MaNa)
1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 公布了其錄制的 AI 在《星際爭霸 2》中與2位職業(yè)選手的比賽過程:AlphaStar 分別以5:0的成績戰(zhàn)勝了兩位職業(yè)選手 TLO 和 MaNa 。
最后直播的一場比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MANA進(jìn)行比賽,讓人類終于贏了一場。
如何打造AlphaStar
對于如何訓(xùn)練AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過觀察一個人所處的環(huán)境,盡可能地模仿某個特定的動作,從而理解星際爭霸的基本知識。這其中所使用到的訓(xùn)練資料不但包括專業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
AlphaStar學(xué)會打星際,全靠深度神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。
再說得具體一些,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對星際里的那些單位,應(yīng)用一個Transformer,再結(jié)合一個深度LSTM核心,一個自動回歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。
團(tuán)隊(duì)會使用一個稱為“Alpha League”的方法。在這個方法中,Alpha League 的第一個競爭對手就是從人類數(shù)據(jù)中訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
然后,這些 agent 通過強(qiáng)化學(xué)習(xí)過程與“Alpha League”中的其他競爭對手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過調(diào)整它們的個人學(xué)習(xí)目標(biāo)來鼓勵競爭對手朝著特定方式演進(jìn),比如說旨在獲得特定的獎勵。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”。
AI打星際2意味著什么
早在2003年人類就開始嘗試用AI解決即時戰(zhàn)略(RTS)游戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復(fù)雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉(zhuǎn)向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結(jié)果。這類問題在現(xiàn)實(shí)世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長期目標(biāo)并適應(yīng)意外情況的需要,對脆弱和缺乏靈活性的系統(tǒng)構(gòu)成了巨大挑戰(zhàn)。
掌握這個問題需要在幾個AI研究挑戰(zhàn)中取得突破,包括:
? 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓(xùn)練過程需要不斷探索和拓展戰(zhàn)略知識的前沿。
? 不完美信息:不像象棋或圍棋那樣,棋手什么都看得到,關(guān)鍵信息對星際玩家來說是隱藏的,必須通過“偵察”來主動發(fā)現(xiàn)。
? 長期規(guī)劃:像許多現(xiàn)實(shí)世界中的問題一樣,因果關(guān)系不是立竿見影的。游戲可能需要一個小時才能結(jié)束,這意味著游戲早期采取的行動可能在很長一段時間內(nèi)都不會有回報(bào)。
? 實(shí)時:不同于傳統(tǒng)的棋類游戲,星際爭霸玩家必須隨著游戲時間的推移不斷地執(zhí)行動作。
? 更大的操作空間:必須實(shí)時控制數(shù)百個不同的單元和建筑物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴(kuò)充。
為了進(jìn)一步探索這些問題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
? 4月,南京大學(xué)的俞揚(yáng)團(tuán)隊(duì),研究了《星際2》的分層強(qiáng)化學(xué)習(xí)方法,在對戰(zhàn)最高等級的無作弊電腦情況下,勝率超過93%。
? 9月,騰訊AI Lab發(fā)布論文稱,他們構(gòu)建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內(nèi)置機(jī)器人Bot。
? 11月,加州大學(xué)伯克利分校在星際2中使用了一種新型模塊化AI架構(gòu),用蟲族對抗電腦難度5級的蟲族時,分別達(dá)到 94%(有戰(zhàn)爭迷霧)和 87%(無戰(zhàn)爭迷霧)的勝率。
DeepMind CEO哈薩比斯在賽后說,雖然星際爭霸“只是”一個非常復(fù)雜的游戲,但他對AlphaStar背后的技術(shù)更感興趣。其中包含的超長序列的預(yù)測,未來可以用在天氣預(yù)測和氣候建模中。
內(nèi)容根據(jù)微信公眾號量子位、鈦媒體APP、36氪等資料綜合整理
- 原標(biāo)題:1-10落敗,5分鐘崩盤!星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
- 請支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:程小康
- 最后更新: 2019-01-25 14:48:29
-
為什么我不看好社區(qū)團(tuán)購
2019-01-25 10:31 -
小米首秀雙折疊屏手機(jī):柔宇高管語出驚人
2019-01-25 09:20 手機(jī) -
動車與地鐵“混血” 上線運(yùn)營
2019-01-25 07:24 高鐵世紀(jì) -
華為發(fā)布5G多模終端芯片和商用終端
2019-01-24 13:03 -
華為發(fā)布業(yè)界首款5G基站核心芯片 算力強(qiáng)約2.5倍
2019-01-24 12:09 華為 -
差點(diǎn)友盡!微信出bug消息發(fā)不出甚至有人被刪好友
2019-01-24 12:01 大公司 -
歐洲航天局:剛簽合同,2025年前登月
2019-01-23 08:19 航空航天 -
韓國兩大半導(dǎo)體巨頭去年第四季度業(yè)績慘淡
2019-01-22 18:05 -
難道這就是德國制造 柏林勃蘭登堡機(jī)場十幾年“爛尾”
2019-01-22 16:59 -
像素大戰(zhàn)!雷軍開懟榮耀:底大一級壓死人
2019-01-22 16:51 手機(jī) -
從論證到首飛僅用一年半,飛龍-1空中首秀燃爆了!
2019-01-22 09:51 航空安全 -
英媒:深圳、上海將比紐約提前20年實(shí)現(xiàn)公交系統(tǒng)全電動化
2019-01-22 09:22 -
我國自主研發(fā)磁性基板打破國外技術(shù)壟斷
2019-01-21 19:52 科技前沿 -
外媒:iPhone XR、XS銷量史上第二差,庫存激增將影響出貨量至年中
2019-01-21 16:05 手機(jī) -
多次數(shù)據(jù)封鎖后 美為何要借中國中繼星?
2019-01-21 13:56 科技前沿 -
任正非首談未進(jìn)"改革開放杰出貢獻(xiàn)人物"名單:主動放棄
2019-01-21 09:57 互聯(lián)網(wǎng)大佬 -
東芝宣布實(shí)現(xiàn)氧化亞銅太陽能電池透明化
2019-01-21 06:39 -
同款佩奇走紅 鼓風(fēng)機(jī)價格翻3倍
2019-01-20 08:19 中國雷人秀 -
工信部副部長:中國加快5G商用已具堅(jiān)實(shí)基礎(chǔ)
2019-01-19 22:52 科技前沿 -
過去1個月 美航天局與中方討論這事
2019-01-19 17:00 航空航天
相關(guān)推薦 -
全國政協(xié)十四屆三次會議閉幕 評論 0最新聞 Hot
-
歐洲多國驚覺:被美國掌握一個“致命開關(guān)”
-
對歐洲“感到憤怒”,“特朗普想把駐德美軍全撤走”
-
萬斯:親烏抗議者當(dāng)街騷擾,嚇到3歲女兒
-
紐約發(fā)生多起山火,紐約州進(jìn)入緊急狀態(tài)
-
特朗普威脅“不談就打”,伊朗最高領(lǐng)袖表態(tài)
-
“烏克蘭半瞎了,歐洲急了”
-
尹錫悅獲釋第二天,首爾10萬民眾集會游行
-
美媒哀嘆:所謂的“西方”,已蕩然無存
-
“1500億歐元貸款計(jì)劃,法德又吵起來了”
-
“看看中國高鐵再看美鐵,尬死了”
-
特朗普怒砍哥大4億美元:打擊“反猶”不給力啊
-
“特朗普想重新劃定美加邊界”
-
“魯比奧與馬斯克干架了”,特朗普忙滅火
-
“因?yàn)槲沂敲绹?,在臺積電被罵又懶又蠢”,下月開庭
-
“普京愿意,但有條件”
-
“最大受害者是波音,中國要么用國產(chǎn),要么買空客”
-