-
人工智能與媒體未來|當昔日的碼農(nóng)對資深媒體人發(fā)表演講,他沒說出的才可怕
關(guān)鍵字: 今日頭條今日頭條的算法新媒體革命一點資訊今日頭條艾瑞咨詢天天快報深入透視頭條的算法
我注意到今日頭條在拉勾網(wǎng)打出一個百萬美元年薪的廣告,招募算法架構(gòu)師,要求擅長:貝葉斯學(xué)派相關(guān)算法,超大規(guī)模離散LR,深度神經(jīng)網(wǎng)絡(luò),各種tree-based的算法等。其他算法工程師崗位要求大同小異。
這些在技術(shù)人士眼中并不特別,很多IT公司必備,多和概率統(tǒng)計學(xué)有關(guān)。比如貝葉斯算法,常用的郵件客戶端上就有出現(xiàn)。
Foxmail截圖(所以張小龍他也是很精通貝葉斯算法的)
我想盡我所能簡單介紹一下這位百萬年薪工程師具備的算法知識,不從數(shù)學(xué)專業(yè)角度(專業(yè)角度我也不懂),而是從用戶角度思考“算法想要什么”。
算法如何閱讀新聞
以招聘啟事中的tree-based算法為例。為了處理信息,算法的初始訴求往往是對海量信息做分類聚合。人類眼中的詞匯在它眼里都是參數(shù)(維度),一千個不同詞匯組成的一篇文章就是一千個維度組成的一個向量。然后機器在代數(shù)世界里衡量不同向量的相似度——簡單向量距離分類法、貝葉斯算法、KNN(K最近鄰居)算法、線性回歸、邏輯回歸……
維度太多,于是算法進化了,不再把每個詞當作維度,而是把html代碼里的節(jié)點標記(DOM)作為維度,這樣就大大減少了維度個數(shù)。人類看見的標題、文字、圖片,被代碼放在不同的DOM節(jié)點里,比如head,比如body,比如TR、TD(表示表格的代碼),構(gòu)成樹狀結(jié)構(gòu)。算法以這些節(jié)點為維度,用各種算法對比不同的文檔異同——k means(硬聚類)算法,minimax(極小化極大算法)……再進一步,引入圖論范疇的模式樹,就有了更高級的tree-based算法。
下圖是個常見的html dom展示,不需要看懂,只要了解機器眼中的文章是什么樣子。
算法五花八門,我說的也不準,主要看氣質(zhì)——算法這個孩子不知道新聞?wù)f了什么,只知道哪些新聞是同類,哪些是熱點(點的人多當然就是熱點,機器可以通過一種“組合”算法來判斷,可以參見南京大學(xué)新聞傳播學(xué)院助理研究員、奧美數(shù)據(jù)科學(xué)實驗室主任王成軍的文章《“今日頭條”怎么計算:“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運作流程》)。文章標簽、關(guān)鍵詞等也起到作。
算法匹諾曹的行為很有趣,好像在努力用各種辦法躲避對內(nèi)容靈魂本身的認知,只通過外貌的形式特征去猜內(nèi)容的相關(guān)度。
算法如何研究讀者
讀者身上沒有關(guān)鍵詞,沒有標簽,算法如何把握?數(shù)學(xué)家們有辦法,貝葉斯算法就是一種。
經(jīng)典的貝葉斯問題在小學(xué)奧數(shù)里就有(美劇《生活大爆炸》里也有):假如分別有A、B兩個口袋,口袋A里有7個紅球和 3個白球,口袋B里有1個紅球和9個白球,現(xiàn)從這兩個口袋里任意抽出了一個球,且是紅球,問這個紅球是來自容器A的概率是多少?
(圖片來自“機器之心”網(wǎng)站)
讓我們換一個更具新聞性的表達方式:假如已知韓國5年發(fā)射一次衛(wèi)星且每次爆炸失敗率是60%,朝鮮2年發(fā)射一次衛(wèi)星且每次爆炸失敗率是40%?,F(xiàn)在從朝鮮半島傳來一聲衛(wèi)星發(fā)射失敗爆炸的巨響,請問這枚火箭來自朝鮮的概率是多少?
根據(jù)貝葉斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推導(dǎo)出這個概率來,也就是逆向計算概率。恰好頭條自己提供了一個范例:
2015年10月,在中國傳媒大學(xué)新媒體研究院和今日頭條聯(lián)合舉辦的“洞見數(shù)據(jù)的力量——電視媒體高峰論壇”上,一位叫做安娜的女士說:
“頭條有個獨特的算法能推算用戶的年齡,即使你沒在頭條訂閱。系統(tǒng)根據(jù)已確定年齡人群的動作、特點和興趣做了一個模型,由協(xié)同原則判斷讀者是否符合這個模型,這時機器先預(yù)判是否為該年齡段的用戶,同時機器再根據(jù)你的閱讀動作最終確定年齡段?!?span>
這個獨特的算法可能就是貝葉斯算法(當然也許不止一種算法,比如也可能存在專門用于挖掘不同數(shù)據(jù)集合間關(guān)聯(lián)性的Apriori算法等)。我猜想算法架構(gòu)師會預(yù)先根據(jù)心理學(xué)、社會學(xué)統(tǒng)計數(shù)據(jù)以及以往讀者點擊數(shù)據(jù),構(gòu)建一個用概率來描述的人格特征模型,比如男性模型的特征之一是在閱讀新聞時點擊軍事新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,算法就開始逆推TA的性別,加上TA點擊其他新聞的行為數(shù)據(jù),綜合計算,就能比較準確地判斷TA的性別。綜合ip地址(地理信息)、點擊時間、評論參與、點贊行為這些明確的信息,就能區(qū)分出不同讀者的取向、興趣。
如果我們回看商業(yè)史,就會看到這樣的算法精神一直孕育在資本主義消費市場之內(nèi)。歐美的商業(yè)家們早就在追蹤消費者的喜好數(shù)據(jù),沃爾瑪超市里的商品就是典型,什么商品放在什么位置都是有講究的,大賣場長期跟蹤用戶在商場里的行為和銷售數(shù)據(jù),入口處堆放的商品就好比新聞首頁推薦的頭條。一開始是通過人工記錄、報表分析,有了攝像頭,就可以分析錄像中顧客的行動軌跡?;ヂ?lián)網(wǎng)推薦技術(shù)則使得這種跟蹤細化到了個人。
原理不難理解,但做起來考驗智慧和耐心。同時,算法面臨著自己的巨大困境:
-
本文僅代表作者個人觀點。
- 請支持獨立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責任編輯:藏劍
-
圍島集結(jié)、多向抵近!現(xiàn)場視頻來了 評論 160美國學(xué)者開始“流亡” 評論 126“中國走在這場國際救援最前線,美國呢?” 評論 133“再不打錢,歐洲在這個領(lǐng)域也會輸給中國” 評論 140最新聞 Hot
-
“斯塔默這么努力地討好特朗普,但沒回報”
-
特朗普最新對朝表態(tài)
-
美媒竟來碰瓷:解放軍這次演訓(xùn),“是在考驗美國決心”
-
“一些政府打電話來問:中國已深耕十年,我們咋追?”
-
圍島集結(jié)、多向抵近!現(xiàn)場視頻來了
-
龍應(yīng)臺:賴清德錯了,留給臺灣的時間不多了
-
她又來:美歐相爭,中國得利
-
“說好的補貼不作數(shù)了,美商務(wù)部長還讓學(xué)學(xué)臺積電…”
-
美國學(xué)者開始“流亡”
-
美媒質(zhì)疑:這事真怪得著中國么?
-
“中國走在這場國際救援最前線,美國呢?”
-
“‘AI末日論’是美國的誤導(dǎo),我們的命運要自己把握”
-
特朗普:4月2日將是“解放日”
-
馬斯克5月底離任?特朗普:我會挽留他
-
“馮德萊恩罵我半小時,說我是白癡,就因為…”
-
“再不打錢,歐洲在這個領(lǐng)域也會輸給中國”
-