...

不要迷信算法,會(huì)變得無趣

2021-12-03

圖片來源@視覺中國(guó)

圖片來源@視覺中國(guó)

文|科技複聯汪,作者牧遙

在互聯網世界,近年來彌漫著(zhe)一股“算法迷信”的風氣,并且有愈演愈烈之勢。

以字節跳動的快速崛起(qǐ)爲起(qǐ)點,尤其是大家提到抖音時(shí),會(huì)理所當然地認爲他們的秘密武器是存儲在服務器裡(lǐ)那一行行神秘的代碼。

這(zhè)種(zhǒng)迷信在去年 TikTok 的強制賣身風波中體現得淋漓盡緻。當談判陷入僵局,有相當一部分競購方認爲如果出售業務不帶有算法,那麼(me)毫無意義。

《華爾街日報》援引自消息人員的說(shuō)法是,沒(méi)有算法的 TikTok 就(jiù)如同用著(zhe)廉價引擎的豪車。

但事(shì)實上,字節内部關于機器學(xué)習推薦算法并未取得多少外界未知的突破性進(jìn)展。

雖然抖音并未在國(guó)内公布他們的算法是如何工作的,但爲了自證清白,TikTok 不僅向(xiàng)當地的監管機構和外部隐私專家開(kāi)放了查看代碼的權利,還(hái)在洛杉矶建立了一個存放著(zhe)所有數據流和代碼的透明度及問責中心。

可我們至今都(dōu)沒(méi)有找到任何關于個性化推薦算法函數本身的颠覆性創意,美國(guó)市場上也沒(méi)有出現新的相關産品。那麼(me),APP 工廠的真正優勢,到底在哪裡(lǐ)?

01 字節系爆款真正的閃光點,在算法友好(hǎo)型的 UI 設計上

過(guò)去二十年,科技産品的 UI 設計始終圍繞著(zhe)如何消除用戶與他們的需求之間的摩擦。

在這(zhè)個網絡效應爆發(fā)式增長(cháng)的時(shí)代,誰能(néng)設計出比競争對(duì)手更好(hǎo)地滿足用戶需求的産品和服務,誰就(jiù)能(néng)成(chéng)爲利用聚合理論獲得大量用戶群的科技巨頭。

這(zhè)是一種(zhǒng)寫在字裡(lǐ)行間的以用戶爲中心。

拔地而起(qǐ)的科技公司,迅速過(guò)載的膨脹信息,讓我們爲用戶提供最好(hǎo)服務的關鍵,從洞察人們某種(zhǒng)未被發(fā)掘的需求變成(chéng)了利用機器學(xué)習算法實現對(duì)海量數據的篩選與過(guò)濾。

首先明确一個前提:ML 算法的訓練需要大量的數據集,任何一個 Google 或 Facebook 的算法專家都(dōu)沒(méi)辦法獨自訓練出一個高質量的推薦算法。

這(zhè)是否意味著(zhe)所有全新垂類的 APP 都(dōu)會(huì)被打上大廠的标簽?

大概率是這(zhè)樣,但不全是。

自 1998 年亞馬遜推出基于項目的協同過(guò)濾算法以來,它被改編和應用到了大部分網頁上,比如向(xiàng)人們推薦視頻或新聞的算法,以及各式各樣的互聯網廣告。

但作爲個性化推薦的商業鼻祖,亞馬遜隻有 30% 的網頁浏覽量來自推薦系統,搜索結果頁面(miàn)目前仍是用戶下單的最主要路徑。

在這(zhè)個推薦引擎中,系統正常運轉的前提是用戶過(guò)往的購買記錄、在商店浏覽過(guò)的商品、已經(jīng)添加到購物車裡(lǐ)的商品,以及一些以後(hòu)可能(néng)會(huì)訂購的商品。

所有的一切都(dōu)是基于用戶的搜索行爲。所以時(shí)至今日,我們依然會(huì)面(miàn)臨在淘寶上搜索一次“花架”就(jiù)一直被推薦花架的囚徒困境,而不是轉而詢問你需不需要一盆花。

可以明顯地感覺到,這(zhè)類算法永遠都(dōu)處于“猜你喜歡”的狀态。因爲當屏幕上同時(shí)展示多個項目時(shí),它無法分辨出你的眼睛所注視的到底是哪個區域。就(jiù)算能(néng)看到,因爲沒(méi)有 upvote/downvote 的反饋設置,它也不可能(néng)知道(dào)這(zhè)種(zhǒng)關注是正面(miàn)的還(hái)是負面(miàn)的。

一言以蔽之,算法對(duì)用戶情緒的判斷并不清晰。

然後(hòu)我們再來看抖音的界面(miàn)。

從視頻開(kāi)始播放的那一刻起(qǐ),APP 的 UI 設計會(huì)促使用戶立即開(kāi)始思考一個問題:你怎麼(me)看待眼前的這(zhè)個視頻?

  • 1. 你會(huì)在視頻還(hái)沒(méi)播放完的時(shí)候就(jiù)下滑進(jìn)入下一個視頻嗎?是的話就(jiù)隐含表示你對(duì)它不感興趣。

  • 2. 你看完了它,還(hái)給視頻漫不經(jīng)心地點了個贊?

  • 3. 你在這(zhè)個視頻中停留了一陣子,甚至讓它循環播放了好(hǎo)幾次?

  • 4. 你通過(guò)内置的分享面(miàn)闆把這(zhè)段視頻分享給别人了嗎?

  • 5. 你是否點擊了右下角旋轉的 LP 圖标,看了更多使用同款背景音樂的視頻?

  • 6. 你打開(kāi)視頻制作者的個人界面(miàn)頁面(miàn)了嗎? 是否觀看了他其他的視頻?之後(hòu)你關注這(zhè)個人了嗎? 是的話,說(shuō)明你除了喜歡這(zhè)個視頻之外,也許還(hái)特别喜歡這(zhè)類人。

但這(zhè)些都(dōu)不屬于硬核的技術突破,而是來自 UI 方面(miàn)的巧妙構思。

這(zhè)種(zhǒng)設計最大的特點,就(jiù)是幫助用戶像算法一樣看東西。

所以抖音的算法比其他短視頻 APP 學(xué)得更快。這(zhè)一點非常重要,要知道(dào),即使算法本身同幾年前并沒(méi)有有太大差别,僅僅是在更大的數據集上進(jìn)行訓練,就(jiù)足以讓 OpenAI 開(kāi)發(fā)出 GPT-3 這(zhè)樣的模型。

在抖音之前,絕大部分短視頻 App 都(dōu)采用了微博式的界面(miàn),照搬圖文信息流的展示方式,以縮略圖的形式顯示視頻,再加上幾個關鍵詞标簽或一段描述。

這(zhè)種(zhǒng)信息展示的方式曆史悠久,适用面(miàn)很廣,但是對(duì)算法來說(shuō)并不友好(hǎo)。

至于抖音設計巧思的來源,如果你恰巧使用過(guò)他們早期的版本,就(jiù)會(huì)發(fā)現其界面(miàn)、内容、調性與 Musical.ly 如出一轍。

據說(shuō)張一鳴很早就(jiù)洽談過(guò)收購 musical.ly,後(hòu)來未果才回國(guó)做了抖音。完成(chéng)反向(xiàng)收購之後(hòu),字節的後(hòu)端算法插入 Musical.ly(現在的 TikTok)的效果是顯著的,用戶時(shí)長(cháng)很快就(jiù)增長(cháng)了一倍以上。

02 算法推薦是重要的,但它并非全部

信息展現方式一直是互聯網産品裡(lǐ)最基礎的部分,也是争議最大的部分。

隻是在技術至上的論調下被忽略了。

最常見的信息展現方式有瀑布流,以及全屏。它們之間的區别在于一屏裡(lǐ)放多少内容合适。

按照張小龍在微信公開(kāi)課上的說(shuō)法,一屏裡(lǐ)的内容條數,跟命中率成(chéng)反比。所以視頻号上線後(hòu)的前半年,采用半屏式的信息流展現方式。後(hòu)來在灰度半屏和全屏的用戶時(shí),關注 tab 的用戶因爲内容命中率不夠高,全屏後(hòu)反而帶來了後(hòu)台清晰可見的選擇困難。

這(zhè)是内容池深度的問題,與推薦算法的調教無關。

這(zhè)裡(lǐ)普及一個技術方面(miàn)的常識:當底層召回内容數據不足時(shí),算法會(huì)從候選隊列中進(jìn)行降級召回。

即本來算法覺得用戶可能(néng)會(huì)喜歡内容A,但整個内容候選集中都(dōu)沒(méi)有A的存在,隻能(néng)遞補與A相近的B。

如果連B都(dōu)沒(méi)有時(shí),算法會(huì)進(jìn)一步做降級召回處理,或是直接按照熱度排序補充全局熱門的内容給用戶。

從而帶來持續的惡性循環——被污染了的算法模型,會(huì)始終局限在某個範圍内尋求帕累托次優解。

出于這(zhè)樣的理由,我更願意相信視頻号的全屏是出于内容積累到達某個臨界點後(hòu)開(kāi)始進(jìn)入調教算法的階段,而非所謂的對(duì)抖音的妥協。包括快手的精選 tab,也是同樣的道(dào)理。

人們永遠可以争論社交網絡是由什麼(me)組成(chéng)的,但需要明确的一個前提是,大多數社交網絡都(dōu)采用一種(zhǒng)漸進(jìn)的方式來擴大規模。

鼓勵用戶與其他人互關,一次建立一個聯系。爲工具而來,爲關系而留,這(zhè)樣做唯一的問題就(jiù)是速度太慢,而互聯網恰好(hǎo)是一個崇拜速度的地方。

隻需要搜幾個關鍵詞,無需關注或與任何人成(chéng)爲好(hǎo)友,抖音就(jiù)可以快速了解一個人的喜好(hǎo)。

我們姑且把它命名爲一個圍繞興趣建立的娛樂網絡。現階段,它是一個快速、高效的傳播媒介,因爲這(zhè)個網絡不由關系連接,所以抖音博主的流量永遠不可能(néng)屬于個體。

很多人認爲抖音商業化走在前面(miàn)是因爲廣告算法好(hǎo),但實際上抖音對(duì)遊戲廣告主的包容程度才是隐藏不言的奧秘,他們允許以單個付費用戶爲單位結算,甚至可以約定“若用戶流失則退款”。

然而想靠這(zhè)個設計留住用戶和增長(cháng)并不現實(字節國(guó)内的廣告收入趨于停滞已經(jīng)證明了這(zhè)件事(shì))。中文互聯網的殘酷之處在于,任何 UI 設計都(dōu)可以在一夜之間被同類産品模仿和複制,隻要它被證明是有用的。

在這(zhè)個機器學(xué)習占據主流的時(shí)代,全屏的設計就(jiù)是爲了幫助算法更快地去“看”這(zhè)個世界。

但這(zhè)并不意味著(zhe)算法是萬能(néng)的。因爲直到今天,字節都(dōu)沒(méi)有辦法大規模地侵入長(cháng)視頻領域,即使張一鳴的戰略 PPT 上明明白白地寫著(zhe)“隻要在信息分發(fā)領域,字節都(dōu)要用算法來重新做一遍。”

即使抖音的 UI 設計讓他們的算法叠代更快,也不可能(néng)做到篩選出人們行爲信息中的所有“噪聲”。有時(shí),人們希望算法再“聰明”一些,更理解自己;有時(shí),人們并不願意重複看那些自己感興趣的内容,也想了解一點公共熱點;還(hái)有的時(shí)候,人們會(huì)想培養一些新的潛在興趣。

事(shì)實上,那些乏味重複、引起(qǐ)用戶輕微不快的内容才是産品的慢性殺手。如今,這(zhè)些負面(miàn)情緒正在抖音的 APP 裡(lǐ)緩慢發(fā)酵。

算法今天不是,未來也不可能(néng)是萬能(néng)的。

舉一個最直觀的例子,不管是我們自己的優愛騰,還(hái)是海外那個算法驅動的 Netflix,内容消費都(dōu)是以運營陣地和導航搜索爲第一生産力的。

因爲決疑成(chéng)本的巨大差異,長(cháng)視頻至今還(hái)保持著(zhe)傳統貨架式的消費方式:

最新最熱的内容放在首頁曝光度最高的輪播欄;用戶依賴類目導航去查找想要的内容,比如按照類型、地區、上映時(shí)間和評分來選擇電影;還(hái)有很大一部分消費來自于搜索對(duì)應的站外決策。

比如在微博種(zhǒng)草了某部電視劇,根據豆瓣評分來選擇觀看的電影,以及最近身邊的朋友們常常聊起(qǐ)的綜藝。
毫無疑問,算法在長(cháng)視頻領域依然沒(méi)有占據主導地位。

03 結語

當個性化推薦在某些領域大殺四方之時(shí),我們總會(huì)不由自主地假設它占據我們全部信息場景的畫面(miàn);然而,現實卻是一個人在日常生活中接觸信息的渠道(dào),遠比他自己想象得要更加豐富。

假設一個初級電影愛好(hǎo)者想在周末看一部電影,會(huì)有幾種(zhǒng)可能(néng)?

他可能(néng)直接打開(kāi)搜索框,搜索自己喜歡的演員或導演,看看他們還(hái)有哪些自己沒(méi)看過(guò)的作品;也可能(néng)打開(kāi)豆瓣,刷一刷有沒(méi)有自己感興趣的電影;當然,如果他有一個朋友恰好(hǎo)是發(fā)燒級的影迷,他可以直接請對(duì)方推薦幾部。

事(shì)實上,推薦、搜索和社交是滿足人們不同需求的互補類工具,它們之間并沒(méi)有明确的替代關系。

算法與編輯、社交并不對(duì)立,也不存在唯一的最優選。就(jiù)像微信的算法,一定有克服「社交情景崩潰」的成(chéng)分,而今日頭條的内容審核,也聘請了大量的人工編輯。

當我們站在科技與人文的交彙點去看這(zhè)個世界,會(huì)發(fā)現每一種(zhǒng)新技術都(dōu)既是包袱又是恩賜,它永遠不會(huì)是非此即彼的結果,反倒比我們預想中的要更加複雜與深刻。

《楚門的世界》裡(lǐ),創造者對(duì)楚門說(shuō):“外面(miàn)的世界跟我給你的世界一樣的虛假,有一樣的謊言,一樣的欺詐。但在我的世界你什麼(me)也不用怕,我比你更清楚你自己。”

楚門卻說(shuō):“You never had a camera in my head!” 

盡管楚門的世界是假的,但楚門是真實的。所有計算好(hǎo)的下一刻,都(dōu)是行雲流水般的此世光陰。

【參考資料】

[1].取消算法推薦,是技術上的倒退嗎?騰訊研究院,2021 年
[2].Seeing Like an Algorithm,Eugene Wei,2020 年
[3].算法知識彙總:構成(chéng)/學(xué)派/算法,潘一鳴,2019 年
[4].推薦算法的“前世今生”,紙皮小火車,2019 年


來源:钛媒體