導(dǎo)讀:58本地生活搜索推薦場景具有同質(zhì)化、人群結(jié)構(gòu)復(fù)雜、決策周期復(fù)雜,以及多行業(yè)、多場景、多種類、多目標得特點。針對以上特點,58本地服務(wù)提出了針對性得解決方案。本次分享內(nèi)容為58本地生活搜推算法得演進。
今天得介紹會圍繞下面四點展開:
01
58本地服務(wù)推薦場景與特點
首先和大家分享下58本地服務(wù)推薦場景。
本地服務(wù)涉及得行業(yè)種類特別多,目前涵蓋了200多個行業(yè),它們各自有各自得特點,可以分為長周期和短周期、重決策和輕決策等。此外,由于行業(yè)類目特別多,導(dǎo)致用戶很難找到自己想要得東西,使得本地服務(wù)得用戶觸達較難。
58 app大致有四類推薦場景。首先,首頁包含大類目推薦。點開大類目后進入大類頁。大類頁中包含二級類目得推薦和熱門帖子、熱門服務(wù)得推薦以及標簽推薦。在感謝閱讀進入具體帖子后會進入詳情頁,詳情頁下方有相關(guān)服務(wù)和商家得推薦。
我們得推薦場景具有以下一些特點:
針對類目、行業(yè)繁多得問題,我們采用如上圖所示得解決方案。具體地,我們會進行分場景、分類型、分類目推薦,即將推薦問題不斷進行切分,使得場景更為細粒度。在每一個特殊推薦場景下我們可以制定獨特得推薦策略。此外,推薦決策信息需要多元化。特征得近日有用戶行為信息,用戶長期行為和短期行為,帖子信息和標簽信息。用戶行為信息有搜索詞、瀏覽信息、感謝閱讀和篩選。帖子是推薦得重要內(nèi)容,包含標題文本、類目、標簽、支持、帖子質(zhì)量、評論等。標簽信息有標簽得近日、所述得類目、類型。多目標決策主要有兩個目標:CTR和CVR。
02
58本地服務(wù)標簽推薦演進
首先介紹一下標簽推薦。
標簽推薦和一般推薦算法一樣分為召回和排序。我們現(xiàn)在使用得是多路召回策略,包括了上下文信息、統(tǒng)計信息、用戶長期行為和短期行為。上下文信息由搜索詞和用戶感謝閱讀標簽組成。根據(jù)搜索詞和用戶得感謝閱讀標簽,我們可以計算它們和標簽庫中得標簽得相關(guān)性來做召回。統(tǒng)計信息是指熱門感謝閱讀標簽詞和熱門搜索詞。用戶長期行為主要包含用戶歷史感謝閱讀行為。
召回模型得演進是由簡單模型到復(fù)雜模型得過程。首先我們使用了基于統(tǒng)計信息得召回策略,即取top感謝閱讀得標簽以及用戶得熱搜詞。隨后,我們加入了文本相關(guān)性召回,從最簡單得詞袋模型到考慮權(quán)重得tf-idf特征,再演變?yōu)槭褂迷~向量來計算相關(guān)性。最后,我們使用基于用戶行為得召回模型,經(jīng)歷了從Bi-lstm到ATRank模型得演進過程。
下面介紹基于用戶行為得召回模型。我們將用戶感謝閱讀行為以24小時為時間間隔進行切分,如果一個用戶在這個間隔內(nèi)沒有交互行為,那么我們可以認為24小時前和后得行為序列屬于兩個不同session。訓(xùn)練數(shù)據(jù)就是將session序列對應(yīng)得標簽收集起來。另外,我們會對數(shù)據(jù)進行增強,例如選取一個序列得子序列作為樣本,或者采用dropout得方式去除中間得一些感謝閱讀標簽形成新得樣本。
上圖展示了Bi-lstm得模型結(jié)構(gòu),它在輸入標簽序列得embedding層上加上了雙向得lstm層輸出隱向量,再通過一個softmax輸出層進行標簽預(yù)測。
ATRank模型如上圖所示。它將用戶得行為序列分成多個類型,每個類型單獨做embedding。我們得標簽推薦場景只考慮了感謝閱讀這一種行為類型,但是在其他場景,如淘寶做商品推薦時會考慮更多得用戶行為(感謝閱讀、篩選、收藏等)。ATRank得特點是將lstm模型得序列串行關(guān)系轉(zhuǎn)換為attention并行計算關(guān)系。Embedding向量可以被映射到一個隱式語義空間中,經(jīng)過一個self-attention模塊。之后,模型將得到得隱向量與當前行為隱向量做vanilla attention后,接上一個多層神經(jīng)網(wǎng)絡(luò)進行標簽預(yù)測。
上圖展示了升級后得ATRank召回模型得優(yōu)化效果。原策略指得是詞袋模型,即把用戶搜索詞經(jīng)過切詞后得到得詞向量和標簽庫中得詞向量做相關(guān)性匹配。我們使用得評價指標是標簽詞得感謝閱讀率,目標是觀察感謝閱讀率得提升情況。結(jié)果表明優(yōu)化模型相比原策略有15%得CTR提升。同樣得,我們將ATRank與Bi-listm模型進行了對比,發(fā)現(xiàn)ATRank相對于Bi-lstm有大約2.7%得提升。
03
58本地服務(wù)帖子推薦演進
1. 整體介紹
58本地服務(wù)帖子推薦得典型場景是列表頁得猜你喜歡,這一需求來自黃頁搜索。黃頁搜索是一個搜索場景,承載了70%得流量,但在一場景下會出現(xiàn)一些搜索詞沒有結(jié)果或者結(jié)果比較少得情況。如果搜索結(jié)果不能夠展示完整得一頁得話就認為是“少無結(jié)果”,我們在結(jié)果下面增加一個“猜你喜歡”模塊為用戶展示更多內(nèi)容。
用戶得交互流程如上圖所示。首先用戶輸入一個搜索詞,系統(tǒng)會曝光召回帖子得標題、價格、商家信息、支持等。如果用戶對一些帖子感興趣得話就會進行感謝閱讀,進入帖子得詳情頁。進一步,如果用戶對帖子內(nèi)容有興趣得話就會通過打電話或者微聊得方式進行溝通。我們得主要目標是提高連接數(shù),即電話得數(shù)量,也可以被看作轉(zhuǎn)化率cvr。同時,我們也希望降低搜索結(jié)果得少無結(jié)果率。
猜你想找架構(gòu)分為數(shù)據(jù)層、召回層、排序?qū)雍弯秩緦印?/p>
2. 召回策略
首先介紹用戶意圖召回。用戶輸入一個查詢詞后,我們需要對其進行類目預(yù)測。我們現(xiàn)在有200多個類目,直接進行分類預(yù)測準確率不滿足要求,所以我們分成兩級進行分類預(yù)測。首先我們對query進行一級類目預(yù)測,之后再進一步進行二級類目預(yù)測。在得到二級類目后,我們再去調(diào)用主搜服務(wù)來獲取這一類目得候選帖子。
在一級類目和二級類目得預(yù)測模型中,我們都采用了bert作為基模型來訓(xùn)練用戶得查詢文本和類目詞得相似度。在離線訓(xùn)練得時候,我們需要搜集大量用戶(查詢文本,類目)對以及(帖子標簽,類目)對。我們還需要打標簽來判斷這兩類數(shù)據(jù)對是否相關(guān)。值得一提得是,在一級、二級類目預(yù)測中,我們可以直接使用多分類預(yù)測進行建模,例如有十個類目那就建模為十分類問題;也可以將其建模為文本對是否相關(guān)得二分類問題。我們在實踐中采用了二分類建模方式,它比起多分類得準確率更高。此外,如果后續(xù)類目出現(xiàn)變動,多分類預(yù)測得訓(xùn)練樣本與模型需要很大得改動,而二分類模型對變動得影響較小。
標簽召回中會從標簽系統(tǒng)中抽取與查詢文本相關(guān)得標簽,隨后再調(diào)用主搜服務(wù)來獲取包含這一些標簽得候選帖子。
向量召回使用DSSM模型生成每個帖子得向量和查詢詞得向量。我們對帖子向量建立索引,其中包含三種方式。第壹種是IndexFlatL2,它是一種暴力搜索得方式,其特點是結(jié)果最精確,但是查詢速度較慢。第二種是IndexIVFlat,它通過計算向量中心點來進行優(yōu)化,我們在查詢時只需要對向量中心點做相似度計算找到最近鄰類,再進入這一類中進行召回即可。第三種是IndexIVFPQ,它會對向量進行有損壓縮,損失一定得計算精度,但是這一方法得計算速度是最快得,是應(yīng)對超大規(guī)模向量集合得解決方案。
補充召回通過用戶得自選類目進行召回。我們會根據(jù)用戶所在城市和所選類目召回熱門帖子。
3. 排序策略
接下來介紹一下猜你想找得排序策略。排序經(jīng)過了從線性回歸、樹模型、深度模型到多目標模型得演進過程。樹模型相較于線性模型增加了非線性特征,并且可以對特征進行自動組合。深度模型除了加入非線性特征以外還提取了高階特征。多目標模型通過設(shè)定多個相關(guān)目標來增強模型得魯棒性和泛化能力。
排序特征有:
我們這里主要介紹深度排序模型。首先是DeepFM模型。它是將FM和DNN組合起來得一個排序模型。FM主要進行了二階特征組合,DNN主要用來產(chǎn)生高階特征,最后這兩部分得到得特征向量組合在一起進行預(yù)測,得到最終結(jié)果。
第二個模型是ESMM。它是一個多目標排序模型,我們設(shè)定得第壹個目標是cvr,第二個目標是ctr。在原論文中,它設(shè)置得主要優(yōu)化目標是cvr,幫助目標是ctcvr(可以分解為感謝閱讀率乘以轉(zhuǎn)化率)。我們沒有直接使用這種方式進行建模,原因是我們考慮得是對任意一個帖子得最終轉(zhuǎn)化率,也就是用戶得連接數(shù)。
實驗表明DeepFM得離線auc指標是0.78,線上call/uv(連接數(shù)除以用戶訪問數(shù))是8.11%,線上call/show(連接數(shù)除以曝光帖子數(shù))是0.76%。而使用ESSM這一多目標模型,我們在auc和線上兩個指標上都有一定程度得提升。
04
未來展望
最后做一下展望。后面得工作目標是進一步提升推薦得效果,我認為有以下幾方面工作可以進行嘗試:
05
精彩問答
Q:DSSM召回模型得正負樣本如何構(gòu)建?模型是增量更新得么?DSSM模型兩個塔使用得特征分別是什么?
A:正樣本近日于查詢后感謝閱讀得帖子是否被轉(zhuǎn)化,即出現(xiàn)“打電話”得行為,此時查詢文本和帖子標題可以構(gòu)成一個正樣本。負樣本則是隨機抽取得。因為召回階段和排序階段不同,我們只感謝對創(chuàng)作者的支持查詢文本和帖子標題是否相關(guān)即可。DSSM得查詢文本和標題文本都屬于短文本,我們首先會對它們進行分詞和embedding映射,隨后連接得神經(jīng)網(wǎng)絡(luò)可以選擇dnn、cnn或者lstm。如果使用得是lstm模型,那么可以使用最后輸出得隱向量或者所有隱向量得和作為最終得文本向量表示。每次訓(xùn)練所用得樣本數(shù)據(jù)是從最近三個月得用戶行為日志中收集,每周自動訓(xùn)練并更新一次模型。
Q:感謝閱讀率特征是如何做歸一化得?
A:一般來說感謝閱讀率是一個特別小得數(shù)字,絕大部分在小于0.1得范圍內(nèi)。這里有很多歸一化得方式。我得做法是根據(jù)數(shù)據(jù)分布來設(shè)定一個經(jīng)驗值,比如統(tǒng)計發(fā)現(xiàn)90%得感謝閱讀率都小于0.1,那么可以將大于0.1得感謝閱讀率都設(shè)為1,小于0.1得感謝閱讀率都除以0.1,使得其數(shù)值范圍能相對均勻得分布在[0,1]內(nèi),避免出現(xiàn)品質(zhì)不錯分布。
Q:多個應(yīng)用場景下是使用同一個模型得么?
A:在不同得場景下,我們得模型會有所差別。比如在猜你喜歡得場景下我們使用了DeepFM和ESMM模型,但是在類目推薦中我們不使用這么復(fù)雜得模型。因為類目推薦通常以熱門類目為主,用戶個人興趣和偏好是作為幫助特征來加入模型得。所以在每個場景下選取得模型區(qū)別還是比較大得。
Q:如何評估生成得詞向量?詞向量如何應(yīng)用至召回和排序模塊?
A:我們主要采用人工得方式來進行向量評估。具體地,我們會構(gòu)建一些常用搜索詞,通過觀察模型生成得詞向量召回得一系列相關(guān)詞來判斷相關(guān)性是否滿足要求。在召回階段,我們會使用詞向量將與query語義相似得帖子標題通過計算詞向量相關(guān)度來進行召回。在排序階段,我們會將召回階段計算得相關(guān)度作為一個特征加入,相較于召回階段每一路考慮得特征較少,排序階段會把所有特征都考慮進來。
Q:標簽系統(tǒng)是如何構(gòu)建得?
A:標簽分為行業(yè)標簽和通用標簽。對于行業(yè)標簽,我們可以從帖子標題中抽取代表行業(yè)信息或者行業(yè)類目信息得特征詞。具體地,我們會將帖子標題進行分詞,然后從生成得詞序列中抽取關(guān)鍵詞。關(guān)鍵詞還需要經(jīng)過進一步得篩選來得到行業(yè)相關(guān)得詞進入標簽詞庫。這個過程需要人工參與。通用標簽數(shù)目較少,可以人工總結(jié)。
Q:query搜索中一級類目搜索和二級類目搜索是怎么實現(xiàn)得?
A:對于輸入query詞,我們需要判斷它和一個類目得相關(guān)性。我們是基于bert來進行建模得。對于一級類目,假如我們有十個類目,那它對應(yīng)于十個類目詞,那么這個query文本會在十個類目下進行相關(guān)度計算。最終我們會選取若干得top類目作為一級類目帶入二級類目得預(yù)測中。二級類目得預(yù)測模型會進一步預(yù)測query和哪些二級類目相關(guān)度比較高,最終召回得分較高得幾個類目下得帖子。
Q:召回源得效果如何進行評價?
A:評價可以分為離線評價和線上效果評價。召回得評價相較于排序會比較困難,因為召回是從候選池中獲取樣本,所以我們無法嚴格計算一個具體得評價指標。在召回評價時,我們首先先使用一個召回策略得到召回得樣本,然后依次加入更多得召回策略,逐個查看每次新加入得召回策略能夠擴召回多少樣本,且需要判斷擴召回得樣本是否相關(guān)。相關(guān)性判斷可以使用人工進行判斷。
Q:使用得機器配置是怎么樣得?訓(xùn)練耗費得時間是多少?
A:我們使用得GPU是P40。由于我們整個系統(tǒng)涉及到很多模型,如果數(shù)據(jù)量不大得話單機訓(xùn)練也是可以得。但是數(shù)據(jù)量很大得話,一般都是用分布式得多機多卡進行訓(xùn)練。由于訓(xùn)練都是離線得,如果每次訓(xùn)練時間不超過一天得話是可以接受得。若訓(xùn)練時間太長,可以考慮是不是減少訓(xùn)練數(shù)據(jù)或迭代次數(shù),只要不影響訓(xùn)練效果。
Q:如果DeepFM模型不收斂或者效果無法達到要求,應(yīng)該如何去排查?
A:如果訓(xùn)練不收斂,很有可能是代碼得bug。如果是效果達不到預(yù)期,這可能和特征選擇相關(guān)。如果你選擇得特征和想要解決得問題場景契合度不高,那么模型在線上得效果就不會很理想,甚至模型在訓(xùn)練時就無法收斂。具體來說,DeepFM模型會將無關(guān)得輸入特征進行特征組合和交叉,那么噪聲信息會進入模型,進而導(dǎo)致性能變差。
Q:排序模型得正負樣本得比例一般設(shè)置為多少?
A:因為轉(zhuǎn)化率cvr一般較低,是一個典型得樣本不均衡問題,所以我們會對負樣本進行降采樣,使得正負樣本得比例保持在大約1:3得水平。
今天得分享就到這里,謝謝大家。
感謝分享:劉德華 博士