說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實(shí)時把握輿情動態(tài)精準(zhǔn)追溯信息源頭
相關(guān)搜索,想必大家都不會陌生,尤其是對seo、PM乃至各位文案編輯妹子來說,從中皆可以看到蠻多的有價值的訊息。
只是,你知道給定的用戶查詢,搜索引擎是怎么計(jì)算出相關(guān)搜索的嗎?
一般來說,有兩種方法:
1、基于查詢會話的方法
大家都知道,搜索引擎會統(tǒng)計(jì)分析用戶的搜索行為,將此轉(zhuǎn)化為查詢會話。然后通過各種數(shù)據(jù)挖掘算法來對查詢會話進(jìn)行統(tǒng)計(jì)處理,如果一個查詢詞a和查詢詞b經(jīng)常一起出現(xiàn),那么自然,我們可以認(rèn)為兩者是相互關(guān)聯(lián)且值得推薦的。
當(dāng)然,這樣做也會有兩個很明顯的問題暴漏了出來,用戶的一次連續(xù)的查詢可能不是針對的同一個主題,這樣,在對用戶的兩次查詢進(jìn)行拆分時,很難精準(zhǔn)的進(jìn)行切割。同時,該方法是以單個用戶的查詢會話作為基礎(chǔ)來統(tǒng)計(jì)的,所以在對數(shù)據(jù)進(jìn)行挖掘時不能體現(xiàn)不同用戶查詢之間的關(guān)聯(lián)。
2、基于點(diǎn)擊圖的方法
當(dāng)然,在用戶的搜索日志中,除了簡單的查詢之外,還有對站點(diǎn)的點(diǎn)擊數(shù)據(jù)。如果能將此利用起來,也不失為一種很好的查詢相關(guān)搜索的方法。
一個簡單的邏輯為:
用戶查詢了關(guān)鍵詞p,然后點(diǎn)擊了網(wǎng)址D1和D2分別6次和8次,那么此時我們可以針對p建立起一個向量[0,6,8,0],針對另一個查詢詞q同樣可以建立起對應(yīng)的向量。
OK,這再次回到了根據(jù)空間向量計(jì)算相似度的模型中。既定相似度大于某個值,則這兩種搜索即為相關(guān)。
當(dāng)然,如果需要做的嚴(yán)謹(jǐn)一些,需要將被點(diǎn)擊的內(nèi)容之間的相似度計(jì)算考慮在內(nèi)。因?yàn)椴煌逆溄拥刂穼?yīng)相同或相似內(nèi)容的現(xiàn)象在搜索引擎中屢見不鮮。
額,細(xì)心的盆友們也發(fā)現(xiàn)了,這個計(jì)算量,還是蠻驚人的……
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732