談到計算廣告,或者個性化推薦,甚至是一般的互聯網產品,無論是運營、產品還是技術,最受關注的指標就是點擊率。還有業內經常流傳的故事,某位科學家通過建立更好的點擊率預測模型,為公司帶來了數億的增量收入。為什么要用復雜的數學模型來描述點擊率這樣簡單直接的統計數據呢?這樣的模型是如何建立和評價的?北京網站設計公司推來客將在本期談到這個問題。那么什么是點擊率模型呢?
在計算機科學中,點擊模型(Click Model)是對用戶點擊行為的建模。基于用戶的歷史點擊信息,對用戶的興趣和行為進行建模,預測用戶未來的點擊行為,提高相關性。
在搜索引擎中,點擊模型是指對用戶的歷史點擊文檔進行建模,以預測文檔的相關性。
網頁SEO搜索排名傳統上是基于人為設計的排名函數,如BM25等。近年來,排序學習的引入大大降低了融合大量特征的復雜性。但是由于排序學習是有監督學習,需要大量的人工標注者對文檔進行標注,需要大量的人工成本。建站網頁的相關性會隨著網頁內容的更新而變化,尤其是時效性強的新聞網頁。使所有手動標記保持最新是不可行的。
用戶點擊日志記錄了用戶對搜索結果滿意度的重要信息,可以提供具有很高相關預測價值的信息。與人工標注相比,獲取點擊的成本更低,而且點擊始終反映最新的相關性。一、為什么要建立一個點擊率模型?
無論是人工操作還是機器決策,我們都希望對一個廣告或內容可能的點擊率有一個預測,從而判斷哪些項目應該放在更重要的位置。這件事看起來并不難。比如我有十篇內容,歷史顯示的點擊率都不一樣。那么我只需要根據歷史點擊率的統計數據來做決定就可以了。好像沒什么難度。
不過,雞蛋。直接統計歷史點擊率的方法雖然簡單易操作,但是會遇到一個非常棘手的問題。首先大家要樹立一個觀念:拋開地點、時間等一系列環境因素,點擊率的絕對高低意義不大。比如下面這個廣告,放在圖片的兩個位置,統計前者的點擊率為2%,后者的點擊率為1%。哪個廣告更好?其實我們無法得出任何結論。
于是,聰明運營想了個辦法,我干脆統計了不同位置的點擊率,然后分別排序。這個思路在原理上是無懈可擊的,相當于直接求解聯合分布;但其實用價值不高:大部分廣告或內容項的數據太小,例如100次展示。產生了一次點擊,難道這就是1%點擊率的結論嗎?
那能不能換個思路,找出一些影響點擊率的關鍵因素,分別統計這些因素呢?這其實已經產生了“特征”的建模思路。比如廣告位是一個因素,廣告本身是一個因素,用戶的性別是一個因素。從數據充分性的角度,對每個因素分別計算點擊率是可行的。但是這又產生了一個新的問題:我知道男性用戶的平均點擊率,廣告位S的平均點擊率,廣告A的平均點擊率,那么如何評價廣告A男性用戶在廣告位S 上看到的點擊率呢?直觀的方法是求上述三個點擊率的幾何平均數。但這里有一個隱含的假設:這三個因素是相互獨立的。但是,當有很多特征時,這種獨立性假設很難保證。
特征之間的獨立性往往對我們的結論有很大的影響。比如中國癌癥發病率上升是“中國”因素造成的?還是因為“平均壽命”的因素?顯然,這兩個因素有些相關,因此簡單的單獨統計往往是行不通的。
那么該怎么辦?這就需要統計學家和計算機科學家建立一個綜合考慮各種特征并根據歷史數據進行調整的點擊率模型。問題,它必須能夠在大量數據上自動訓練和優化。這就是點擊率模型的意義所在,它是互聯網+和大數據時代偉大、光榮、正確、重要的工作,具有重大的實用價值和戰略意義。那人說,有必要抬那么高嗎?當然有必要!因為我對這門手藝也是粗略的了解,所以不知如何是好。二、怎樣建立一個點擊率模型?
這個問題比較簡單,就不展開討論了。 (想罵人的讀者請保持冷靜,繼續往下看。)三、如何評估一個點擊率模型?
評估點擊率模型的好壞,有各種定性的或定量的、線上的或線下的方法。但是不論什么樣的評測方法,其本質都是一樣,就是要看這個模型區別被點擊的展示與沒被點擊的展示之間的區別。當然,如果能找到一個離線可以計算的量化指標,是再好不過了。
這樣的指標是有一個,就是如下圖所示的ROC曲線下的面積,術語上稱為AUC。(關于ROC和AUC的詳細介紹,請大家參考《計算廣告》第*章。)AUC這個數值越大,對應的模型區別能力就越強。

好了,為了讓大家深入理解點擊率模型評測的關鍵,我們要談到一個常見的口水仗:有一天,有兩位工程師在閑談,一位叫小優,一位叫小度。他們分別負責某視頻網站和某網盟廣告的點擊率建模。小優說:最近可把我忙壞了,上線了個全新的點擊率模型,把AUC從0.62提高到0.67,效果真不錯!哪知道小度聽了哈哈大笑:這數據你也好意思拿出來說,我們的AUC早就到0.9以上了!
那么,是不是小度的模型比小優真的好那么多呢?當然不是,我們看看該視頻網站和網盟的廣告位分布,就一目了然了。

什么?你還沒有明白,那么我建議你自己好好把這個問題想清楚。不論你是運營還是產品,經過了這樣的思考,你的數據解讀能力會上一個臺階。
好了,三個關鍵點說完了,我知道有的讀者還會對第二點表示沒看懂,那干脆我們就再多說一點兒,將2015年11月15日王超在計算廣告讀者微信群里所做的題為“點擊率預估趨勢淺析”的分享內容整理發布在下面。沒有堅持到這里就把文章關掉的碼農們,讓他們后悔一輩子去吧!
今天分享一下點擊率預估近年來的一些趨勢。主要結合劉鵬老師的一些指導,以及自身工作的一些經驗,有偏頗的地方請大家多多指正。
在計算廣告第一版的書里,主要講到了經典的點擊率預估模型邏輯回歸,特征工程,模型的評估等,相信對大多數場景來說這一步是必做的基線版本。后續可以在此基礎上做一些更細致的特征工程和模型工作。考慮到群里的朋友都已經拿到了這本書,今天先跳過書里覆蓋的內容,講一些目前書里沒有提及的部分。如果對書里內容還不夠了解的朋友,建議第一步還是把書中基礎性的內容仔細掌握。
我們專注高端建站,小程序開發、軟件系統定制開發、BUG修復、物聯網開發、各類API接口對接開發等。十余年開發經驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!