如何識別虛假流量(一)

2003年,國內網路廣告迎來了產業的第一波紅利期,越來越多的廣告主選擇在線上投放廣告。無視尺寸,時段,價格甚至是媒體環境,近似顛狂。然而彼時不加限制網路環境與野蠻的投放機制帶來的卻是廣告主資金的大量的浪費。

十幾年後的今天,僅2016年第二季度,中國網路廣告市場的規模就已達到671.6億元(人民幣),環比增長率高達27.2%,而與去年同期相比,提升近34.5%(數據來源:艾瑞)。巨大的產業增速讓我們看到了網路廣告持久的生命活力與無法比擬的行銷地位。

但是,另一組數字我們同樣無法忽視,快銷品產業僅2016年第一季度,線上投放的異常流量佔比臨近11%的產業基準閾值,堪比一場產業災難。而作為網路廣告投放的龍頭,汽車業廣告主由於異常流量而造成的廣告費直接損失佔比約為6.8%,(數據來源:Google Analytics 360 & DCM 產業基準參考)。進一步產業細分分析,我們驚訝的發現,早年間我們時常提及的那句“一半廣告費被浪費”的經典語錄早已不再適用,事實上,在流量倒逼流量主的大環境下,真正可視的有效廣告流量很可能只佔不到三成。

好在異常流量並非無跡可尋,依據對工具的熟稔應用以及監測執行經驗,我們可以用系統的思路對疑似流量進行綜合維度的排查,進而來淨化網路投放環境。下面我以觸脈DC事業部經手的真實案例,為大家做詳細梳理。

doubleclick

2016年6月份,觸脈DC團隊在執行常規線上數據日常檢查中發現,有一家媒體存在明顯的數據異常,進而我們根據排查流程,對該媒體流量做出如下排查處理:

•尋找歷史合理依據:由於該媒體是當時廣告主campaign合作的初投媒體,所以在正式投放前期觸脈與該媒體進行了測試,測試時數據最大GAP在16%左右,並雙方技術同事均表示認可。這說明,該媒體能夠正常兼容DCM的代碼並收數,因此結合日常代碼觸發情況檢查的結果,我們認為系統層面上,該媒體不存在工具故障影響。

•異常問題匯總:在6月12日的投放中,該媒體除部分點位覆蓋面數據缺失的問題外,還存在媒體與DCM監測到的click數據GAP較大的問題,自此,對於本次異常流量的問題匯總,使得TrueMetrics和媒體同時提供by hour的數據和廣告位截圖以對比數據情況並檢查GAP產生的原因就成為了初步排查GAP的手段。同日,我們出具了數據及可視化分佈圖表:

DCM監測時段分佈數據

•詳細排查(引入TrueMetrics異常流量排查機制):鑑於TrueMetrics對媒體提供的by hour數據進行了再次檢查和對比,我們認為,以時間段流量表現作為首要的勘察指標,符合該媒體問題表徵。因此以此思路為起點,我們得到了以下洞察:

♦雖然該媒體提供的by day數據(6月12日)與DCM監測到的曝光量GAP在15%內,但從by hour數據來看,每個時段都有非常大的GAP;
♦該媒體和dcm監測到的數據在時間分佈上有差異。三個點位0-10時,DCM均未監測到曝光但卻有大量點擊,這與媒體提供的數據不符,且從以往的投放經驗上看,首先0-10時是用戶常規的休息時間,不應產生如此大的曝光量;其次代碼既然在10時以後能夠正常收數,說明曝光代碼並無問題;

媒體提供時段分佈數據

♦該媒體三個點位曝光的時間分佈情況不在合理範圍內;(正常範圍內,用戶的訪問在一天中會有幾個訪問高峰,通常會集中在幾個時間段【otv投放除外】,早上(6-8時)中午(12-13時)和晚上(17-18時或者20-22時),但監測到的媒體的曝光時段分佈不在合理範圍內;
♦與此同時dcm監測到的流量首先會通過系統自身過濾,會排除掉一些認為不合規範的流量,而之所以產生較大的click數據GAP,原因之一可能是被過濾。

以下是同Campaign投放的兩個同類型媒體曝光監測數據時段分佈情況,可以看出兩個媒體雖然訪問高峰出現在不同的時間段,但DCM監測到的曝光數據在24小時內的分佈情況與該媒體的差異較大,供參考:

啟動大圖&banner插屏曝光分佈

以此,我們在尚未進行更細緻排查的情況下就已斷定,該媒體作弊行為非常明顯,事後在我們與廣告主的幾次溝通後,對該媒體做出了懲戒措施。

上述是TrueMetrics在排查異常流量工作中的一個小案例,在之後的連載中,我們將會分享除時段流量分佈這一思路之外的其他判別思路,敬請期待。

(引用自 觸脈INSIGHT)

推薦課程:

(課程連結)