|
昵稱:YPS行業(yè)門戶系統 |
論壇積分:108000 |
發(fā)貼等級:21 |
|
發(fā)貼數:1122 |
回貼數:0 |
被砸雞蛋:0 |
獲贈鮮花:125 |
|
|
|
我的小屋 |
發(fā)表時間:2019/7/17 14:39:00 |
樓 主 |
|
|
|
|
|
網站日志分析方法系列一:聚焦式分析 在網頁運營改版過程中,經常有設計師或者運營同事有這樣的疑問:我的頁面到底產生了多大價值?這個頁面引導的用戶接下來訪問了多少商品的頁面?有沒有產生交易?有沒有到我想讓用戶去的那些頁面?
如果使用數據庫查詢,固然可以得到一些結果,但查詢過程過于復雜,數據量大的網站查詢耗時太長,很難靈活應用到普通頁面。本文提出一種相對簡單的分析方法可以解決這個問題。
每個用戶在網站上的訪問軌跡在網站日志或者數據庫中,都是一串URL,有的只訪問了一兩步,有的訪問了成百上千步,如何在如此復雜繁多的數據中找到用戶在訪問某個頁面(例如服裝首頁)之前或者之后n步,有多少人訪問過特定頁面(例如交易頁面)?
先拋開這個問題,我們想象這樣一個場景:在一個大會場中,熟人坐在某個座位上,如果我們知道他們的位置,我們的眼睛很容易聚焦到這幾個位置,自動忽略其他座位的人,請參看圖1。同樣,人們在觀察周圍事物時,經常會把精力聚焦到自己關心的事物上,下意識忽略其他。我們曾經做過這樣的實驗,我們的報告廳有4個很大的外置式擴音器,分列在兩側。注意不是那種不顯眼的內置式,任何人只要稍微留心就會看到。而當我們要求會場的人閉上眼睛回答會場有幾個擴音器時,很少有人能給出正確答案,因為大部分人會關心更重要的東西,比如會議內容,提問問題,甚至是如何找個舒適的位子也比擴音器的多少更讓人關心。
圖1
回到我們網站碰到的問題,某個項目的設計師關心的頁面并非全部,而只是幾個與之頁面有關的頁面和部分重要的指標頁面。因此我們可以去除相關性不大的頁面,只保留關心頁面,從而縮短用戶路徑,大大提高計算效率。
另外,我們把索引的思想引入分析過程中,把網頁的URL按照一定規(guī)則(例如正則表達式)替換成簡單字符,把相關性不大的頁面統計替換為同一個字符(例如“0”),把一些過渡性的頁面替換成某個字符(例如”p”),如此以來,每個用戶的訪問路徑就可以表示為一個字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用戶的訪問路徑全為相關性不大的頁面,此時,路徑為”0,0,0,0,0,0,0,0,0,0,0,0,0,0”,這表示用戶并未訪問到目標頁面,如果不需要計算用戶比例或用戶分類,那么這樣的記錄我們可以刪除掉。
如果需要保留其他的用戶信息,例如cookieid,登錄名,訪問時間等信息,這個字符串會更加復雜些。如果我們研究目的比較簡單,還可以進一步處理,如果不需要對步長信息進行分析,我們可以去掉相鄰重復的一些數據,把上式簡化為”a,c,0,a,p,c,0,c,t,0”。
這個過程請參看圖2中的①和②,由此我們可以得到多個用戶的路徑的字符串形式的文件。
圖2
得到這個聚焦式用戶路徑文件后,我們就可以對這個字符串文件進行分析了。例如,我們需要計算a頁面后有多少個c頁面,需要能忽略中間的翻頁頁面(p頁面)。在上例中的這個用戶的字符串中,就是1個用戶,2次c頁面。如果在訪問了其他頁面之后再訪問c頁面的行為也可計算入內的話,那就是1個用戶,3次c頁面。
接下來就是分析的樣本量問題。一般分析過程中會講究“多而全”,但數據量大到一定級別,分析1/10甚至1/100人群與分析全樣本所得到的結果相差無幾,花費很多資源去提升一點精確度是一件很得不償失的事情。因此可以酌情分析小樣本量,節(jié)省分析成本。
由于目標頁面業(yè)務的獨特性,每次需要分析的方式也很個性化。路徑查詢器可以靈活應對各種查詢。例如,我們需要計算a后面有t的人次,a后面緊跟著c的人次,行為符合某種模式的用戶數有多少等等。需要統計的模式在分析算法配置文件(圖2中的③)中進行配置,查詢器會計算并導出最終結果。
另外,查詢器還支持分類信息查詢,根據用戶路徑文件的配置信息,對每種分類的人群分別查詢,或者導出符合某種模式的人群Cookieid,用戶名等,與其他數據存儲媒介聯接,取得這部分人群的其他信息,從而進行綜合分析。
這種方法優(yōu)點在于比較靈活,如果網站的URL規(guī)則比較規(guī)范,在配置過程中可以多采用正則表達式,從而可以發(fā)現更多有趣的現象。 |
|
|
|
|
|
|
|
|
|