資料小白之入學筆記一-有解無憂

(一)埋點概念理解
1.什么是埋點？
是資料采集領域（尤其是用戶行為資料采集領域）的術語，指的是針對特定用戶行為或事件進行捕獲、處理和發送的相關技術及其實施程序。
2.為什么要學習資料埋點？
為了設計“記錄”用戶“動作”的方案，記錄用戶“動作”發生的場景，探索用戶“動作”背后的意圖從而進行多維度，量化的分析，挖掘客戶隱藏的價值資訊
3.埋點要怎么做？
(1)代碼埋點：最可控的埋點方式
代碼埋點是最經典的幫助工程師了解用戶是如何使用產品的埋點方式。因為是工程師人工將埋點結合到代碼邏輯中，理論上只要是客戶端種的操作，再復雜也能采集到。常見的如：頁面停留時間，頁面瀏覽深度，視頻播放時長，用戶滑鼠軌跡，表單項停留及終止等等。尤其是一些非點擊的、不可視的行為，是非要代碼埋點來實作不可了。所以如果我們需要對埋點有更加精準的控制力，那么代碼埋點是最好的選擇。
也許你還分不清集成和埋點。為了進行埋點，廠商通常都提供一個代碼包，可以理解為一個工具包，里面包含常用的工具。想埋點就要先有這個工具包，也就是集成SDK。然后根據里面的說明書，再使用這個工具包制作出各種東西，也就是埋點了。

(2)全埋點：讓我歡喜讓我憂
全埋點，一些國內的團隊也稱“無埋點”、“無痕埋點”以及“自動埋點”。是一種對全自動的埋點方式的探索，而且從名字看仿佛是個一勞永逸的解決方案，那我們先看看什么是“全埋點”。
客戶端埋點一般分為訪問級、頁面級、頁內行為級。用戶訪問一個網站或啟動一個移動應用時幾乎所有的廠商都會自動采集上報用戶的訪問；當用戶訪問不同頁面時，有一部分廠商就會選擇不默認自動采集，而將其作為一個選項交給用戶；而對于用戶在某一個頁面內詳細的操作行為，只有極少數廠商支持自動采集上報。實作了后兩種自動采集的廠商，通常會說自己是全埋點。但頁內行為級的采集也還可以進一步探討其采集的范圍。最常見的就是自動采集可互動元素和自動采集所有元素的差別。
可互動元素包含：鏈接、表單項（如按鈕、輸入框等）、HTML 的物件級元素等。不可互動元素就太多了，絕大多數的頁面元素都屬于此類。由于實際上網頁和移動應用中的大家可以看得到的界面很多都并不是標準元素，所以實際上界面上很多看似可互動的元素也都是無法自動采集上報的。
首先，全埋點確實會自動采集非常多的資料，而且未來在使用資料的時候就可以從資料庫中直接查詢，不會面臨我想看的時候因為沒有埋點采集而獲取不到的情況。這是非常受分析師喜愛的方式，因此經常會聽到“能采集就盡量都采集，后續分析總能用得到”。其次，埋點是比較耗時的作業，需要業務方提供方案，工程師進行埋點，測驗團隊進行測驗。而由于實際作業中埋點數量比較多，每次發布新功能或新活動都需要新的埋點，所以埋點不但費時，而且錯誤率也難以控制。有了全埋點，資料用不用都先識訓來，由于都是程式自動完成，業務人員想要A 而工程師埋成B 這種錯誤也幾乎不存在。
然而任何事務都有它的兩面性。
首先，全埋點的“全”并非真的全部。基本的電腦瀏覽器和移動應用中頁面內常見的用戶操作包括滑鼠行為、鍵盤行為和手指行為。例如網頁端常見的滑鼠點擊、滑鼠滑動、螢屏滾動、鍵盤錄入、游標選取甚至靜止等，移動端除了類似點擊的按下，還有多指開合、拉動、用力按下等等行為。但這些操作并不會都被“埋點”，能埋點的通常僅限點擊或者按下，這顯然是遠遠不夠的，甚至我們都不能稱之為全埋點。
其次，全埋點的“全”以采集上報的資料量為代價，隨著資料量上升導致客戶端崩潰的概率也會上升。尤其是移動端，更多的資料量意味著更多的電量、流量和記憶體消耗。從這個角度來看，想做到真正的“全”在現階段也是很難。
第三，即使全部行為資料可以被接識訓來，具體分析時的二次梳理和加工也無法避免，甚至痛苦。因為機器無法在采集時能按照我們想要的方式對全部事件進行有意義的命名，甚至無法保證采集上來的事件都正好是正確的。于是前期埋點時節省下來的人力成本，這個時候又都搭進去了。
第四，現階段全埋點對于用戶身份資訊和行為附帶的屬性資訊也幾乎無能為力。
那么這個功能到底是我需要的嗎？這其實是個度的問題。關于這個問題，只能說得結合你實際情況，如果你更需要隨機探索過去點擊行為的趨勢，那么這個功能就還合適，否則還有更好的選擇。

(3)可視化埋點：一種所見即所得的埋點方式
代碼埋點和全埋點并沒有在易用性和準確性方面達到平衡。可視化埋點，很多時候也被稱為“無碼埋點”。前文提到，代碼埋點的缺點對于網站還好，但對于移動應用來講無疑是格外低效的。為了解決這個問題，在一部分廠商選擇全埋點的同時也有大量廠商選擇了一種所見即所得埋點的道路，即可視化埋點。
可視化埋點的好處是可以直接在網站或移動應用的真實界面上操作埋點，而且埋點之后立即可以驗證埋點是否正確，這還不算完，將埋點部署到所有客戶端也是幾乎實時生效的。因為可視化埋點的這些好處，分析的需求方，業務人員，沒有權限觸碰代碼或者不懂得編程的人都可以非常低的門檻獲取到用于分析的資料。可謂是埋點的一大進步。
可視化埋點的部署原理
支持可視化埋點的SDK 會在被監測的網站或移動應用被訪問時向服務器校驗是否有新的埋點，如果發現更新的埋點，則會從服務器下載并且立即生效。這樣就能確保服務器收到最新的埋點后，所有客戶端都能在下一次訪問時得到部署了。
可視化埋點和全埋點有著對埋點和分析全然不同的追求。可視化埋點的理念是提升原作業流程的效率——依然要梳理需求、設計埋點；全埋點則是將作業流都進行了簡化——反正資料會被采集回來，這兩步的必要性就容易被忽視。這里不能說孰優孰略，因為事先嚴謹的計劃和事后發散的探索都是分析中的不同角度。況且這兩種埋點也完全不是排他的，完全可以同時使用。
可視化埋點局限性也很多。
首先，可視化埋點也只是針對點擊可見元素的，其中可見元素最常見的就是點擊行為了。對于點擊操作的埋點也確實是目前可視化埋點的主攻點。但從實際情況看，復雜頁面、不標準頁面、動態頁面都給可視化埋點增加不可用的風險，一旦遇到就還是只能代碼埋點了。
其次，對于點擊操作附帶的業務屬性，雖然也可通過進一步選取屬性所在元素來獲取屬性資訊，但國內廠商支持得好的就比較少了。
第三，為了確保埋點準確性，可視化埋點也逐步整合了更為復雜的高級設定，例如：“同頁面”、“同版本”、“同層級”、“同文本”……，加上了這些復雜設定的可視化埋點也是那個為提效而生的可視化埋點嗎？

(二)記錄群里幾個問題想法
「咆哮: 問題一：文中指出的定位埋點，關于用戶拒絕上傳定位資訊的、H5沒有定位權限的、用戶身份資訊無法獲得當前活動詳細地址的這些若干情況改如何處理，資料中該如何處理？
答:看資料分析時候這個資料是否重要，要是不重要這種資料可以直接在資料清洗中去除，要是重要，則通過其他方式，如誘導客戶，記錄ip，記錄手機號碼等方式獲取資料
問題二：關于url get傳參方式，url總長度有限制，如何優化埋點，技術上解決手段有哪些（案例2解讀可解決一部分
答:首先可以使用post提交，而不是get，post可以提交很多資料。其次可以使用狀態碼如第一位1代表晚上，2代表早上，3代表中午，第二位1代表吃飯，2代表看書，3代表睡覺，那么11就表示晚上吃飯，22就表示早上看書，再其次，上面的狀態碼可以用二進制的數表示，然后壓縮
問題三：關于用戶操作路徑目前很模糊不知如何入手，（包括資料埋點優化，需要埋哪些點才夠，埋點之后的建倉也應該有更好的方式）
問題四：關于唯一標志，埋點的頁面多種多樣而且用戶行為都在客戶端，有的已經登錄，有的甚至沒有登錄，但是在計算uv或者留存時往往需要去重，如何設計唯一標志，特殊情況如何處理？」
答:唯一資訊這種東西一般都是用系統唯一編號的，特殊的時候可以使用聯合資訊作為唯一資訊也可以用它文章中的環境資訊作為唯一資訊

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/150152.html

標籤：非技術區

上一篇：系結證券了銀行卡沃日

下一篇：java演算法題目請教，在線等演算法高手,400分全散