上一篇文章詳細給大家介紹了標簽的設計與加工，在標簽生命周期流程中，標簽體系設計完成后，便進入標簽加工與上線運行階段，一般來說資料開發團隊會主導此程序，但我們需要關心以下幾個問題：

·標簽如何快速創建和實作標簽邏輯的在線化管理

·業務人員怎么參與到標簽建設流程中

·百萬級別的標簽如何落表

一、加工方式：傳統VS在線

當企業無標簽系統時，一般由資料開發在離線數倉中完成標簽的加工和運行，運營或市場同學需要某個標簽需要通過產品經理向資料開發提需求，這個程序存在很多問題：

· 標簽資產不可見：標簽是存在于表里的欄位，業務人員不清楚現在有多少標簽；標簽的加工邏輯與業務邏輯是否一致只能查看SQL代碼；新上線的標簽只有部分人知道，標簽價值散發慢等

· 標簽資產不可管：加工好的標簽，有多少在真正被使用，有多少沒人用，完全黑盒，不用的標簽每天繼續運行浪費計算與存盤資源

· 標簽加工效率低：當業務人員需要某個簡單標簽時，也需要提交需求給資料開發，加工到上線基本需要2-3天流程

基于以上這些問題，標簽的在線化創建與管理顯得尤為重要，在線化主要包含以下內容：

· 標簽在線化加工

· 標簽在線化管理

· 標簽在線化更新

其讓標簽加工程序以及有哪些標簽變得透明，業務人員也可以參與進標簽建設的流程中，

二、各型別標簽加工

標簽型別的區分在此處便不再贅述了，在袋鼠云智能標簽產品——「客戶資料洞察」中，我們按照標簽加工邏輯，將標簽分為以下型別，各型別標簽的加工層次如下圖：

file
接下來，我們來看看具體各型別標簽的加工，

1、原子標簽

該類標簽由資料開發在數倉加工中完成，一般基于數倉DWD、DWS層的明細表與匯總表加工而來，處理邏輯較為復雜，同時維表中的一些欄位也可以作為原子標簽，這類標簽一般包含哪些內容呢？

● 建立用戶的標簽體系：

用戶維表中的用戶基礎屬性：性別、年齡、置業、會員等級、手機號、身份證號等資訊，一般用戶系統會有該類資訊，

● 基于交易表加工的交易指標

最近30天購買次數、最近30天交易金額、最近7天購買次數、最近7天交易金額，這部分標簽也建議放在數倉中實作，有以下幾點原因：

·因為其本身也是一個指標，除后續作為標簽進行畫像分析外，也常用于在資料門戶、BI報表中分析，可作為對外服務的指標放在ADS層中，并且市場上也會有專門指標管理的產品，來實作該指標的加工

· 這類標簽若屬于同一個統計維度（如都計算最近7天），資料開發可以在一個SQL片段中計算多個標簽，節約計算成本

· 若業務人員直接基于DWS層的輕度匯總表（每天匯總的交易次數、交易金額）、或DWD層的明細表（每條交易記錄一行資料）來加工最近30天購買次數這個標簽，需要針對對應的欄位進行求和，稍微涉及到一點SQL理解，有一些難度

故該類使用場景多、對于業務人員有計算難度，可在數倉中合并加工降低成本的標簽，可在數倉中作為原子標簽加工，

● 基于行為表加工的行為指標

可經過數倉加工成如下表格式，加工行為類的標簽，便于后續業務人員去衍生，

file
原子標簽在數倉加工好后，可匯入到標簽系統中，進行在線化管理，

2、規則標簽

該類標簽配置可由資料開發或資料分析師來完成，可基于單張表或關聯表中的欄位進行在線化加工，可設定統計周期、資料過濾條件，其內置常用的聚合函式（求和、均值、計數、去重技術、最大值、最小值等）、運算子（大于、小于、區間、有值、無值、包含等），通過規則化的在線配置完成標簽加工，配置界面如以下：

file

根據上面的描述，該類標簽可以將指標的型別的標簽在數倉或指標平臺加工好，匯入至標簽平臺作為原子標簽，再基于這些原子標簽取運算子更好，但在實際場景中，基于不同考慮，有的客戶也會在標簽平臺直接加工此型別標簽，如以下場景：

· 數倉無對應的基礎標簽，但業務人員很著急需要該標簽某標簽，走正常的排期、數倉加工、測驗，上線到使用基本2天以上了，基于這種情況可以通過該類標簽在標簽系統直接配置，5分鐘即可配置、更新完成，業務人員便可以使用了

· 客戶方想把標簽的加工邏輯在線化呈現、方便查找與追溯，通過可視化的方式在線配置

3、SQL標簽

SQL標簽主要由資料開發、資料分析師使用，主要解決通過規則標簽無法表達的邏輯，如用到排序函式、字符轉化函式、子查詢等內容，可以通過標準SQL語法靈活完成標簽加工，

file

4、模型標簽

模型標簽可由業務人員創建，系統集成常見的用戶分層RFM模型，用戶營銷AIPL模型、用戶生命周期模型，用戶輸入對應的指標值區間，便可定義對應的標簽值，

以RFM模型舉例，基于該模型生成“客戶價值”標簽，可基于最近一次購買時間、最近一年消費金額、最近一年消費頻率等幾個原子標簽，進行不同區間的取值，給用戶打上“重要價值客戶”、“重要發展客戶”、“重要發展客戶”、“重要挽留客戶”等，

5、組合標簽

模型標簽可由業務人員創建，基于已生成的原子、規則、SQL、模型標簽等，進行規則衍生，生成組合標簽，如組合標簽“高收入低購買”用戶，可通過“收入水平”衍生標簽，與“最近3年消費金額區間”衍生標簽組合加工，如下圖：

file

6、自定義標簽

自定義標簽可由業務人員創建，手動為某些用戶打上標簽，該類標簽手動匯入，常見場景如下：

· 客服人員和用戶ID為1001的用戶溝通后，給該用戶打上”性格：溫和、有耐心”標簽

· 如監管機構提供的一些信貸黑名單用戶，該類標簽可直接匯入進標簽系統，為用戶打上新的標簽

7、演算法標簽

演算法標簽由演算法開發同學創建，該類標簽可在演算法平臺完成，將算好的結果存盤至Hive表中，標簽系統可獲取演算法標簽的元資料，拿到演算法標簽的中文名、英文名，注冊至標簽系統中，在標簽系統中完成演算法標簽的標簽資訊查看、標簽查詢等，

如利用機器學習模型加工預測類的演算法標簽，如根據用戶的特征，預測哪些用戶是否即將流失，流失的概率等，從而在用戶流失之前做一些措施來挽留，

8、實時標簽

實時標簽由資料開發同學創建，該類標簽可在流計算平臺完成，實時行為資料打入到kafka中，用FlinkSQL消費，再輸出到Kafka、或資料表中，下游直接訂閱或查詢，

三、標簽更新與落庫

標簽配置完成后，便需要進行標簽更新與落庫，即將標簽打到物件（如用戶）的身上，這樣業務同學就可以根據標簽圈選目標群組啦，在此處我們需要說明以下幾個問題：

1、技術選型

首先說明一下標簽加工的技術選型，在袋鼠云智能標簽產品「客戶資料洞察」中我們用的 Trino（Presto）高性能分析引擎讀寫 Hive 表的方式，標簽表存盤在Hive中，主要有以下幾點原因：

· 隨著國家對數字化轉型的支持，從金融、政府到小企業都在建設數倉，進行數字化應用，在這個程序中，大多采用的是分布式的Hadoop系統作為計算存盤引擎（不論是開源Hadoop，還是發行版的CDH、TDH、FusionInsight等），Hive表便是最常用的存盤形式，標簽是基于數倉模型搭建出來的，與數倉用同一種存盤可以節省存盤資源以及不用兩種存盤之間進行資料交換

· 而用Trino（Presto）的原因是其首先是一個分析型引擎，讀寫速度均可；其次是其SQL語法完備、函式豐富、靈活，可以處理絕大多是業務場景的需求；并且支持跨庫同時讀取，如Trino可以同時取Hive與MySQL的資料進行資料處理

但沒有一種完美的技術選型，只能貼合企業自己的業務，選取最合適的技術，在這里我們就不分析各種標簽的技術選型了，

2、落表方式

上面我們介紹了有各種型別的標簽，那么標簽如何落表呢，大家看下面這個圖：

file
在業務場景中，存在有的標簽需要每天更新，如最近30天消費金額區間；而有的標簽周更新、月更新即可，更新頻率不高，如活動型別偏好，

這樣，便需要支持每個標簽有不同的更新頻率，但hive2.x版本不支持單列更新，為了解決該問題，我們將每個標簽先在臨時表存一下（就包含2列，1列用戶ID，1列標簽）該臨時表即建即用即刪，每個標簽只有一個臨時表（非磁區表），每個標簽占用的占用不大，又能解決標簽更新周期不一致的問題，

但如果后續的標簽圈群、群組畫像分析，我們基于這些單獨表的去做聯合查詢，那效率會很低，

因為每個用營銷活動，我們需要5個標簽圈選出來一批人群，并查詢出這群人的性別、年齡、月消費、會員等級、是否活躍用戶等資訊，加起來用到了10個標簽左右，會涉及到10個表的join操作，客戶集群資源不豐裕的情況，查詢速度慢，

所有我們便將多個臨時表通過聚合任務，將所有的臨時表join到一張標簽大寬表中，進行固化，這張表是一個磁區表，可以每天存盤一份全量用戶標簽資訊，當然可以自行設定該表的更新周期與保存多少個磁區，

這樣，業務人員進行圈群和分析就可以一張表查詢資料，查詢效率大大提升，通過標簽跑批時間的消耗換取業務的查詢速度，

但會遇到有些企業標簽數量在500-1000個之間，用戶量在千萬、億級別，這樣的話，用一張表去存所有的標簽會遇到標簽大寬表跑批時間過長或跑不出來的情況，所以便需要分表，可以根據標簽數量分表，

綜上，以上加工存盤方式，有缺點的地方便是大寬表加工時，需要join多個臨時表，消耗記憶體，跑批時間長，

四、寫在最后的話

為解決該問題，袋鼠云智能標簽產品「客戶資料洞察」在引入資料湖Iceberg進行標簽表的存盤，其可以實作單列更新，每個標簽可以單獨更新，這樣，便不需要那些臨時表了，解決加工效率的問題，

標簽加工與落庫是標簽體系完成后重要的步驟，本篇文章向大家分享了標簽加工與落庫程序中需要關注的注意點，講述了不同標簽的加工內容以及標簽的更新與落庫等內容，

歡迎大家留言與我們討論，也可以分享下自己見到的一些好的標簽加工方式，我們共同進步，

袋鼠云開源框架釘釘技術交流qun（30537511），歡迎對大資料開源專案有興趣的同學加入交流最新技術資訊，開源專案庫地址：https://github.com/DTStack

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/505980.html

標籤：大數據

上一篇：當我將我的github帳戶連接到gitlab時，我無法克隆Gitlab存盤庫

下一篇：mysql雜記漫談

終于有人把不同標簽的加工內容與落庫講明白了丨DTVision分析洞察篇

一、加工方式：傳統VS在線

二、各型別標簽加工

1、原子標簽

2、規則標簽

3、SQL標簽

4、模型標簽

5、組合標簽

6、自定義標簽

7、演算法標簽

8、實時標簽

三、標簽更新與落庫

1、技術選型

2、落表方式

四、寫在最后的話