用戶ID畫像化

項目背景

作爲ID內容化三部曲系列內容，在上一篇《廣告賬戶ID內容化》文章中，我們已經了解到，ID作爲唯一性標識，用來標記和區分商業系統中的各級主體。當前的業務系統中，各種ID被廣泛使用，來區分與管理不同主體信息，明確數據計算口徑，配置業務邏輯，以及，成爲機器學習模型的重要信息。但是，單純以ID爲基礎的算法設計有非常明顯的缺陷，一是ID本身無法直接體現主體業務關系，二是ID無法反映內容本身的特質。

ID內容化三部曲，對應在3個方面嘗試解決商業內容向量化問題，逐步優化ID特征的表達能力。作爲三部曲之一，本篇《用戶ID畫像化》，通過用戶的曆史數據和建模方法，挖掘用戶的商業興趣標簽，構建用戶統一化表征向量，提升用戶識別與刻畫能力，幫助模型更好地匹配合適的廣告。下面就我們工作中取得的一些進展，在這裏分享給大家。

用戶ID畫像化

在超級彙川廣告系統中，每個用戶都會擁有一個ID，即DmpID，來進行唯一標識。以這種ID表達用戶的方式在模型中應用時存在如下問題：

用戶規模億量級，ID空間較大，隨著用戶規模增加，ID空間將持續膨脹；

模型訓練空間是整個推理空間的子集，由于用戶ID空間較大，對于未出現在模型訓練周期範圍內的用戶ID，在推理時，這些ID類特征將無法生效；

ID類特征缺乏泛化性，用戶ID不同但商業興趣相似的用戶，ID類的表達方式將會隔裂這種相似關系，使模型缺少泛化能力；

爲此，我們設計了一種用戶統一化的表征向量，實現用戶ID畫像化，優化ID特征的表達能力。

2.1用戶ID畫像化方案

在商業場景下，一個好的用戶統一化表征向量，需要能夠表達用戶的商業興趣，應有盡有的覆蓋用戶的商業興趣，並且，表達出來的用戶商業興趣是千人千面的。這裏在構建用戶統一化表征向量時，選擇基于商業興趣標簽構建用戶統一化表征向量。

商業興趣標簽，是以標簽的形式表達用戶指定商業行爲興趣的方式。這裏的商業標簽是指挂靠在超級彙川行業下面的主題類標簽，每個主題標簽，代表一類主題廣告，如下圖所示。

圖1. 商業興趣標簽

商業興趣標簽集合爲確定的封閉集合，覆蓋了超級彙川各行業下的不同廣告主題，用來表征用戶商業興趣時，具有較好的可解釋性，表達了用戶對不同主題廣告的行爲興趣。

兩個商業興趣相似的用戶，通過用戶ID表達用戶時，這種相似的興趣關系無法體現出來，下遊模型也無法感知用戶間的相似興趣關系。而基于商業興趣標簽構建用戶統一化表征向量，實現用戶ID畫像化時，用戶自身興趣，以及用戶間相似興趣關系均被顯式表達出來。

圖2. 用戶ID與用戶商業興趣標簽

實現用戶ID畫像化時，我們是基于商業興趣標簽構建用戶統一化表征向量表達用戶ID。類似的過程，在NLP領域，word2vec是構建單詞向量表達單詞明文，該算法使得具有相似語義的單詞明文表示爲相互靠近的單詞向量，同時，能讓我們使用向量來處理類比，例如著名的等式：

king – man + woman≈queen

那麽，基于商業興趣標簽構建用戶統一化表征向量表達用戶ID時，是否也具有上面的計算過程類比呢？

爲了驗證想法，我們選擇2個用戶，如下表所示，用戶1可能是女性，用戶2可能意向教育行業從業。2個用戶“相加”，會得到什麽興趣的用戶？

圖3. 用戶商業興趣標簽

驗證過程中，首先，我們通過autoencoder算法將這2個用戶的商業興趣標簽向量映射爲數字向量，接著，再將這2個數字向量相加得到新的數字向量，最後，查找與新的數字向量距離最近的其他用戶的商業興趣標簽向量映射爲的數字向量，得到距離最近的用戶如下：

圖4. 相近用戶的商業興趣標簽

從用戶3的商業興趣標簽來看，用戶3身份可能是一位女老師，比較關注教育問題，偏好購買個人護理等生活用品，以及出行/辦公相關用品。通過上述驗證過程，“小說女頻”興趣的用戶（女性）與“教師資格考試”興趣的用戶（教育）“相加”，得到的是一位與“女老師”角色相關的興趣的用戶。即不同用戶興趣之間的“計算”結果，表達了不同興趣之間隱含的相關關系。

圖5. 用戶ID畫像化向量“計算”過程

在應用商業興趣標簽構建用戶統一化表征向量，實現用戶ID畫像化時，每個商業興趣標簽作爲表征向量的一維，畫像化表征示例如下：

圖6. 用戶ID畫像化

2.2 用戶商業化興趣標簽生成

在了解商業興趣標簽內容及構建用戶統一化表征向量過程後，如何識別用戶的商業興趣，給用戶打上對應的商業興趣標簽，也就是商業興趣標簽生産流程。商業興趣標簽生産流程主要框架如下。

圖7. 商業興趣標簽生産框架

如上面框架，通過多種生産模型，給用戶打上商業興趣標簽，具體詳情如下：

基于cvr預估模型

在商業化場景中，我們將用戶對標簽偏好，轉化爲對用戶後續行爲的預測問題，即結合用戶DMP特征、行爲類特征、預訓練特征，理解用戶在指定主題廣告上興趣偏好，將用戶對商業標簽偏好問題轉化爲用戶在商業標簽上的CVR預估問題，從而建模標簽模型。

Lookalike模型

超級彙川廣告系統能夠收集到的用戶主動行爲（點擊/轉化）有限，用戶可能會在其他場景發生行爲（下載、激活、注冊、付費等），通過客戶上傳或其他渠道收集到的轉化用戶，作爲種子用戶，通過lookalike模型尋找相似用戶，給拓展出來的相似用戶打上與種子用戶相同的商業興趣標簽。

冷啓動模型

針對曆史行爲數據稀缺的用戶，通過冷啓動模型理解用戶商業興趣，生産商業標簽，主要思路如下：

圖8. 用戶冷啓動商業興趣思路

1. 將活躍用戶與冷啓動用戶，投影在同一向量空間；

2. 向量空間中，每個冷啓動用戶，通過計算與活躍用戶向量之間的距離，選擇距離自己最近的n個活躍用戶，將這n個活躍用戶身上的top m個高頻標簽傳遞給自己，作爲冷啓動用戶的商業興趣標簽。

每一種標簽生産模型産出 <用戶，標簽，權重> 後，再經過離線評估選取置信的權重分值，最後再産出用戶的商業標簽

實驗效果

上述的用戶ID畫像化策略通過線上AB-test實驗驗證，效果如下表所示。效果提升來自于模型在使用基于商業興趣標簽構建的用戶統一化表征向量之後，模型對用戶識別與刻畫能力提升，泛化能力增強，目前已完成了在超級彙川的全流量上線。

圖9.用戶ID畫像化效

未來展望

綜上，本文介紹了基于商業興趣標簽構建用戶統一化表征向量的用戶ID畫像化策略，同時，驗證了用戶ID畫像化策略能夠有效提升用戶的識別與刻畫能力，幫助模型更好地匹配合適的廣告。後續，用戶ID畫像化與賬戶ID內容化、物料ID內容化一起深度結合，將進一步提升廣告系統的匹配能力。

娛樂新聞吧

阿裏巴巴旗下超級彙川