廣告賬戶ID內容化

阿裏巴巴旗下超級彙川 2024-02-29 11:27:58
寫在前面

ID做爲唯一性標識,用來標記和區分商業系統中的各級主體。在系統中通常順序地分配,或者是基于某種hash算法來計算得出。以客戶投放體系爲例,就包括帳戶ID、推廣組ID、推廣計劃ID、推廣創意ID等等(如下圖)。同樣的,媒體會爲用戶分配 User ID,地域分配Region ID,廣告位有Slot ID,Media ID……,可見,當前的業務系統中,各種ID被廣泛使用,來區分與管理不同主體信息,明確數據計算口徑,配置業務邏輯,以及,成爲機器學習模型的重要信息。

圖1. 商業系統的ID體系

廣告系統的優化本質是匹配,即實現“主體”的最優連接。具體的說,當用戶在媒體産生浏覽行爲時,爲用戶匹配最佳的商業結果。在個性化效果廣告的今天,商業決策的細粒度越來越細,從而實現了商業結果的千人千面、千人億面。比如,不同的時間、場景、用戶、甚至信息上下文,都可能代表的不同的潛在需求,最優的商業結果也自然需要細分決策。爲了實現細粒度的商業決策,做爲標識的各種ID信息實際上廣泛使用在數據回收、統計環節,以及算法設計環節。

在最初期的計算廣告系統,我們一般基于賬戶ID,統計不同賬戶的後驗表現指標來輔助商業決策;個性化廣告的早期,大量的用戶ID和物料ID開始做爲特征引入線性模型,開啓了“千億”特征工程的時代;當前的廣告推薦系統主要基于神經網絡的深度學習模型作爲核心算法部件,其中的特征工程通過對主體ID進行端到端訓練,提取出ID之于目標任務的特征表達。但是我們發現,單純以ID爲基礎的算法設計有非常明顯的缺陷:

1. ID 本身無法直接體現主體間的業務關系。除非經過特別的 ID 化設計,通過 ID 無法計算出主體的層級、隸屬、相近關系,自然無法繼承、也無法參考其它主體的數據,限制數據泛化,給新主體的冷啓動帶來了困難。

2. ID 無法反映內容本身的特質。相似的人群、相似的物料,不一定能分配相近的ID,ID數據本身是沒有計算特性的,丟失了內容信息。還容易造成系統內堆積大量重複內容,占用系統資源。

時間來到AI快速發展的今天,大模型、多模態相關技術快速地叠代,內容特征與知識提取能力不斷增強;模型方面,端到端地進行特征輸入,以模型網絡代替逐個特征設計與組合已經非常成熟。所以,我們開始在3個方面嘗試解決商業內容向量化問題,逐步優化ID特征的表達能力,稱之爲ID內容化三部曲。對應著一個廣告系統中三個關鍵的信息維度:

1. 賬戶ID內容化

賬戶是在廣告系統中有標的物推廣需求的主體,通過各種設置定向條件,人群篩選條件來表達推廣標的物想要觸達的目標人群。

2. 物料ID內容化

客戶投放廣告的標題,描述,圖片,視頻等物料內容;好的物料內容能更好地吸引用戶的注意力,提升點擊率和轉化效果。

3. 用戶ID畫像化

通過用戶的曆史行爲數據和建模方法,可以挖掘出用戶的興趣標簽、畫像信息等用戶維度的信息,從而可以幫助模型更好地匹配合適的廣告。

在接下來的一段時間,我們會陸續分享這三方面的工作。作爲第一篇的《帳戶ID內容化》,應該是最有趣的一個挑戰。帳戶信息多樣且部分信息不是結構化數據,比如投放設置、定向人群、出價等,如何將這些信息統一編碼提取,同時又能保證維持信息之間的相似關系非常困難。不同于人群畫像與物料標簽,帳戶信息編碼可借鑒的工作非常少,我們的工作取得了一些進展,在這裏分享給大家。

賬戶ID內容化

賬戶ID內容化重點要解決的問題是相似賬戶的特征表達具有相似性。這裏我們借助文檔相似計算的原理,引入稀疏向量特征的方法來解決賬戶相似性表達問題;在稀疏向量空間中,兩個相似的向量往往具有幾個相同的特征分量,相同的特征分量越多,向量越相似;而賬戶抽取稀疏向量的難點在于數據是多維度和非結構化的,因此需要根據這些數據特點設計合適的向量計算方案。

廣告主進行商業廣告投放時會有一個標的物主體,比如APP,小程序,落地頁,商品頁等等。廣告主會在廣告平台創建一個賬戶,然後根據標的物的目標受衆進行定向條件、投放邏輯的選擇。這些信息從一定程度上反映了廣告主投放的標的物的內容屬性、定向的人群類型、以及目標興趣人群選擇等信息,可以作爲賬戶ID的內容特征表達輸入。針對上面提出的賬戶ID特征的問題,我們從客戶廣告投放邏輯和標的物維度入手設計了一種新的賬戶內容表達向量,高維的向量表達使得特征之間有一定的泛化和借鑒作用,同時也大幅壓縮了帳戶ID的整體空間,其主要思路如下:

1)投放邏輯表達向量:基于客戶在投放平台的投放設置信息,進行結構化信息組織-> 關鍵信息提取 -> 特征向量化表達計算;

2)投放標的物屬性向量:基于客戶投放的標的物進行泛化屬性的表達,從而提取不同標的物之間的相似性。

2.1 賬戶投放邏輯向量特征

投放邏輯表達向量主要解決不同賬戶相似投放邏輯的泛化能力,其核心的能力包括向量穩定性,相似性表達能力,新賬戶冷啓動效果。基于廣告主在投放平台設置的定向條件,抽取出能夠表達廣告投放計劃圈選的意願人群標簽、定向興趣、定向關鍵詞,以及人群年齡、性別、地域等基本屬性信息。

如下圖所示是投放邏輯向量表達的具體計算過程,通過上述廣告主在平台設置的原始信息聚合成目標人群的屬性集合,我們從這些大量的屬性集合中提取核心的標簽集合,然後通過模型特征的向量化將這些核心標簽集合生成向量特征表達,最終加入到主模型輸入層進行實際的預估任務。

圖2. 客戶表達向量抽取流程

下面是一個具體的數據舉例:

原始人群包條件:

三國-L1,三國-L2,……,二次元-L1,二次元-L2,……,二次元-yk,仙俠-L1,仙俠-L2,仙俠-L3,仙俠-yk,休閑-yk,傳奇-L1,傳奇-L2,傳奇-L3,傳奇-yk,信息流偏好-PC遊戲,信息流偏好-單機遊戲,信息流偏好-遊戲cosplay,信息流偏好-遊戲主播,信息流偏好-遊戲攻略,信息流偏好-遊戲雜文,信息流偏好-遊戲資訊,信息流偏好-遊戲賽事,信息流偏好-電競選手,信息流偏好-網頁遊戲,卡牌-L1,卡牌-L2,卡牌-L3,卡牌-yk,回合制-L1,回合制-L2,回合制-L3,回合制-yk,放置-L1,放置-L2,放置-L3,放置-yk,末日-yk,棋牌-yk,遊戲核心意向人群,經營養成-L1,經營養成-L2,經營養成-L3,經營養成-yk,西遊-L1,西遊-L2,西遊-L3,資深遊戲玩家

計算出來的特征向量:

[遊戲,二次元,仙俠,卡牌,回合制,放置,養成,西遊,傳奇,三國,經營,棋牌,PC,單機遊戲,cosplay,主播,攻略]

可以看到計算出來的賬戶內容特征是廣告主想要觸達的目標人群的核心興趣標簽,這些內容特征和廣告主想要推廣的標的物有著內在的聯系。同時,向量特征在三個方面的能力檢驗如下:

穩定性:廣告主修改定向條件時特征不會發生突變,會根據實際修改後的數據變化而發生部分變化,具有很強的特征表達穩定性;

相似性:對于相似定向條件的計劃,特征抽取後表達相似;

新賬戶冷啓:對于新賬戶沒有曆史的定向匹配相關信息,會上溯到投放標的物維度的定向數據進行計算,和同標的物的老賬戶特征表達相似;

2.2賬戶標的物屬性內容特征

標的物屬性向量主要解決標的物的泛化問題,不同的賬戶可能會投放相同或相近的標的物,單純帳戶ID或者標的物ID特征不能體現這些能力。標的物內容向量特征主要通過提取廣告投放標的物本身的屬性,及其屬性的擴展,該屬性是不會根據廣告主定向條件變化而發生變化。對于<用戶-廣告>pair對,我們期望相同的標的物類型、內容屬性,對于同一用戶模型預估值應該保持相近,目前主要抽取如下相關屬性:

投放實體:投放具體包的信息,例如安卓激活的下載包名稱,IOS激活的AppID等;

公司主體:投放包相關的具體公司主體CID,轉化相關covert ID等泛化性屬性;

實體標簽:投放實體的主題、類型相關屬性,例如:休閑益智類,魔幻主題,小程序類遊戲等;

通過上述方法將每個賬戶都産出具體投放的核心標簽和屬性信息,然後如下圖所示將提取到的核心信息向量輸入到模型訓練子網絡中,再將子網絡學習到的高維向量表達與原始模型用戶內容側、廣告內容側等特征拼接輸入到主網絡中學習,其中子網絡的輸出即爲客戶維度的投放表達向量,通過原始信息的抽取增強相似計劃的表達和泛化性。

圖3. 高維向量表達學習模型

另外,基于穩定性的考慮我們也進行了離線的穩定性測試,通過模擬廣告主在平台進行定向人群包、興趣關鍵詞等條件的增刪相關操作,測試在定向條件發生不同條件變化時對客戶投放表達向量的影響。

如下表所示,通過增刪廣告主的相關定向投放條件,不同類型的預估值變化幅度在5%左右以內,總體預估值基本十分穩定的。表現穩定的原因是我們是通過最原始的賬戶投放條件大數據集合進行核心信息抽取,具備一定的穩定和泛化的能力,並且通過和標的物的固有屬性的組合下進一步的提高了高維表達向量的穩定性和泛化性。

表1. 定向條件增刪對不同類型預估值的影響

綜上,基于投放邏輯和標的物屬性構建的賬戶ID內容向量,提取了客戶投放標的物的核心屬性,和核心目標人群的標簽屬性,極大的壓縮了賬戶ID空間規模(壓縮到原來的40%),同時提升了特征表達的泛化能力和穩定性,也解決了客戶在新增計劃和賬戶時的效果冷啓動後顧之憂。

實驗效果

上述的賬戶ID內容化策略通過線上AB-test實驗驗證,效果如下表所示,大盤帶來了消耗+6.7%,GMV+6.35%,效果提升得益于模型在使用新的向量特征之後,泛化能力更強,目前策略已完成全流量。

表2. 計劃表達策略效果

未來展望

ID內容化是一個較大的研究課題,後續會從更多維度內容進行向量化的生成,例如從物料內容角度、用戶興趣角度等,從而提高模型對相似內容、相似人群的識別和泛化的能力。未來暢想,在用戶內容化,賬戶內容化,物料內容化的基礎上,再結合大模型的統一知識表征的能力,廣告的系統的匹配能力將會得到更進一步的提升。

0 阅读:4

阿裏巴巴旗下超級彙川

簡介:阿裏巴巴旗下超級彙川廣告平台,全場景全鏈路智能獲客