Lookalike,即相似人群扩展,是基于种子用户,通过一定的算法评估模型,找到更多拥有潜在关联性的相似人群的技术。值得注意是,lookalike不是某一种特定的算法,而是一类方法的统称,这类方法综合运用多种技术,比如协同过滤、node2vec等,最终达到用户拓展目的。
算法原理
对于特征和模型算法,不同的广告技术公司各有差异,特征取决于其DMP有哪些数据,主要方式有以下三种:
利用用户画像进行人群扩散:给种子用户打标签,利用相同标签找到目标人群
利用分类模型进行人群扩散:种子用户为正样本,候选对象为负样本,训练分类模型,然后用模型对所有候选对象进行筛选。
利用社交网络进行人群扩散:利用种子用户的好友关系,将其标签传给社区中的好友,从而实现人群扩散
这里以分类模型为例,人群拓展过程如下:
首先,提交数据。广告主需向DMP提交一系列客群范围,一般以设备码、电话号码等形式存在,我们称之为种子用户。
然后,进行建模。种子用户在和DMP平台所拥有的用户数据进行匹配,排除非DMP用户,将剩下的种子用户作为机器学习的正样本。负样本会从平台的非种子用户进行选取,将其转化为一个二分类的模型,由正负样本组成学习的样本,训练模型。
最后,输出拓展用户。根据广告主所需要的目标用户量级,按模型机制输出数据。根据扩散量级需求,量级越小,包含的用户群体相似程度越近。广告主可使用拓展后的用户数据包进行广告投放。