阿里妈妈：基于动态背包的多场景广告序列投放算法-行业资讯-媒体资源网资讯频道

首页 > 信息管理 > 行业资讯 > 正文

阿里妈妈：基于动态背包的多场景广告序列投放算法 (移动端简洁版浏览)

媒体资源网 http://www.allchina.cn 2023/6/16

导读：ROI提升10%！阿里妈妈定向广告技术团队首次采用基于长期价值的动态背包问题来建模和求解序列广告投放问题。本文将为大家分享具体的建模方案和细节，并通过离线和在线实验进行验证。

背景

在电商平台中，在预算约束下优化一段时间的GMV是广告主的核心诉求之一。作为电商平台，从广告主视角如何帮助其实现该诉求是非常重要的问题。

对广告主：一段时间预算约束下的GMV优化帮助广告主实现更多营收和更高的投资回报率 ( ROI )，从而让广告主真正满意；对平台：消费者和广告主的满意度提升为平台带来健康的生态和长期的贸易繁荣，并能吸引更多的广告主加入以及投入更多的广告预算，从而带来平台的收入提升；对消费者：GMV的优化满足了更多的消费者购买需求，从而优化了消费者体验。

总之，在预算约束下优化一段时间的GMV能够带来三方共赢，其重要性不言而喻。

为了解决该问题，绝大多数出价策略将一段时间的GMV优化问题拆解为：对每次用户请求进行独立优化，并简单地认为这些独立优化的汇总结果可以实现一段时间整体GMV的最优化。事实上，这类策略得到的是次优解，因为它们以孤立的视角把消费者和广告限定在了单次交互中，而忽略了一段时间内的多次交互可能产生的其它影响。

为什么孤立的单次交互视角优化会导致次优解？我们从实际情况出发，首先，同一个消费者在一段时间内 ( 例如3-7天 ) 会多次访问淘宝，并且随机地在淘宝不同的场景出现 ( 例如首页猜你喜欢、支付成功等 )，这为同一个广告和同一个消费者在不同场景多次接触创造了机会；其次，大量的成交并非发生在消费者和广告的首次接触中，而是发生在第二次或之后的多次接触中。通过AB实验，我们发现广告和消费者的前序接触会影响消费者对该广告在后续接触中的点击率和转化率，说明多次的接触对消费者的心智有累积影响的效应。在这样的背景下，单次请求优化结果的累积很容易导致次优解。

举个常见的例子，假设消费者和广告存在两次接触，第一次接触时，其转化的期望低于其它流量转化的平均期望，而如果在接触一次后再发生第二次接触，由于消费者心智累积效应，其第二次接触后转化的期望显著升高，使得两次接触的整体转化期望高于其它流量转化的平均期望。在这种的设定下，单次贪心的优化策略在第一次接触时由于其转化期望较低，所以不会选择去竞得流量；而由于第一次的未接触导致了心智并没有产生积累效应，因此第二次接触的转化期望依然较低，也不会去竞得流量。然而，如果在第一次接触时就能预估到两次接触的整体转化期望较大，那么第一次接触就会做出竞得的决策，并顺理成章地竞得第二次高价值接触，我们称这种策略为序列投放算法，显而易见，其在整体上比单次请求优化策略 ( 下文统一称为"单次投放算法" ) 实现了更好的效果。

这个例子中，序列投放算法和单次投放算法做出不同决策的核心原因在于：第一次接触前，单次投放算法只评估了单次请求的价值，即短期价值，而序列投放算法评估了未来多次请求的整体价值，我们称为长期价值。我们定义同一个消费者和同一个广告的多次接触构成了一个广告投放序列，并定义长期价值为从此刻起剩余序列的总价值。可以看出，当序列长度为1时，短期价值是长期价值的一种特殊情况。因此，基于长期价值的序列投放策略能够兼容并优于基于短期价值的单次投放策略。基于这个理念，我们提出了基于长期价值的多场景序列投放算法。

然而，基于长期价值的序列投放算法在解决预算约束下GMV的优化问题时存在诸多挑战：

优化目标是长期的累积价值，而决策的粒度是单次的；如何基于长期价值的预估获得最优的单次决策？长期价值预估模型的学习离不开策略探索生成的序列数据。长期价值预估模型和决策模型的学习如何保证收敛性？如何保证决策的最优性？如何提升策略探索的效率？如何保障预算约束的满足？

针对这些挑战，我们逐一给出了相应的解决方案。首先，我们将预算约束问题建模为背包问题：背包中物品的价值为形成的序列价值 ( 长期成交、收藏加购等 )，物品的重量为此序列中发生的成本 ( 消耗 )；我们按照性价比 ( 序列价值/成本 ) 由高到低逐个选择物品，直到选出的物品总消耗刚好不超过预算约束。这里，由于物品重量远小于背包容量，按性价比排序的贪心算法能够接近最优解。然而，每个序列的价值和成本与运营该序列的广告策略有关，因此这是一个动态背包问题。为求解此动态背包，我们采用双层优化问题的解法来迭代求解：

物品的贪心挑选物品价值/成本以及对应策略的优化

在此框架下，我们提出了一种近似最优的运营策略，该策略满足强化学习中Policy Iteration算法的性质，能够保证其学习的收敛性。此外，为了使策略在实际场景中落地，我们提出了一种将连续出价转换为离散动作的方法，能够在不丢失出价精度的情况下，大幅度减少动作的探索空间，提高学习效率。综上，我们将整个算法称之为MSBCB ( Multi-channel Sequential Budget Constrained Bidding )，大量的离线和在线实验验证了我们算法的有效性。下面我们详细介绍问题的定义、解决方案和实验结果。

该工作已被ICML-2020接收，论文原文《Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising》地址：

https://arxiv.org/abs/2006.16312

建模方案

1. 固定∏，优化X

2. 固定X，优化∏

方案细节

1. 固定X，优化∏ -> 强化学习求解

2. 固定∏，优化X -> 背包求解

3. 预估模型

上面主要介绍了如何根据长期价值来做相应的决策，在本小节，我们介绍长期价值该如何预估。首先，模型的预估对象分成交和消耗两种，因此我们这是一个多任务学习，需要同时学习回归和分类。为应对多任务学习，我们将模型结构进行拆分，底层共享embedding，顶层网络参数解耦，以降低多任务学习互相不利干扰，而且通过validation的方式优化各个loss之间的权重。其次，对于回归任务，由于其存在大量的零样本，导致模型成为一个零膨胀模型 ( Zero-inflated models )，其输出基本上全为0，无法用MSE loss来正常学习网络参数。为解决此问题，我们提出两种解决办法：

通过合理的负采样来保证证样本的有效学习，并通过校准技术补偿由样本分布调整造成的预估偏差；引入CTR先验，构造CTR loss来辅助回归学习。我们认为消耗的期望可以拆分成消耗发生的概率与对应的消耗值的点乘，因此我们将未来消耗发生的概率显示地单独用CTR的label来学习，并使其更新不受其他loss的影响；然后我们基于较为准确的消耗概率，再来学习其概率对应下的消耗值，能够有效避免消耗值输出全为0的情况，使MSE loss能正常更新模型参数。

另外，对于偏长期预估的模型，由于历次大促活动会对样本分布有较大影响，造成模型严重高估问题。为了解决这些问题，我们通过稳定的样本分布调整，保障训练样本与预测样本分布近似一致。此外，我们还在样本特征上也有一些尝试，在用户历史行为基础上新增了一些实时行为特征，带了来一些效果提升。

4. 整体框架

我们对整个流程进行梳理：

首先，当用户请求到达广告平台之后，我们构造用户和广告特征，然后对每个进行四个长期价值的预估，得出每个广告所采取的策略 ( 投/不投 ) 并算出对应的最优出价。接着，对于任意广告，我们计算当前用户在两个不同决策下的最高性价比，若此性价比高于此广告的阈值CPRthr，则将当前用户装入此广告的背包中。最后，我们拿到用户的反馈，一方面，我们在PID模块中基于预算和实际消耗来更新阈值CPRthr，另一方面，我们构造训练数据来更新强化学习模型参数，使预估的长期价值更准确。

步骤一描述了我们基于长期价值对每个广告进行投放/不投放的动作决策，但无论哪个动作都会获得一个最终出价，即使是不投策略也会产生一个出价，因为此出价会保证此广告最终不会赢得竞价；步骤二描述了我们通过对比当前用户最高性价比与广告主设定的阈值，来判断此广告背包中是否还有多余的空间能装下当前用户；前两个步骤需要进行在线打分和决策，实时地与用户交互，而第三个步骤则是根据其反馈离线更新阈值CPRthr和模型参数，具体来说，阈值CPRthr的预设初始值一般较高，这样可以保证背包中都是优质的流量 ( 性价比 )，但此时消耗较少，然后逐步下调阈值导致消耗增加，直到消耗满足预算。

离线实验

为了对比我们算法最优性质，我们在离线对比了我们方法MSBCB与多种强化学习baseline以及其他理论最优方法，具体如下：

Greedy DDPG：动态背包下使用DDPG求解动作策略，没有使用动作约减。Greedy DQN：动态背包下使用DQN求解动作策略，出价被手动离散至11维。Greedy PPO：动态背包下使用PPO求解动作策略，出价被手动离散至11维。MSBCB：这是我们基于RL的方法，动态背包下使用DQN求解动作策略，并使用了动作约减。Myopic Greedy：静态背包下使用短视预估值 ( CVR ) 来构造动作策略。Greedy with maximized CPR ( enumeration )：动态背包下使用枚举方法求解动作策略，枚举选择的是性价比CPR最大的策略。MSBCB ( enumeration )：这是我们理论最优解，动态背包下使用枚举方法求解动作策略，枚举选择的是最大reward的策略 ( 不通过RL求解 )。Offline Optimal ( dynamic programming )：这是离线的全局最优解，使用动态规划方法，此方法不能用于在线实验，只能应用于非常小规模的离线实验。

离线数据中包含了10000个用户和500个广告，每个广告有4000元的预算，我们用真实的数据对线上的用户心智进行了分析和拟合，并将上面算法与拟合后的模拟器进行交互，画出各个算法的学习曲线在GMV上的表现，其结果如下：

从上面的学习曲线，我们能获得以下结论：MSBCB优于DDPG, DQN, PPO说明我们提出的动作约减比直接使用RL更有效；MSBCB优于Myopic说明基于长期价值的决策优于基于短期价值的决策；MSBCB ( 枚举 ) 约等于Offline Optima说明我们方法理论最优解与全局最优解完全一致；而Greedy maxCPR ( 枚举 ) 小于MSBCB ( 枚举 ) 说明最大化CPR的理论最优解并不是全局最最优，对应章节3.2证明部分，同时也说明我们算法的理论天花板优势；而MSBCB和MSBCB ( 枚举 ) 的对比说明了我们算法在实际学习过程中能快速收敛并逼近理论天花板。

在线实验

为了验证算法在实际落地中的效果，我们在淘宝线上首猜、购后等9个场景部署了MSBCB算法以及Myopic Greedy。我们考虑以下几个实验对象：

base桶：大盘基准桶，其调价算法为OCPC。test1桶：Myopic Greedy实验桶 ( 在业务上也称整合营销 )，它的目的是在多场景中优化短期CVR，用于与优化长期价值的方法进行对比。test2桶：MSBCB实验桶，它的预估决策与我们的建模方案一致test3桶：这是一个MSBCB实验桶的简化版，它的实验目的是为了验证对消耗的预估是否准确，test2和test3共用着同一个长期价值预估模型，只是在出价动作上test3不考虑未来消耗情况。

我们通过用户尾号进行分桶。

长期总体效果：首先，为了验证其长期的优化效果，我们将当天展现广告的成交、消耗等指标窗口拉到7天，以观察广告展现后的7天长期效果；我们统计了2019.12.13-2019.12.19这七天内展现的广告的长期效果如下，从表中可以看出，我们的实验桶test2能够在cost基本持平的情况下 ( <1% )，提升 10%的GMV，使广告主的ROI提升近10%。

长期天级效果：为了更清晰展现我们的方法在天级上的表现，下图给出2019.12.13-2019.12.19七天内每天ROI和消耗的情况；其中，左坐标轴表示cost的增减情况，由折线表示，右坐标轴表示ROI的增减，由条形柱表示。从图中我们可以看出，我们实验桶在ROI指标每天基本上都正向，最高能达到 19.07% ( test2,20191218 )，最低在 0.58% ( test2,20191214 )，波动还是存在的；消耗大部分都控制在5%以内。

ROI正负向店铺占比：我们统计这段时间内各个店铺的ROI正负向占比如下图(a)，85.1%的店铺有ROI的正向效果，其中，7.4%的店铺ROI能优化至 30%以上，51.1%的店铺ROI能提升至 10-30%，26.6%的店铺能提升 0-10%左右。这些结果说明了我们算法对于绝大多数店铺都有较好的正向效果。

序列长度变化：为了凸显我们的方法在长期价值上的优化，我们对比了用户在不同实验方法下对于一个广告接触的平均次数 ( 我们称为序列长度 )，上图(b)给出了我们的方法在用户序列长度占比上相对于整合营销提升的幅度。结果发现，我们方法能提升序列长度的占比，特别是当序列长度为7的case占比能提高30%，这说明了我们方法能够促成更长的用户行为序列，而更长的用户行为序列意味着更多的机会去影响用户对某个广告的心智，从而优化用户对于广告的在长期上的成交。

分场景的优化情况：进一步，我们还可以分析实验算法在各个场景上的表现情况，下图画出了各个实验桶在9个场景的预算分布以及对应ROI的情况。左坐标轴为ROI，对应条形图，给出了各个算法在这些场景上的ROI表现；右坐标轴为各实验桶相对于base在各个场景上消耗的增减，对应折线图。从图中我们能观察出一些现象：

MSBCB实验桶和整合营销都把更多的预算花在roi较高的购后场景，特别是支付成功MSBCB实验桶相比整合营销，把更多的流量从首猜分配到了其他场景，特别是收藏夹和购物车这两个购中场景

这些现象说明了我们算法能够在场景间对流量进行合理分配，把预算尽可能画在高ROI的场景，另外，长期价值模型相对于短期cvr模型更加看好购中、购后等场景，说明了它对用户的运营偏向使用较长的交互序列去优化长期价值，间接证明了我们算法的有效性。

更多实验结果请参考论文原文：

https://arxiv.org/abs/2006.16312

总结展望

在机制策略层面，我们首次采用了基于长期价值的动态背包问题来建模和求解序列广告投放问题，整个建模不仅贴切问题本质，还具有非常漂亮和简洁的理论支持，而且建模方案易于实现和应用。在落地方面，我们进行了大量的离线和在线实验，不仅证明了我们算法的收敛性和最优性，而且在线上帮助广告主在相同的预算下提升了10%的ROI，表明了我们算法对长期价值/短期价值的优化能力。我们建立了一套基于长期价值的背包序列化投放理论和技术，并在机制策略层面取得了一定的成果和进展，在未来，不只针对长期成交，我们会将长期价值横向扩展到其他指标，如收藏、加购、消耗、多目标融合等，最终满足广告主在长期价值上的各种诉求优化。

今天的分享就到这里，谢谢大家。

文章作者：阿里妈妈定向广告技术团队

编辑整理：Hoh Xil

内容来源：作者授权发布

本站文章部分内容转载自互联网，供读者交流和学习，如有涉及作者版权问题请及时与我们联系，以便更正或删除。感谢所有提供信息材料的网站，并欢迎各类媒体与我们进行文章共享合作。投稿邮箱：ad@allchina.cn

媒体店铺最新动态：

·天津月光宝盒启动道具启动台租赁

·天津3.4米风扇推杆启动台启动道具租赁各类仪式庆典启动道具出租租赁

·天津扬帆起航船帆启动道具/帆船启动台启动道具租赁

·照片打印机复古照相机复古三连拍光栅拍照

·天津能量汇聚启动台/财富汇聚启动台启动道具租赁

·天津发光手印立柱/发光手掌启动柱启动道具租赁各类仪式庆典启动道具出租租赁

·天津开市开业铜锣启动道具租赁各类仪式庆典启动道具出租租赁

·复古相机3连拍复古拍照机三连拍设备

·天津沙漏启动台启动道具租赁各类仪式庆典启动道具出租

·天津翅膀启动台启动道具租赁各类仪式庆典

·天津亚克力发光旋转魔方启动道具启动台租赁各类仪式庆典启动道具出租租赁

·天津流沙/流沙推杆启动台庆典启动道具出租

·天津能量汇聚启动台/财富汇聚启动台启动道具租赁各类仪式庆典启动道具出租租赁

·天津2米、4米、6米升降干冰启动台租赁各类仪式庆典启动道具出租租赁

·天津幸运树/智慧树/发光树干冰启动台启动道具租赁各类仪式庆典启动道具出租租赁

·天津幸运树/智慧树/发光树干冰启动台启动道具租赁各类仪式庆典启动道具出租租赁

·天津多米诺推杆启动台/翻牌推杆启动台启动道具租赁

·天津4米6米传统画轴卷轴推杆启动台启动道具租赁

·天津1米 1.2米3D全息启动球全息启动台启动道具租赁各类仪式庆典启动道具出租租赁

·天津市企业年会策划承办公司经销商会客户答谢会服务

·天津马赛克签到墙马赛克照片墙马赛克LOGO墙

·天津舞台银喷泉无烟无味冷焰火瞬间喷泉冷烟花出租出售

·天津东丽快展快速展架背景墙便捷展示架出租

·天津东丽开业剪彩典礼，天津庆典服务，天津-尚客广告有限公司

首页新闻

·	纽约曼哈顿Midtown Financial
·	吉隆坡时代广场十字路口电子屏
·	吉隆坡Maju Junction交通枢纽中心
·	马来西亚吉隆坡市区电子广告牌组合
·	纽约时代广场Broadway Plaza数字
·	新加坡乌节大酒店电子屏广告
·	新加坡面积最大的交互式户外电子屏-Ten S
·	新加坡森林大厦墙体电子屏广告
·	巴西圣保罗市中心电子时钟LED高清广告牌
·	巴西圣里约热内卢市中心街头全动态电子广告牌套
·	巴西圣保罗市地铁1、2、3号线路电子屏套装
·	巴西圣保罗地铁中心电梯环形广告组合
·	巴西圣保罗地铁中转处静态灯箱广告
·	土耳其伊斯坦布尔机场电子屏325块套装
·	伊斯坦布尔机场出发区大尺寸LED电子屏广告
·	伊斯坦布尔机场国内国际到达行李提取处LED屏
·	伦敦希斯罗机场T5航站楼电子屏广告
·	伦敦希思罗机场T3航站楼到达区LED广告屏
·	伦敦希思罗机场T2、T4航站楼到达区行李提取
·	巴西圣保罗瓜鲁柳斯机场T1航站楼到达区行李提

更多>>>

广告行业资讯

·	广告语大全——打造营销神器
·	餐饮广告语——吸引消费者的利器
·	网络资源与电视广告费用相关性研究
·	户外广告行业分析
·	公益广告语的重要性及其对社会的积极影响
·	促销活动广告语：如何用短短几句话吸引消费者？
·	广告设计与制作：打造品牌形象的重要环节
·	2023年中国广告行业分析
·	户外广告牌费用一般多少
·	从事广告行业需要会什么
·	亚心论坛——推动中国精神文化建设的重要平台
·	汽车网络广告的现状
·	如何写好广告文案
·	每天一个C/C++知识点
·	每天一个C/C++知识点
·	奥迪小满广告视频、平面接连“翻车”，资深广告
·	营销平台升级为磁力引擎，快手凭啥要当短视频社
·	移动互联网广告的新黑马——激励视频
·	全面禁止VS分级制度，未成年人沉迷网游到底怎
·	商家在网络平台发布限时优惠广告，是否属于虚假

更多>>>

综艺节目最新更新

2021/7/31 芒果捞星闻	2021/7/31 经视观察
2021/7/30 女神说电影	2021/7/30 看我72变之创意少年
2021/7/21 妻子的浪漫旅行	2021/7/6 山东电视台相亲相爱
2021/7/2 厨娘物语	2021/6/18 拜托了煮夫
2021/6/17 口袋舞蹈	2021/6/11 淮秀帮

更多>>>

户外广告资源推荐

·	浙江省杭州市公交车车身户外广告位
·	广州天河北中石化大厦屏（全国性）
·	长春市国贸大厦楼体广告牌
·	广东茂名东站出站通道灯箱广告
·	湖南全省中石化加油站便利店货架/橱窗广告位
·	湖南全省中石化加油站便利店外墙广告牌
·	北京崇文门搜秀商城屏西向和北向（全国性）
·	南京市建邺区写字楼企业办公区域LED显示屏
·	石家庄新百商圈新百广场屏（全国性）
·	河南郑州郑州地铁全线各站资源地铁灯箱广告
·	江苏省常州市户外公交车身广告
·	江苏省常州市户外公交灯箱
·	深圳地铁4号线LED大屏独家资源，视频+图片
·	全国高端楼盘百叶式拦车道闸媒体广告（全国性）
·	湖南湘潭康星百货 LED 显示屏
·	上海地铁口魔伞设备LCD屏
·	上海市普陀区长寿路巴黎春天LED广告牌
·	浙江宁波市海曙区东方商厦三面翻广告牌
·	上海地铁广告位(灯箱，看板，LED电子屏，画
·	甘肃省兰州市火车东站LED大屏

更多>>>

报纸广告资源推荐

·	《印度时报》为印度最老、也是发行量最大的英文
·	德国每日镜报Der Tagesspiegel
·	德国也是欧洲发行量最大的报纸：德国图片报简
·	德国发行量最大报纸之一：法兰克福汇报
·	《南德意志报》：德国发行量最大的日报
·	德国时代周报：一份覆盖全德国的德语周报
·	俄罗斯主流报纸广告大全2019
·	俄罗斯报:俄罗斯报界具有权威性的报纸
·	欧洲时报：欧洲最具影响力的华文日报
·	意大利《欧洲华人报》简介

更多>>>

杂志广告资源推荐

·	土耳其航空机上杂志广告投放
·	汉莎航空杂志广告投放推荐
·	美国新闻周刊newsweek（或电子版）刊登
·	《新知客》杂志简介
·	《健康准妈妈》从婚前到宝贝教育的专业类杂志
·	《女友•校园》《女友•
·	《南都周刊》全国性新闻类杂志
·	《京城一瞥》媒体简介
·	Outside中文版《户外》
·	《东方养生》杂志-海航航机头等舱

更多>>>