资讯专栏INFORMATION COLUMN

TOP100summit:【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分

techstay / 3119人阅读

摘要:目前主导大数据平台广告效益分析系统和实时数据管道的开发。一问题的提出沃尔玛拥有众多零售商店和网上销售渠道。为了帮助供货商促销商品,沃尔玛进行广告推广活动。数据连接连接广告推广活动受众用户商品交易,生成大数据表。大数据的存储可以选择。

本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师、架构师粟迪夫的案例分享。
编辑:Cynthia

粟迪夫:WalmartLabs实验室广告平台首席工程师、架构师
在大数据平台架构设计、消息中间件、分布式系统等领域有丰富经验。
作为技术负责人,帮助多家企业搭建了大数据平台和分布式系统。
目前主导WMX大数据平台、广告效益分析系统和实时数据管道的开发。

导读:作为世界上最大的商品零售商,沃尔玛每天都投放大量的广告、产生大量的商品交易,生成大量数据,需要分析这些数据的关系以衡量广告活动的效果,并以此为依据制定广告活动的策略,帮助广告主有效地投放广告以促进商品销售。本文结合测度FACEBOOK广告效果这一具体案例,讲述沃尔玛WMX团队如何利用开源技术开发WMX广告效益分析平台,支持快速算法迭代,持续更新大数据技术以提升系统性能和运行效率,提高软件质量,以及提高团队的知识水平。

一.问题的提出
 
沃尔玛拥有众多零售商店和网上销售渠道。当顾客购买商品,交易和顾客的信息就会记录下来。其中顾客的信息经过整理分类就形成沃尔玛的用户背景资料,例如住址、性别、年龄、信用卡、教育、婚姻、爱好、消费习惯。通过用户分析,我们可以把用户的真实身份和网络身份联系起来,还可以生成个体用户、家庭用户等有用信息。
 
为了帮助供货商促销商品,沃尔玛进行广告推广活动。在广告推广活动中,针对某些商品,根据用户背景资料选取合适的用户作为受众,制作广告,投放到选定的广告渠道上,如手机APP、电邮、沃尔玛网站、社交媒体、搜索引擎、新闻网站等。

可见,广告推广活动的数据是高维度的,例如:
● 用户数据 :地址、收入、支出、教育、婚姻、性别、年龄
● 广告数据 :图文格式、尺寸、可否点击、位置
● 商品数据 :商品类型、属性、促销、折扣
● 发布渠道数据 :URL、网站、App
● 展示数据 :时间、设备、地理位置
 
在生成效益分析报告、衡量广告推广活动的效果时,我们需要按任意维度的组合选取受众和聚合销售收入的信息。
  
衡量广告推广活动的效果,常用的办法是A/B测试。即把用户分成A组和B组,A组用户是广告推广活动的受众,B组用户不是受众。比较A、B两组用户的交易金额可以得到广告推广活动的效果。
  
效益分析报告的生成有三个难点。
● 一是高维度的数据导致数据连接时产生的大量数据。
● 二是按任意维度聚集会产生大量报表。
● 三是广告推广活动和交易的匹配算法不是唯一的,需要进行算法测试和迭代以选取最优算法。

原有的系统主要依靠HiveQL把大量数据连接起来,然后过滤,针对每一种聚集方式都产生一个报表;每个报表都重新运行一遍整个流程。这种做法复杂、低效,不能复用中间结果,难以改进。
  
这要求我们开发一个广告效益分析平台以克服上述缺点,能够高效地生成按任意维度聚合的效益分析报告,快速地进行算法迭代。

二.系统架构及技术演进
  
本节结合Facebook广告案例讲解系统架构的设计及技术演进。

阅读需要支付1元查看
<