天津跑腿我帮您社区

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

江苏银行融创智库大数据应用 2018-01-27 03:21:18

编者按:“百分点大数据学院”是由百分点发起的大数据领域专业、开放的分享交流平台,通过定期举办线上线下活动,邀请大数据领域学术专家、技术领袖、企业高层,分享行业、技术、应用等方面最前沿的经验与见解。近期,与InfoQ联合举办线上沙龙,分享百分点在用户画像建模、标签体系建设的方法论和实践经验。


对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。


用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准,如何做到?这就要深入解剖,理解用户画像与标签的关系、根据何种理论建模更加有效?大数据时代,需要上帝的视角,有了科学的大数据思维方法和理论指导,才能在结合实际业务建模中游刃有余。 


DT时代要从比特流中理解人类行为


水有源木有本,之所以需要用户画像,是因为DT时代相较传统IT时代发生很大变化:DT时代的数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,这使得IT系统构建在虚拟系统上,也变得更加智能。


尤其表现在信息化建设、可穿戴设备、信息网络的发展,使全社会的信息化程度越来越高,越来越多的业务需要计算机应用,将设备和人连接在一起,用户与这些应用、设备交互中产生大量数据。


在这种社会科技发展趋势下,人与人沟通的方式发生了根本变革,这就导致“要学会从比特流中解读他人”,因此要构建用户画像;但数据这么大,人工显然无法应对,所以“还要教会机器从比特流中理解人类”,再在画像的基础上构建一些应用,比如个性化推荐、精准广告、金融征信等,进行机器与人的交互。


你真的理解用户画像是什么意思吗?给你深度解析

用户画像、标签、360度用户视图等这些词经常被提起,但实际上连从事研发工作的人,对这些概念也不甚了解。要想搞清楚,还需要从理论层面解读。


用户画像从某种程度上说来源于对事物的描述,但每个人描述事物的方式和角度不一样,梳理共性,可将用户画像分为五个层次:

 

第一个是目标,目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。

第二是描述的方式,分为非形式化(语音、文本、视频、图像……)和形式化(读卡器读取信息的形式)两种手段。

第三是组织方式,就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,包括常识、共识、体系。这个很重要(比如说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达到的。)

最后一个是验证,依据:事实、推理过程、检验。为什么一定要验证?举个例子,比如说某个人“特别不靠谱”,相当于打上标签,但会被反问为什么不靠谱、依据是什么?所以要提前验证,否则会丧失可信力。


据此,可以得出用户画像的定义:用户画像是对现实世界中用户的数学建模。


一方面,用户画像是描述用户的数据,是符合特定用户需求的对用户的形式化描述。从业务中抽象出来,可以形容为“来源于现实,高于现实”。另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象,可以形容为“来源于数据,高于数据”。反过来,根据这个模型,可以挖掘出更多用户画像。


如何构建用户画像?让机器根据一套知识体系理解人类

在90年代流行一种”本体论”方法,但非常复杂。所以重点来了,用户画像构建需要根据一套原则,在这里分享一套相对朴素的方法:


朴素的知识表现方法:符号-概念法。符号与概念是相对应的,比如,狗这个词是一个符号,但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。


朴素的用户特征表现方法:标签-模型法。标签的定义是用户特征的符号表现,模型定义是经验总结的用户特征。什么是标签?举例来说,比如”收入高、坐办公室” 这个群体可以打上白领这个标签;同时标签是跟业务场景绑定在一起的,脱离业务场景的符号没有明确的含义。比如在阿里内部,关于男女,这样最简单的标签,也有12个男和女,它与业务密切相关,不仅仅是指生理上的男和女,还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。


那么,用户画像和标签有什么关系?其实二者是整体和局部的关系,用户画像是整体,标签是局部,而整体和局部的关系可以通过“标签体系”体现。


根据这个逻辑,可以得出,用户画像可以用标签的集合来表现,即“标签体系”方法,用户画像(整体)和标签(局部)还包含两方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体。

 

举例来说:“人都有一双眼睛一个鼻子”,化整为零来看:应该观察到每个人都有一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子才被认为是一个人。

至于标签体系,因为标签是和业务密切相关的,对应的标签体系也要搜集所有业务方的需求,制定出标签体系后,给每一个标签标准进行定义,最后进行标签开发。


另外,在用户画像建模方面,可以将标签建模分为四层:第一层是事实类标签,譬如用户购物了什么品类;第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等;第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等;第四层是业务类的标签,譬如高奢人群、有房一族等,它是由底层的标签组合生成的,通常由业务人员定义。


最后是验证,对模型的验证可以分成两个方面,一个是准确率的验证,标签打得准不准;第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求100%完备的标签体系。不过,目前谈得最多的是准确率。其分为两种,一种是有事实标准的,譬如生理性别;另外一种是无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务A/B Test进行验证。


构建用户画像的关键难题:需要上帝视角


要想精准构建用户画像还面临着许多技术难题,比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据,以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。

 

首先是用户多渠道信息打通,大数据时代我们需要上帝视角。


因为用户与企业的触点非常多,譬如手机、邮箱、Cookie等,要将同一个用户的多个触点进行打通。方法就是把用户ID视为图中的顶点,如果用户的两个触点在同一个场景出现(比如用邮箱登陆),那么就可以把在用户的邮箱和Cookie用一条边进行连接,从而构建一张图。


用户打通可以基于图例的方法进行强拉通,也可以采用机器学习方法进行模糊拉通,预测出拉通的概率。

除了用户打通,不同渠道的产品也需要拉通,可采用标签体系拉通方法:建立一套标准的分类标签体系,比如一颗分类树,任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验,手工映射的方法成本高、难以大规模开展,实际工作中会采用机器学习模型+少量的人工规则来实现。


但要实现自动分类,其中难点不在于模型,而在于获得训练数据、feature engineering,以及分类树层级节点之间的依赖问题。


用户画像应用,是业务和技术的最佳结合点


可以说,“用户画像”在行业应用中算是曝光率最高的技术之一,有很多用武之地,总结来说,包括:售前的精准营销、售中的个性化推荐,以及售后的增值服务等;用户画像的标签维度包括人口属性、上网特征、购物偏好等。


需要强调的是,标签和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面也可以根据应用的需求扩展标签的维度,两者互相促进。

 

首先,根据用户画像进行精准营销。不同于门户广告等DSP公司投放的程序化广告,百分点着眼点在于帮助企业整合、拉通自己的第一方数据,建立企业用户画像、实现全渠道营销。


而且结合百分点的营销管家产品,可以实现触发式的营销。


比如,用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是,通过用户拉通用户画像,对59万个潜在消费者形成4个精准人群,并进行投放,是盲投点击率的10倍。


其次是售中的个性化推荐。这是百分点最开始创立时做的事情,目前已经服务超过1500家的电商和媒体客户,是国内最大的第三方推荐服务提供商。


值得一提的是百分点推荐引擎的设计架构,核心为四大组件:场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。


比如百分点的某个团购网站客户,采用这个推荐引擎解决下单率的问题,通过分析发现了该网站用户的一系列特征,譬如忠诚度低、区域性购买等。

最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案,通过数据接口实时反馈用户相关信息,包括历史维修、历史咨询并进行知识推荐等内容,支撑服务效率、提升客户满意度;同时收集用户的服务满意度数据,进一步补充、完善用户画像信息。


小  结


在大数据时代,机器要学会从比特流中解读用户,构建用户画像变得尤其重要,是上层各种应用的基础。


用户画像不是数学游戏,而是严肃的业务问题。构建用户画像的核心是进行标签建模,标签不仅仅是个符号,更要和业务紧密关联,是业务和技术的最佳结合点,是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论,并有效匹配业务应用,用户画像在实际业务中的重要价值将会越来越大。


讲师介绍:苏海波,百分点集团研发总监,清华大学电子工程系博士。擅长文本分析、机器学习,精于个性化推荐以及计算广告学;多篇论文发表于GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾负责当当网百货搜索以及adsmart广告系统的算法效果优化;曾负责新浪微博信息流广告产品整体算法策略的设计及研发。


百分点大数据学院致力于分享前沿技术,

如对用户画像有更多问题请给我们留言哦。



Copyright © 天津跑腿我帮您社区@2017