具有社交天赋的人的社交app用户画像像是怎样的,哪种游戏玩家更

想要做一款图片社交产品,应该如何做用户画像?我是指具体的操作步骤、注意事项? - 知乎134被浏览6601分享邀请回答181 条评论分享收藏感谢收起4添加评论分享收藏感谢收起查看更多回答1 个回答被折叠()后使用快捷导航没有帐号?
请完成以下验证码
易观:用户画像指导精细化用户运营案例
发布时间:
知识文档-点击下载
17:19 上传
点击文件名下载附件
4.08 MB, 257人喜欢 , 5796人浏览
所需积分: 2 积分
完整版 PDF
17:20 上传
用户画像指导精细化用户运营 用户画像的方法论
17:20 上传
产品生命周期中的消费者研究
17:20 上传
以用户生命周期数字化管理为精细化运营的基础
17:20 上传
用户生命周期中营销重点
17:20 上传
行业特性及差异分析
汽车整车销售、耐用消费品等长消费周期的行业更重视潜客的获得快消、金融银行、品牌零售、包装食品、互联网、旅游、服务等短消费周期的行业更重视既有用户的维护市场格局未定、品牌市场占有率仍有空间:抢占市场为主、广告营销为主。新品牌、互联网企业等市场格局已定、品牌市场占有率饱和:更加重视深挖掘既有用户价值。500强企业、电信、日化快消、金融服务等。
17:20 上传
企业用户数据资产管理
17:20 上传
企业用户数据来源渠道
17:20 上传
企业用户数据资产管理战略
整合渠道的数据资源
•用户基础信息
•用户交易数据
•用户行为数据
•用户偏好数据
数据价值发现
•将各个渠道数据整合打通,建立统一的数据管理平台
•基于收集的数据进行数据挖据和分析,为数据应用和精准营销提供基础
用户群体划分及应用
•客户偏好
•产品升级推荐
•产品交叉营销
•用户生命周期细分
•客户生存期预测
•客户授信分析
•用户分级
•用户体验度提升
•流失用户挽留
17:20 上传
用户标签:用户数字化管理的基础
时间?地点? 环境标签•应用场景标签
•设备标签
•网络环境标签
•地理位置标签
为什么? 主观意识形态标签
•生活方式标签
•价值观世界观
•需求动机标签
•观点态度标签
谁? 描述性标签
•用户统一标识
•人口属性标签
•体态特征标签
•健康状态标签
做什么?怎么做? 行为数据标签
•内容偏好标签
•交易行为标签
•品牌偏好标签
•社交行为标签
17:20 上传
企业自有用户标签体系建立
17:20 上传
外部标签数据增补方可完善企业标签体系
自有媒体上的内容偏好自有用户触点上的行为偏好自有品牌的关注自有产品的交易数据自有产品的使用情况自有社会化媒体行为人口属性、地理位置
17:20 上传
企业级数据管理平台(DMP)的全景
17:20 上传
DMP搭建的步骤
目标1、数据整合接入管理
2、数据标签统一管理
3、数据挖掘、数据建模
4、数据应用接口开发
5、数据商业化平台
整合企业现有数据、提供外部数据供应商数据接入。数据库建设,数据清洗、规整目前所有可用数据,初步形成的用户数据仓库标签标准化,数据标签体系建立、数据标签模型建立平台建立,数据分析建模、提供数据挖掘、数据可视化支持对外部应用开放的数据调用接口:查询、使用、更新接口。为内部应用系统提供数据支持。根据数据应用的业务场景,开放脱敏数据接口,实现数据商业化目标
17:20 上传
底层数据库逻辑框架
17:20 上传
自有数据价值的发现与应用
17:20 上传
数据价值的发现与应用:产品组合营销
17:20 上传
数据价值的发现与应用:会员个性化激励
Member Behavior Analysis:以电商购买行为和互动活跃度两个维度,细化两个维度的指标,并赋予不同的积分及权重,以综合的积分作为考量会员价值进行会员分级的基础以及一对一定制化推送内容的基础。Member Rating:将会员根据积分总数分为白金,金,银,铜四个层级,白金会员是无论在电商购买或互动活跃两个维度表现都最为突出的VIP会员,金,银,铜会员则根据加权合计的积分总数来自2.3象限。Member Offering:按会员分级,member offering 相应分级:1.积分兑换分级/2. 积分抽奖分级/3. 电商折扣分级/4. 线下活动参与权益分级
17:20 上传
数据价值的发现与应用:用户流失预测模型
业务背景:电商网站阶段运营方向主要计划为预防新人流失,通过流失模型预测新人用户的流失可能性流失新人指标范围确定• 根据运营经验筛选出和新人会员流失相关指标约80个
• 通过数据挖掘算法与实际数据的计算,结合业务合理性评估,最终进入模型的指标为10个
预测模型测试
• 模型预测区分能力表现良好(K-S=53%,Gini=20%)
• 流失会员特征将落地在决策引擎中,为定位流失会员特征,挽回流失会员提供数据和策略支持
17:20 上传
数据价值的发现与应用:用户流失预测模型
17:20 上传
用户移动端行为数据的价值与应用
17:20 上传
基于APP的使用行为进行人群划分
17:20 上传
基于标签因子的用户生活形态进行人群划分
17:20 上传
细分用户画像及行为特征分析
17:20 上传
目标人群对比分析——领域关注点TGI对比
17:20 上传
用户生活形态画像——常旅人群偏好
17:20 上传
目标人群对比分析——领域关注点TGI对比
17:20 上传
目标人群对比分析——领域关注点TGI对比
17:20 上传
用户生活形态画像——教育学习偏好
17:20 上传
用户生活形态画像——高消费倾向
17:20 上传
用户生活形态画像——旅游偏好
17:20 上传
目标人群对比分析——领域关注点TGI对比
17:20 上传
用户生活形态画像——工作商务行为偏好
17:20 上传
用户生活形态画像——网络消费偏好
17:20 上传
用户生活形态画像——娱乐行为与媒体接触偏好
17:20 上传
人群分析结论
•年龄偏高,健康问题比较突出,35~45岁之间;
•经济状况很好,重度投资用户,投资偏理性;
•大数为有车一族,市内出行采用自驾或打车出行;
•工作规划性很强,偏领导管理岗位
•常旅人群,出行偏航空出行;
•房产、奢侈品等高端消费能力强,房产属于投资性用户;
•旅游偏好,偏向直接采购旅游产品;
•日常消遣,偏好阅读、音乐、视频及有声读物等较为“独立”“安静” 的方式;
•年富力强,通过运动健身和健康管理关爱健康,30~35岁之间;
•稳定收入来源,重度投资用户,投资不够成熟;
•购车倾向突出,属于潜在购车人群;
•日常工作繁忙,经常吃外卖,采用在线教育的方式给自己充电;
•常旅人群,出行偏低端出行,但非常关注商旅服务品质;
•房产、奢侈品等高端消费能力较强,房产属于刚需住房用户;
•旅游偏好,偏向自由行方式,喜欢参与旅游线路设计和分享;
•日常网络消费能力强,价格敏感,但也关注品牌品质;
•日常娱乐,偏好网络游戏、刷微博等“互动”较强的方式;
17:20 上传
17:20 上传
17:20 上传
17:20 上传
17:20 上传
17:20 上传
17:20 上传
width:100%">
2017年7月,值得收藏的25份报告2017年6月,值得收藏的25份报告
||||||||||966,690 七月 独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于:
40亿移动设备的用户画像和标签架构实践
40亿移动设备的用户画像和标签架构实践
日. 估计阅读时间:
不到一分钟
智能化运维、Serverless、DevOps......2017年有哪些最新运维技术趋势?!
相关厂商内容
相关赞助商
CNUTCon全球运维技术大会,9月10日-9月11日,上海&光大会展中心大酒店,
画像有什么用处呢?大家之所以要进行用户画像,就是为了解决业务问题,或者为了拓展一个新用户,或者为了获得一个新订单。想要获得新用户,首先必须知道自己产品定位的用户画像(也就是用户长什么样子,有什么行为特征),而很多产品设计的时候可能由于定位不清晰,对用户的了解不够,导致最后产品上线后效果与预期大相径庭。
这里举一个例子,A银行的电子支付团队计划与Uber公司合作,在春节后以短信推送优惠劵的方式进行营销,选择了多类人群进行投放,其中有&有打车需求且有车&和&有打车需求且无车&两类人群,本以为&有需求且无车&人群的广告触达的营销效果会更好,结果却完全相反,&有需求且有车&人群的广告触达的比例反而最高。这可能映射出无论是开车还是打车,习惯了车反而离不开车。用数据来画像正是帮助企业了解用户和定位产品的最直接的方法。&
综上我们可以看到要向更好的解决业务问题,首先必须明确业务目标,而用户画像是帮助企业明确目标客群的重要手段之一。当企业了解了自己的用户都长什么样子以后,接下来的任务就是如何将有类似画像特征人群的潜在用户变成自己的用户,也就是在营销上获新客的过程。所以,从大的框架来看,用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。
如果仔细琢磨这两个目标,其实在根源上逻辑是有些相悖的。了解现有用户的画像,需要的是少量、画像特征覆盖度全面的无倾斜的精准样本,这样能更精确的定位产品的用户。而通过画像结果做广告营销获取新用户,在一定程度上需要的是大量的相似样本。量的大小和精准度的不同决定了后续画像模型在应用设计中的不同。
提到用户画像就不得不提到一个词&标签&。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
举个例子,如果一款卖男装的app想在近期做营销,只筛选&男性&和&网络购物&这两个标签进行投放,可能效果并不一定理想。因为&性别(男/女)&可能有多种维度,真实性别男女是一种维度,网络购物特征男女是一种维度,性取向男女可能又是另外一种维度。因为网络的发展,你甚至都不知道网络的另一端是不是一个人,更何况是男女呢。想要正确的设计标签模型和计算处理数据,必须了解画像标签应用的场景和目标。
接下来如何进行用户画像呢?这完全取决于业务目标(需要什么样的画像标签)和有什么样的原材料(有什么类型的数据源),基于这两样才能确定使用什么样的模型设计和数据计算处理方式。就像做菜一样,要做一顿美味的晚餐,必须知道客户是想吃中餐还是西餐,配菜都有哪些鱼蛋肉和蔬菜,然后才能确定牛肉是红烧还是煎炸。
仍然以性别(男/女)为例,尝试演绎一下刚才的三个场景。
如果业务是征信场景,想知道的是这个人的真实性别(男/女),在没有全量真实数据的前提下可以采取如下的方法来处理,可以选取少量真实样本,使用这些真实样本追加一些特征因子,使用lookalike算法进行样本扩展,将该少数样本特征扩展到大量或者全量数据。当然,这些数据的准确度取决于样本的均衡程度和算法的质量。
如果业务是网络购物的电商场景,我们先不尝试判断真实购买男装的是否是男性(很多已婚人士是妻子负责网购丈夫的装备),仅仅考虑将来该网络账户实体是否会购买男装的角度考虑,需要的是&男装购买倾向&的标签,可以直接基于所有账户实体以往购买记录来计算处理该标签。
如果是业务场景是blued(一款同志交友app)定义的男性又是另外一个特殊群体,基于客户想拓展新客,这里定义的特殊男性群体或许可以定义为&男性同志&标签,而实现该标签可以考虑通过安装了类似同志交友的app人群或者以同志人群经常出现的聚集地进行计算处理。
所以说针对不同的行业,不同的应用场景,需要使用不同的数据源进行不同的标签设计和计算。
说起标签,可能每个行业有每个行业的标签体系,各个公司基于自己的数据源和特征不同也设立了不同的标签体系。我认为这些标签都可以归纳为以下几个方面。
人口属性:包含性别、年龄等人的基本特征
资产情况:车辆、房产、收入等资产特征
兴趣特征:阅读资讯、运动健康等兴趣偏好
消费特征:网上/线下消费类别品牌等特征
位置特征:常驻城市、职住距离等
设备属性:所使用终端的特性等
要支持以上这些标签的设计和计算,需要多种维度的数据源,从产生维度来看:可以包含PC端的数据、移动终端的数据、线下的数据;从数据拥有者来看:可以包含一方客户自己的数据、外部官方渠道的数据、市场采集的数据;从数据类型来看:有社交数据、交易数据、位置数据、运营商数据等。
使用这些不同源的数据,我们如何计算处理业务需要的标签呢?一般都会经过如下几步:
数据抽取:从不同数据源抽取要计算标签的数据原材料。
数据标准化:针对抽取的数据将其清洗为标准格式,将其中的错误数据和无效数据剔除。
数据打通:不同来源的数据有不同的主键和属性,如何将这些数据关联起来是数据打通的关键,比如有设备的wifi信息,又有设备的poi信息,就可以通过wifi将设备终端和POI建立起关联。
模型设计:针对不同的数据内容和业务目标设计不同的规则和算法进行模型的构建,并使用小样本数据来验证模型的可靠性。
标签计算:在模型可靠性验证的基础上,部署生产运营环境来进行标签计算。
一般标签计算无外乎以上过程,以&大学生&标签为例,假如我们需要针对移动终端人群设计一个大学生标签,而我们并没有每个大学生的入学信息和证件信息,我们该如何操作呢。首先进行业务分析,发现大学生的行为特征,一般大学生都会在大学校园内活动比较多,我们可以将全国2000多所高校的位置找到,根据移动终端设备的位置信息来筛选&大学生&人群;另外大学生可能还会使用一些特殊的app比如考研类、四六级、超级课程表等这些特殊app,我们可以通过app进行&大学生&人群的筛选。
如果不用算法,就只用规则,我们想找精确的&大学生&人群,可以将位置和app行为两个特征叠加使用;如果我们想要扩展样本进行大规模广告投放,可以考虑含有位置、app行为任意一个特征的人群,同时还可以通过算法进行lookalike的扩展样本学习。
注:以上表达的都是数据和标签处理的逻辑过程,实际业务中的数据处理要视具体情况而定。
最后说一说用户画像和标签设计/计算中的一些难点。
1. 如何定义画像主体?也可以理解为如何唯一标识一个实体?
可以理解真实世界每个人都是一个实体,但是虚拟世界他可能就变身为多个,比如人可能有一个身份ID,但是可能有多个手机,就对应了多个手机号,多个设备终端ID,那就对应多个移动终端的使用行为;这多个终端ID分别代表了这个实体的不同特征,只有将这个实体拼接起来才能代表完整的画像。一个人可能有多个qq号,如果从qq行为的角度分析,同样的逻辑。这是终端实体多对一的体现。
反过来也会有一对多的情况,比如就一个家庭用的ipad,孩子用ipad来玩游戏,父亲用ipad来查收邮件,母亲用ipad来购物,这一个ipad代表了多个实体的行为特征,并且无法分拆。所以要想唯一完整的定义一个实体其实很难。所以在业务领域中追求标签的完整性有时候是一个很难达到的目标,反过来应该更多的关注标签的代表性,无论是一对多还是多对一,只要能通过标签筛选出来想寻找的受众群体就可以,即便是家庭公用的ipad,有游戏标签也表明了家庭中有成员有该方面的兴趣偏好。
2. 如何打通不同源的数据?
pc端的行为信息、移动终端的行为信息和TV端的行为信息,如何将这些信息关联起来?核心问题在于如何将这些终端的唯一标识ID打通。TalkingData的数据体系已经建立了以TDID为核心ID的关联图谱,TalkingData的IDmapping能力已经实现了跨设备ID的关联映射。所以要解决不同源ID的打通只要接入一家类似TalkingData的数据即可。
感谢大家能如此长时间的听我唠叨,希望这些信息对您的工作能有所帮助。
大家都刚刚跨入大数据的门槛,大数据在各个领域的应用任重而道远,希望同行多多切磋学习,一起前行。
Q1:画像的时候常用的算法有哪些,比如什么类型的标签适合什么类型的算法?怎么评估画像画的好坏?
王鹏:我们除了用常规的算法以外,还有自研的开源算法系统fregata,基于spark,支持10亿样本1亿维度的超大规模运算,无需调参,超高速度。
(点击放大图像)
评估画像的好坏:1、小样本的真实验证;2,在实际的case中迭代验证
Q2:画像的标签体系一般怎么设计,还有你们的标签体系如何存储?更便于不同画像标签之间的追溯?
王鹏:画像的体系一般参考你们公司的业务体系来设计。标签的存储也取决于你的服务应用场景:我们的存储有多种:hdfs、vertica、hbase。标签的追溯属于另外一个问题,取决于你的标签的生命周期,有的标签就是最新的,有的标签就是每周每月加工的,有的标签是有时间衰减迭代的。
Q3:标签的确定一般是怎样的?是人工打标签,想业务场景,还是通过自动的算法跑出来?TalkingData目前又是如何实现的呢?
王鹏:标签的确定,一般是先人工筛选小样本规则,进行验证,规则合理后,在通过算法扩展。
人工和自动是结合的,取决于该标签的具体场景、字典数据的使用、主数据的量等各种因素。
TD的标签也是结合这二者一起完成的。
Q4:计算标签的具体流程是怎样的 效果如何评估 谢谢 ?
王鹏:计算标签的具体流程我在刚才讲的过程中已经说过了,这里可以再贴一下:
数据抽取:从不同数据源抽取要计算标签的数据原材料。
数据标准化:针对抽取的数据将其清洗为标准格式,将其中的错误数据和无效数据剔除。
数据打通:不同来源的数据有不同的主键和属性,如何将这些数据关联起来是数据打通的关键,比如有设备的wifi信息,又有设备的poi信息,就可以通过wifi将设备终端和POI建立起关联。
模型设计:针对不同的数据内容和业务目标设计不同的规则和算法进行模型的构建,并使用小样本数据来验证模型的可靠性。
标签计算:在模型可靠性验证的基础上,部署生产运营环境来进行标签计算
效果评估除了刚才说的真实case验证以外,还可以考虑外部标签的交叉验证,自有标签的交叉验证,比如:有&已婚&标签的,不可能是&18岁以下&人群;&已婚&标签的&大学生&人群也应该极少;&大学生&标签的人群&有车&标签的也应该很少。
Q5:在做用户画像时如何解决数据准确性不足的问题,毕竟非BAT公司太多,很多数据都不完善,或者说没有准确数据。
王鹏:说到这个问题,谈谈我对大数据的看法:我理解大数据本身不存在所谓的正确性,大数据是用来验证人的先验知识/经验的一种工具,这个里边应该考虑的不止是准确性的问题,而是如何能更好的提高你认为的准确率的问题,大数据由于体量大,需要的是数量、时间等多维的迭代,维度的扩展。
王鹏,TalkingData数据产品总监&数据负责人,负责公司数据架构设计及质量管理,自有数据及第三方数据的收集、处理、加工全过程管理,数据标签和数据市场等产品的管理工作。曾任四维图新数据中心品保部经理、阿里-高德地图数据产品事业部数据产品总监等职位。在数据领域有深厚的积淀,对数据应用和数据管理有深刻的见解。
TalkingData:
感谢对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至。也欢迎大家通过新浪微博(,),微信(微信号:)关注我们。
Author Contacted
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
InfoQ每周精要
订阅InfoQ每周精要,加入拥有25万多名资深开发者的庞大技术社区。
架构 & 设计
文化 & 方法
<及所有内容,版权所有 &#169;
C4Media Inc.
服务器由 提供, 我们最信赖的ISP伙伴。
北京创新网媒广告有限公司
京ICP备号-7
找回密码....
InfoQ账号使用的E-mail
关注你最喜爱的话题和作者
快速浏览网站内你所感兴趣话题的精选内容。
内容自由定制
选择想要阅读的主题和喜爱的作者定制自己的新闻源。
设置通知机制以获取内容更新对您而言是否重要
注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为:
公司性质:
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为:
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。9110人阅读
Hadoop(59)
大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动。网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映。数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。
图1 大数据发展路径
陈新河把网络画像分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等八类,并通过实践案例进行了阐释。
未来,人生的每个历程无时无刻不由数据驱动。
图2 数据驱动人生
未来,设备全生命周期也将由数据驱动。
图3 数据驱动汽车全生命周期(海略咨询)
刘译璟博士首先从百分点推荐引擎开始,深入探讨了四大引擎。
场景引擎:个性化的核心,判断用户处于哪个购物环节,有什么样的购物目标;
规则引擎:业务的核心,结合用户、场景、算法输出数据和业务KPI,决定为用户推荐哪些内容;
算法引擎:计算用户之间的相&#20284;度、商品之间的相&#20284;度、用户对商品的评分、用户分群、热门排行……
展示引擎:将推荐内容以最佳的展示方式呈现在用户面前。
推荐引擎的核心是将购物流程数据化,而其前提是将用户数据化。如何将用户数据化呢?就是用户画像。
刘译璟博士用几个生活中画像的例子生动地阐释了什么是用户画像。
用户画像的目标、方式、组织、标准和验证等几个特点。
他认为用户侧写可能更加准确的描述“用户画像”这个词,因为我们是通过有限的信息来描述一个人,而非通过全息相机照相的模式来描述一个人。
从技术角度来看,人在网络空间是一个比特流,人们认识人的方式发生重大改变,由物理空间的“相面”转变为网络空间比特流解析,更重要的是教会机器按照人类交给他的规则从这些比特流进行自动识别。能够从千万计的用户中找出金融诈骗者、恐怖分子等。
如何实现这一过程?这就需要一种类&#20284;成像技术中的像素来对人的特征进行刻画,这就是画像中的标签。
大数据用户画像其实就是对现实用户做的一个数学模型,在整个数学模型中,其核心是,怎么描述业务知识体系,而这个业务知识体系就是本体论,本体论很复杂,我们找到了一个特别朴素的实现,就是标签。建好模型以后,要在业务的实践中去检验,并且不断完善,不断丰富这个模型,来达到利用比特流对人越来越精确的理解。用户画像不是一个数学游戏,不是一个技术问题,实际上是一个业务问题。因为最核心的是你去如何理解用户,了解你的用户。它是技术与业务最佳的结合点,也是一个现实跟数据的最佳实践。
李海峰分享了百分点在用户画像方面的实践和案例。
他首先以自己为例分享了画像样例。基于他这个人可以知道他所在的城市是在北京,男性,公司在百分点,喜欢的品类是男鞋、运动鞋,喜欢的品牌有耐克、阿迪达斯等等。每一个标签都有一个权重&#20540;。可以看到,耐克的权重&#20540;比阿迪达斯更高一些。
这幅图是通过云图的方式对百分点创始人/董事长兼CEO苏萌进行的特征画像。
百分点的画像标签体系包括:人口属性、上网特征、营销特征、内容偏好、兴趣偏好等。
以手机商品属性为例,包括品牌、品类、型号、上市时间、价&#26684;、颜色、网络、操作系统、分辨率、屏幕尺寸等等。
标签管理体系具有如下特性。
有多种标识方式对用户进行识别,这就像社会生活中的身份证号码一样,只不过换成了网络空间的手机号、Cookie、IMEI、Email、微博、微信账号等,在处理过程中,这些信息都是加密的,机器知道但人不知道。
百分点用户画像逻辑架构如下图所示,通过对电商、社区、移动应用、微博、微信等多种类别的数据源进行采集,然后对用户进行画像,最终在个性化推荐、用户洞察、精准营销等方面进行应用。百分点的数据源多且庞大,服务的客户超过了1500多家,覆盖行业超过了40多个。举例来说,一个网民,他在访问一个电商A,同时又访问了一个电商B,这两个电商本身的知识体系是不一样的。比如说这个用户他访问一双鞋,他在电商A上的品类可能是鞋-男鞋-运动鞋,在网站B上可能是运动-户外-男鞋,品类描述可能是不一样的。所以百分点打造了这么一个系统,叫商品画像系统。通过这个系统,所有的标签就有了一个标签规划,之后就可以去构建这个用户在全网的用户画像标签。用户画像只是一个起点,而不是一个结束。基于此,还可以打造一系列的服务,比如精准营销、个性化推荐等。
下图是用户画像的技术架构图。我们可以看到总共分为五层:第一是数据源;第二层是数据采集服务,百分点有一堆数据采集服务,包括我们的数据探头,能够对用户的行为进行一个实时采集;第三层是数据预处理,主要是结构化;第四层是商品画像,这一块都是我们的用户画像服务。我们可以看到用户画像是分两大块,实时处理更偏重于预测用户画像的需求,离线处理更偏重于用户的长期偏好;第五是统一的数据接口,还有就是集群,上面可以接入各种各样的应用。
下图是用户标签产出流程示例。
用户在互联网上的行为主要分为电商类、社交类和媒体类。每种行为差异很大,电商类行为包括浏览、搜索、添加购物车、收藏、支付等,而社交类则是点赞、转发、评论等。
接着下一步需要对页面标签进行抽取,在做这件事情之前需要训练模型,首先准备训练数据,通过标注和规则生成,再就是对于序列集做一个序列化处理。首先会得到一个弱模型,最终得到一个强模型,然后把自己的参数都保留下来。这个时候我们会加一个决策,如果说效果不太好的话,我们会进行下一轮的优化。当这个模型设置之后,我们就可以去做预测了。我们的预测总共分为四大块,包括输入、输入预处理、预测和产出。也就是说用户这个标签已经有了,这个标签对用户的信誉度是1还是0?这个时候就到了用户行为建模。用户行为建模的背后思想主要可以认为有两大块,成本越高行为权重越高,下单就比浏览更高一些,时间越近的行为权重越高,比如我今天看了一个手机,一定比我一周前看了一次电脑权重要高一些。我们可以按场景去分,首先是产生需求,再就是决策,然后是结束,百分点基于业务考虑,实行标签权重积累的机制。
这是我们的客户某航空公司的案例,项目目的是挖掘高价&#20540;旅客,希望通过分析旅客出行偏好优化运力资源。最终百分点帮他构建了5个标签大类,75个标签小类,数万个小标签,以下是当时的一些效果截图。
刚才讲的都是百分点已经做的事情,但是百分点做得还远远不够。接下来可能会在四大方面深入思考和实践:一是不同的场景,也就是说用户在家里和在办公环境下代表的偏好是不一样的;二是用户心理学特征,比如当一个用户看一件女装的时候,她这个时候是无聊去逛还是有目的的逛,反映在标签权重上是不一样的;三是让用户主动反馈反感点,我们强调了许多,一般都是在强调用户喜欢什么,但是用户不喜欢什么,我们做得还不够,我们应该让用户主动告诉我们他不喜欢什么,比如他不喜欢吃葱,他不喜欢吃羊肉串,这样我们预测的时候会准得多;四是用户的兴趣转移快速捕获,一开始我们使用的是一个半衰期的,而且按频率细分,我们是否可以按人去分?比如按访次去分?比如针对品类手机这个标签,对于手机发烧友,可能过了一年他依然会对手机比较感兴趣,但是对于像我这种,只有想购买的时候才去看,可能我两天不看,就表示这个兴趣已经衰减为零了。
文章出处:/archives/337393.html
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:225688次
积分:3014
积分:3014
排名:第11491名
原创:81篇
转载:74篇
评论:27条
(1)(5)(3)(1)(9)(7)(4)(6)(1)(6)(2)(1)(2)(9)(1)(2)(7)(3)(1)(3)(1)(1)(3)(1)(2)(4)(3)(2)(12)(12)(2)(1)(4)(8)(2)(2)(1)(1)(3)(1)(6)(1)(1)(1)(3)(3)

我要回帖

更多关于 社交用户画像 的文章

 

随机推荐