微博用户人群画像系统数据分析构建
微博用户人群画像系统基于微博的大数据,对微博全体用户进行刻画,可对每类用户行为进行数据分析。微博的用画像系统主要包含数据爬取模块、单个画像模块、批量画像模块、查询接口模块。
1.数据爬取模块
数据爬取模块主要是做数据采集和数据清洗,采集用户在开发者平台上填写的资料信息,进行接口调用品类的限制,并保持最新的用户数据,对数据进行清洗,提供用户基础信息及用户关系链的接口,方便各个系统进行调用。
2.单个用户人群画像模块
单个用户人群画像模块主要分为标签生成、用户行为分析、关系链分析。
a.标签生成
标签生成模块顾名思义,主要功能是通过对数据的分析给用户打标签,即用户画像。标签主要分为三类,一是安全标签,二是聚类标签,三是统计标签。
安全标签:描述账号是否异常,依据事先制定好的安全策略,分析异常概览。一是分析黑色产业链的整个流程,分析用户账号被盗之后的特点;二是分析用户的历史行为,来判断目前的用户行为异常的可能性。
聚类标签:对聚类算法的结果进行分析和解释后得出的结论,主要使用的是K-mean聚类算法。
统计标签:将各个指标进行统计分析之后,根据用户的分布,得出统计类标签。
可见这是早期的标签体系,但从标签分类来看,缺乏清晰的分类逻辑。
b.用户行为分析
通过在一段时间内,观察用户行为的变化,进行用户状态的判断和未来行为预测。如用户登录时长、关注数、粉丝数、微博数、收藏数等指标。
c.关系链分析
用户的关系链可以很好的描述一个人,因此关系链分析也是画像的重点。此处主要分析用户好友的年龄,城市以及好友的关注数等指标。
3.批量用户画像
批量用户人群画像主要分为文件上传、结果统计及展示模块。
a.文件上传
文件上传模块,支持用户将需要分析的用户ID写在一个txt文件中,通过前端页面传到后台进行分析。文件中的每个用户ID使用换行分隔符隔开,原则上每个文件的大小不超过10M。
b.数据统计及展示
批量用户人群画像和单个用户人群画像的主要区别是,单个用户人群画像只需要描述单个用户,而批量用户人群画像则需要对多个用户信息进行统计分析。数据统计及展示模块主要使用highcharts实现,使用柱状图、饼状图、散点图进行数据可视化。
独立分析指标:性别、关注数、粉丝数、微博数、收藏数…
联合分析指标:粉丝数、微博数、收藏数;关注数、微博数、收藏数;关注数、粉丝数、收藏数;关注数、粉丝数、微博数;
c.查询接口
接口模块同样是画像系统上十分重要,用户画像系统上创建的分群,可以以接口的形式供各业务系统调用。