微博用户人群画像系统数据分析构建

admin2021年06月03日 14:31
cover

微博用户人群画像系统基于微博的大数据,对微博全体用户进行刻画,可对每类用户行为进行数据分析。微博的用画像系统主要包含数据爬取模块、单个画像模块、批量画像模块、查询接口模块。

1.数据爬取模块

数据爬取模块主要是做数据采集和数据清洗,采集用户在开发者平台上填写的资料信息,进行接口调用品类的限制,并保持最新的用户数据,对数据进行清洗,提供用户基础信息及用户关系链的接口,方便各个系统进行调用。

2.单个用户人群画像模块

单个用户人群画像模块主要分为标签生成、用户行为分析、关系链分析。

a.标签生成

标签生成模块顾名思义,主要功能是通过对数据的分析给用户打标签,即用户画像。标签主要分为三类,一是安全标签,二是聚类标签,三是统计标签。

安全标签:描述账号是否异常,依据事先制定好的安全策略,分析异常概览。一是分析黑色产业链的整个流程,分析用户账号被盗之后的特点;二是分析用户的历史行为,来判断目前的用户行为异常的可能性。

聚类标签:对聚类算法的结果进行分析和解释后得出的结论,主要使用的是K-mean聚类算法。

统计标签:将各个指标进行统计分析之后,根据用户的分布,得出统计类标签。

可见这是早期的标签体系,但从标签分类来看,缺乏清晰的分类逻辑。

b.用户行为分析

通过在一段时间内,观察用户行为的变化,进行用户状态的判断和未来行为预测。如用户登录时长、关注数、粉丝数、微博数、收藏数等指标。

c.关系链分析

用户的关系链可以很好的描述一个人,因此关系链分析也是画像的重点。此处主要分析用户好友的年龄,城市以及好友的关注数等指标。

3.批量用户画像

批量用户人群画像主要分为文件上传、结果统计及展示模块。

a.文件上传

文件上传模块,支持用户将需要分析的用户ID写在一个txt文件中,通过前端页面传到后台进行分析。文件中的每个用户ID使用换行分隔符隔开,原则上每个文件的大小不超过10M。

b.数据统计及展示

批量用户人群画像和单个用户人群画像的主要区别是,单个用户人群画像只需要描述单个用户,而批量用户人群画像则需要对多个用户信息进行统计分析。数据统计及展示模块主要使用highcharts实现,使用柱状图、饼状图、散点图进行数据可视化。

独立分析指标:性别、关注数、粉丝数、微博数、收藏数…

联合分析指标:粉丝数、微博数、收藏数;关注数、微博数、收藏数;关注数、粉丝数、收藏数;关注数、粉丝数、微博数;

c.查询接口

接口模块同样是画像系统上十分重要,用户画像系统上创建的分群,可以以接口的形式供各业务系统调用。

数智赋能每一个岗位