用户画像系统的数据架构

admin2021年05月11日 10:27
cover

常见的数据库ETL加工流程,也就是将每日的业务数据、日志数据、埋点数据等经过ETL程,加工到数据仓库对应的ODS层、DW层、DM层。

用户画像不是产生数据的源头,是对数据仓库ODS层、DW层、DM层与用户相关数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive,由于不同数据库有不同的应用场景,后期需要进一步将数据同步到MySQL、HBase、Elasticsearch数据库 。

Hive:存储用户标签计算结果、用户人群计算结果、用户特征库计算结果 。

MySQL:存储标签元数据,监控相关数据,导出到业务系统的数据。

HBase:存储线上接口实时调用类数据。

Elasticserch:支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂,使用Impala执行也需花费大量时间)。

用户标签数据在Hive中加工完成后,部分标签通过Sqoop同步到MySQL数据库,提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

数智赋能每一个岗位