标签管理系统建模与数据监控

admin2022年03月31日 11:22
cover

标签管理系统建模三种方法:

基于机器学习算法建模

这类标签需要通过机器学习算法进行建模挖掘产生,如对用户的某些属性或者行为进行预测判断。如根据历史消费行为和账户逾期情况进行信用等级判定,就属于机器学习领域中的分类问题。再如对公司未来三个月消费金额进行预测,就属于机器学习领域的回归问题。此类标签的模型训练通常需要用到各种机器学习、深度学习框架,如Spark MLlib、Scikit-learn、Pytorch、TensorFlow、XGBoost等框架。

基于统计学建模

这类标签具有时间窗口周期,根据一定的统计学原理来对窗口周期内的数据建模。

离线数据周期通常以过去一周、一个月、一年为窗口大小,如用RFM模型对用户过去半年消费行为数据建模,对不同群分客户实时不同的优惠策略。再如风控场景下计算窗口周期内用户出差城市的离散度,商务出行场景下,高频出发地和目的地一般稳定在一个空间范围内,如果离散度高则有一定的非商务出行风险。

实时数据往往以一次会话、过去15分钟、一小时等为窗口大小,如"过去15分钟查订比“这个统计标签,也属于统计类标签,查订比太低有一定的爬虫风险。

标签系统接口

离线标签管理系统数据主要存储在 Hive 里,生产数据主要存储在 MongoDB 和 Redis 中以提高接口的响应速度和服务的可用性。

整个数据的流程监控调度主要借助于 Zeus 数据管理平台和 Grafan 监控系统完成,数据监控贯穿数据生产消费的整个生命周期,监控报警方式有邮件通知、IM通知等手段。

具体来说主要有以下四个方面的监控:

在数据收集阶段,需要监控上游数据源是否成功生产、数据量大小波动是否异常、各个任务之间依赖调度是否失败,失败任务是否需要重试。

在特征计算阶段,需要监控各数值特征的统计值(最大值、最小值、均值、标准差等)是否在合理区间内、类别特征是否不在枚举范围内、特征重要性(方差、卡方、信息增益)监控。如一个指标在前三个月属于重要性的指标,随着业务变化,该指标的重要性已经降低了,以此来指导模型迭代(特征选择、超参数调整)。

标签管理系统建模阶段,需要监控机器学习模型的准确率、召回率、AUC等模型指标,以保证模型的泛化能力。

标签管理系统接口服务层,需要监控接口的响应时长、健康状态等。

数智赋能每一个岗位