标签管理系统建模与数据监控

admin2022年03月31日 11:22

标签管理系统建模三种方法：

基于机器学习算法建模

这类标签需要通过机器学习算法进行建模挖掘产生，如对用户的某些属性或者行为进行预测判断。如根据历史消费行为和账户逾期情况进行信用等级判定，就属于机器学习领域中的分类问题。再如对公司未来三个月消费金额进行预测，就属于机器学习领域的回归问题。此类标签的模型训练通常需要用到各种机器学习、深度学习框架，如Spark MLlib、Scikit-learn、Pytorch、TensorFlow、XGBoost等框架。

基于统计学建模

这类标签具有时间窗口周期，根据一定的统计学原理来对窗口周期内的数据建模。

离线数据周期通常以过去一周、一个月、一年为窗口大小，如用RFM模型对用户过去半年消费行为数据建模，对不同群分客户实时不同的优惠策略。再如风控场景下计算窗口周期内用户出差城市的离散度，商务出行场景下，高频出发地和目的地一般稳定在一个空间范围内，如果离散度高则有一定的非商务出行风险。

实时数据往往以一次会话、过去15分钟、一小时等为窗口大小，如"过去15分钟查订比“这个统计标签，也属于统计类标签，查订比太低有一定的爬虫风险。

标签系统接口

离线标签管理系统数据主要存储在 Hive 里，生产数据主要存储在 MongoDB 和 Redis 中以提高接口的响应速度和服务的可用性。

整个数据的流程监控调度主要借助于 Zeus 数据管理平台和 Grafan 监控系统完成，数据监控贯穿数据生产消费的整个生命周期，监控报警方式有邮件通知、IM通知等手段。

具体来说主要有以下四个方面的监控：

在数据收集阶段，需要监控上游数据源是否成功生产、数据量大小波动是否异常、各个任务之间依赖调度是否失败，失败任务是否需要重试。

在特征计算阶段，需要监控各数值特征的统计值（最大值、最小值、均值、标准差等）是否在合理区间内、类别特征是否不在枚举范围内、特征重要性（方差、卡方、信息增益）监控。如一个指标在前三个月属于重要性的指标，随着业务变化，该指标的重要性已经降低了，以此来指导模型迭代（特征选择、超参数调整）。

标签管理系统建模阶段，需要监控机器学习模型的准确率、召回率、AUC等模型指标，以保证模型的泛化能力。

标签管理系统接口服务层，需要监控接口的响应时长、健康状态等。

标签管理系统建模与数据监控

数智赋能每一个岗位