数据中台与AI中台层级
常规的数据中台依赖于大量的CPU和内存,相反,机器学习模型对GPU的依赖反而更高,但是又不能脱离数据中台,因为它依旧需要利用数据中台的存储和计算能力来处理大量的数据。所以如何通过一个接口、一个调度器、一个管道pipeline来集成整个工作流,就成了需要考量的事情了。
AI中台至少应该分为以下几个层级:
基础设施:对CPU做虚拟化的技术已经相对成熟,但是智能服务依赖的更多的是GPU,那么GPU如何做虚拟化,算法模型训练和数据是否需要共同使用相同的机器,还是集群相互隔离,都是需要在一开始设计好的。
资源管理:一切都是资源,无论是网络、内存,还是数据、服务,都是资源。对于模型构建者,关注的只是算法本身,如果该构建者需要数据,那这样的数据就是一个资源而已,无论资源是以环境变量的方式提供、还是以服务的方式提供,构建者本身并不需要关心。此时,必须一个资源管理系统,对数据服务进行统一管理。
中台和模型:中台有数据的计算和存储能力外,还应该具备算模型的能力,这里的模型指的是一些业界通用的、或者企业级通用算法模型。它可能是一个算法、可能是一个别人已训练好的模型,可以使用迁移学习的方式去使用。对于中台来说,它都是一个数据集的体现,不应该和一个表,一个文件有特别的区分。
流水线:流水是构建规模化智能服务非常重要的一个环节,工作如其名,我们构建智能服务的时候,可以像流水线工作一样,达到这样的效果,则需要对整个任务进行非常详细的分解。
智能应用层:智能应用层直接面向终端,怎么利用元数据等功能,组合各自不同模型提供的服务,构建出组合效应的创新服务。
在数据中台的基础上,扩展对GPU级别资源的管理和整合能力,调度层提供统一的任务、服务、智能CI/CD等服务,来实现AI中台。这样以来,就可以达到:
和数据平台结合,利用数据平台的能力作为数据支撑,最大化的发挥数据平台的价值
拆分服务构建环节,智能服务开发流程化,快速响应业务需求
利用元数据管理方式,提供统一的标准格式,场景可以多人协同配合开发
基础设施共享化,模型的训练和发布与数据平台有效绑定,服务的构建自动化
统一的元数据管理系统,模型的全生命周期可管理
通用AI能力平台化,降低人员要求,提升协作效率
利用算、模型、框架,动态、快速地组装服务,创造出新的个性化体验和新的业务新的业务模式,解决“好用”的问题。