文 / 河北银行 GBASE南大通用
近年来,随着5G、大数据、人工智能、物联网等技术的飞速发展,各类数据呈现大规模、多样性的指数级增长,企业需要同时处理海量结构化数据、半结构化数据以及非结构化数据。相较其他行业,商业银行在智能时代更依赖数据要素对业务的支撑,业务流程亟待更丰富、更准确、更高效的数据服务,通过挖掘数据价值,推动业务创新。
面对愈发强烈的数字化转型需要,河北银行在数据应用建设中,结合行内原数据湖,引入南大通用GBase 8a MPP数据库对数据平台升级迁移,形成了MPP+Hadoop技术栈的湖仓一体数据服务体系。
河北银行原数据平台基于Netezza一体机搭建,是行内重要的基础平台类系统。
2019年,IBM宣布停止该款一体机所有支持,同时,行内原有的数据平台面临着诸多问题和挑战,主要体现在以下几点。
1.数据完整性不够。原数据平台存储空间不够,导致关键分析结果和整合后的数据无法长期保存,难以满足使用周期较长的数据服务。而数据平台与大数据平台作为全行数据基础平台,二者相互独立、缺少融合,现有数据架构和技术体系无法实现多样数据的采集,全域数据汇聚能力不足。
2.数据规范性不高。数据标准方面,源系统数据标准不一,数据平台缺乏数据标准的间接落标,导致未能形成可见、易用、好用的数据资产。数据模型方面,缺少针对数据模型的有效管理,数据开发不规范,数据使用低效,数据资产化能力不足。
3.数据时效性不强。数据平台资源使用率触及容量瓶颈且无法扩展,算力不足,无法按时完成分析任务,处理时间较上线初期已延迟7小时,严重影响关键报表的时效性。此外,由于缺少辅助工具支撑,数据研发周期长,进而导致交付效率低。
结合监管要求,河北银行综合考量行内数字化转型对数据能力建设需要,选择引入南大通用GBase 8a MPP数据库,建设新一代“湖仓一体”数据平台,以应对原数据仓库技术支持难以为继,且数据能力方面存在的不足。
引入GBase 8a搭建高性能、可拓展数据平台
图 “湖仓一体”数据平台总体建设方案图
河北银行的数据平台主要用于存储来自核心系统、个贷系统、网银系统、零售系统等各业务系统的数据。新一代数据平台由Netezza一体机升级为支撑海量复杂业务数据、可水平拓展的分布式架构,采用完全自研的分布式逻辑数据仓库GBase 8a以适应各业务系统数据量的不断增长和数据类型的复杂化。
整个数据平台基于16台物理机构建,GBase 8a承载所有结构化数据的存储和计算任务,实现了数据抽取工具的无缝对接,保证了原系统所有的功能替代。同时,同上层应用厂商配合,顺利完成业务迁移任务。GBase 8a进行数据的加工、处理并为生产高价值数据提供可靠、稳定保证。GBase 8a与现有Hadoop系统无缝对接,承载了全行数据模型落标与统一数据整合集成,并形成各个数据层的数据组织与模型。新一代数据平台和数据湖有效融合,基于两套数据生态,进行合理的数据分层,形成一套完整的“采、管、存、用”的数据全流程管理体系。
新一代“湖仓一体”技术平台以南大通用GBase 8a分布式数据库为计算引擎,以数据湖为主存储,支持平台资源弹性扩展,实现了大规模、多类型数据快速接入和存储,形成全域、完整的数据资源,集“湖仓”优势,整合海量存储和高性能计算能力,以更低成本满足了河北银行多层次敏捷用数需求;新平台以更符合业务人员使用习惯的方式重建数据模型,提炼业务条线共性数据需求,构建一站式数据研发交付体系;此外,新系统重构了标准数据体系,建立数据架构、模型设计、数据开发的系统性规范,形成数据标准管理及数据质量管控的长效机制,完成了数据全生命周期管理及治理的有效闭环。
基于GBase数据库构建的“湖仓一体”数据平台在河北银行的成功落地,不但解决了数据完整性、数据规范性、数据时效性等方面的问题,还通过大数据与MPP技术的充分融合,大大提升业务的智能化水平,为河北银行的数据化转型提供了关键驱动力,同时也为后续管理应用系统的建设打下了坚实的数据基础和技术基础。