欢迎user
TechECR记者 张戈
奔腾的AGI时代,每一颗数据都值得被尊重。
尤其在金融领域,改变已经发生。数据在AGI的加持下,正在重构风险管理、投资决策、元宇宙营销等场景,也正在重新定义智能投顾、智能投研、客户服务等场景。
但前提是,数据留得住、用得好。这既要能做到“颗粒归仓”,将金融票据影像所产生的数百亿“小文件”数据,一个不少地颗粒归仓;又要能响应业务需求,1秒钟内就找到并取出指定的数据。
数据要素承载智慧金融
老架构遇到新问题
数据要素是智慧金融的基础。
目前,金融机构在信贷、承保、理赔等各种业务中正源源不断的产生各种数据,其中80%以上是非结构化数据,包括:票据扫描件、凭证扫描件、身份证扫描件、录音文件、录像文件、照片、开户文件等等;而根据金融行业法规要求,银行录音录像资料,至少保留到产品终止日后的6个月。银行、保险的票据扫描件,需保留15年以上。证券期货行业的要求更为严格,相关资料的保存期限不得少于20年。
长期以来,金融机构一直采用传统NAS文件存储来保存和管理这些影像数据,然而,当这些影像数据不断爆炸式增长的时候,海量影像非结构化数据的存储对传统NAS文件存储架构带来前所未有的挑战。
挑战一:海量小文件并发读写响应超时
金融行业的海量影像数据绝大部分是几十KB或几百KB的小文件。例如客户人像(JPEG图像),大小约15KB,协议原始文件(PDF文件),每页约80KB,15秒的签字录像文件(AVI视频),也就900KB。
NAS的传统树状目录结构在小文件读写过程中,存在肉眼可见的天花板,存储性能随着文件数量和目录层级的增加逐步下降,文件访问时延超过秒级、甚至查询卡死。与此同时,金融行业对于数据读写访问时延极为苛刻,众多保险公司要求核保的延时不能超过1秒,众多证券公司要求查询文件时间小于3秒。因此,传统NAS文件存储架构与金融行业苛刻的性能要求形成矛盾。
挑战二:扩展能力受限管理复杂
金融机构海量影像数据总量往往增长迅猛,一个国有银行较大的分行,每天要产生30万张以上的各类型交易票据,保险公司每天可能生成200万个以上的电子化文档,这就涉及数以亿计,甚至百亿计的海量非结构化数据存储。
传统NAS系统扩展能力有限,无法支撑亿级海量文件数据的存储与访问。只能支撑竖井式的单一业务系统,这样就在系统中产生了不同的数据孤岛,相互之间数据难以流动,导致后台数据管理极其复杂。
挑战三:合规与业务连续性挑战
金融行业的合规性要求影像文件存储系统提供较高的系统可靠性和数据可用性,保障前端业务系统连续运营。根据《商业银行业务连续性监管指引》,金融机构重要业务RTO不得大于4小时,重要业务RPO不得大于半小时。
对象存储应对海量数据挑战
老问题打开新思路
对象存储完美解决了传统NAS文件存储在应对海量文件数据存储遇到的难题。对象存储以对象(Object)的方式来管理数据,每个对象包括数据本身、元数据和一个全局唯一的标识符,对象存储通过扁平化的结构设计,替代传统的文件系统层次,大大提升了海量非结构化数据的存储和管理效率。
基于对象存储的金融影像数据存储方案,构建了一个可无缝扩展至海量数据规模的海量影像数据存储池,性能稳定可无缝扩展,还可实现方便的统一管理。通过对象存储对接金融影像数据平台,轻松应对影像数据的存档、搜索、分类、处理、安全保密和归档保存等一系列工作。
但是,当文件数量极速增长,对象存储单桶对象数往往会超过千亿规模,对象存储元数据的管理就会变得极其复杂,这时对象存储同样会面临性能下降的问题。新华三又是怎样解决对象存储的性能瓶颈问题呢?
系统优化提升性能
新华三的独门秘籍
基于行业领先的分布式对象存储技术,新华三金融行业票据影像场景化方案,可满足金融用户海量小文件存取、海量文件查询、备份以及管理需求。其优势如下:
海量小文件毫秒级读取:
X10000可通过高速缓存池大幅提升元数据访问性能,从而提升整体系统性能。同时,在小文件数据写入的时候,可将4K、8K、64K小文件IO聚合成为大IO,一次性顺序写入到SSD,减少了纠删码场景下的写惩罚和数据落盘次数,从而大幅提升小文件读写性能。此外,全局顺序写将每一个新数据都追加写到硬盘的空闲空间,最大程度避免了SSD数据改写时造成的写放大,实现全局SSD盘的磨损均衡提升使用寿命。
经过优化后的X10000对象存储,64k小对象上传和下载性能,均提升300%以上;且单桶对象存储规模达到百亿级别,性能波动小于10%。
SOM管理芯片提升系统稳定性:
传统分布式存储集群一般采用心跳报文的机制进行故障检测,一个节点出现故障,需要多数节点都有所感知,并“举手表决”,才能将其剔除隔离,存在较严重的延时和不确定的情况。
新华三最新X10000 G6系统上集成了一块SOM嵌入式设备管理芯片,通过SOM与其他节点进行通讯,以中断的方式快速感知节点故障,将被动的超时隔离机制调整为主动的中断上报机制,从而快速完成节点故障隔离,节点故障隔离的时间可以缩短到5s以内,实现极致稳定。
多站点方案保障业务连续性:
除此之外,新华三多站点方案还可满足业务连续性要求——支持异地多活;支持以桶为粒度控制对象存储数据的同步策略。而且生产存储故障,业务可自动切换至容灾站点,RPO缩短至分钟级(RPO最低1min,容灾等级达到level 4级别)。
助力AGI时代
智慧金融高速发展
新华三金融行业票据影像场景化方案,正凭借高扩展性、高性能、高可用、操作简单、成本低廉等优势,帮助用户摆脱“拼凑”式的传统技术架构,彻底解决非结构化数据的存储问题。其正在为金融科技的场景创新奠定数据基础,也正为金融服务的高速发展注入AGI基因。