助力海量非结构化数据治理丨安腾普ADA解决5大问题
浏览量
在数据成为社会发展重要驱动力的今天,出于监管合规、分析挖掘、生产决策等目的,对海量非结构化数据的安全存储与频繁访问,正在持续推动企业用户对非结构化数据的治理需求。
根据IDC统计,全社会非结构化数据量将从2018年的33 ZB快速增长到2025年的175 ZB(1750亿TB)。即便曾保存在磁带等离线介质上的冷数据也将越来越多的被AI和商业智能所访问利用。
传统数据备份(如NDMP 备份),在面对非结构化的PB级数据时,由于文件量大、数量过多,往往无法保证管理与利用的效率,由于传统备份软件在这些场景下力不从心,许多企业不得不采用实时复制方式来管理数据与安全,但是网络攻击也会伴随复制传到备用数据集,此外,实时复制也不能做到海量数据自动分级与沉淀,无法为长期数据价值挖掘与利用提供更有效支撑。
在AI、云计算等智能服务日益普及的今天,非结构化数据存储正在向自动化、服务交付的方向发展,从海量数据中加工、提取更丰富的业务价值并推送给客户,已成为企业竞争的焦点。为降低存储成本与IT开销,企业用户亟需构建更强健、更灵活、性价比更高的非结构化数据治理解决方案,实现海量数据智能分级、高效沉淀,保证企业数据治理体系中的内容与价值随时能为前端业务服务。
针对上述问题,安腾普ADA为企业级非结构化数据治理提供了灵活可控的基础软件平台。通过PB级、灵活扩展的存储结构与对各类存储介质和设备的兼容,ADA具备归档、迁移、同步、备份、分析等五位一体非结构化管理技术与能力,可从多个维度,遵循用户需求,提供按需定制的专业解决方案。
具体来讲,相较于其它产品,ADA解决了用户在非结构化数据治理过程中,经常遇到的5大重要问题:
01 源于业务多样性的多项数据管理需求
传统模式下,企业面对复杂的数据对象与多重业务需求,常常配置多个数据保护解决方案,以规避单个方案的局限性。由此,企业通常拥有多种数据保护与管理系统在运行,进而增加了额外的软硬件和存储投资,还容易造成“业务孤岛”。ADA创新性提供的“五合一(归档、迁移、同步、备份、分析)”管理功能,在统一平台上实现了业务配置灵活、扩展性优秀、与存储结构和设备无关的综合解决方案,系统可以水平扩展到管理控制数百个节点,满足企业在业务多样化条件下的海量数据统一管理需求。
02 缺乏数据流动,异构跨平台移动性差
旧设备数据迁移、打通数据孤岛壁垒、破解历史遗留问题等诸多挑战,都是当今企业用户在大数据治理过程中频繁遇到的痛点。解决类似问题离不开灵活快速的异构跨域(异构文件系统、虚拟化块存储、AI对象存储、大数据HDFS存储、云存储...)数据流动,面对海量、多态的流动需求,传统备份软件或特定设备商的迁移工具显然存在严重短板,不能胜任。
ADA的开放式解决方案能够跨越各种平台迁移、归档和检索海量数据,支持主流设备、主流云服务、主流高性能文件系统、常用 Linux、Windows、UNIX、MacOS等平台:块、对象、文件等不同存储格式互通;NFS、CIFS、SAN、IB、S3等多协议互转;GPFS、Lustre、SNFS等多文件系统互访;格式自动转换,打破数据壁垒,促进跨域创新。
03 数据集变化的扫描时间过长
实际项目中,传统方案定时对大容量NAS等设备中上亿级文件量的更新变化扫描,往往要耗费数天甚至更长时间,导致用户在数据作业开始前必须经历漫长的痛苦等待,迫切需要更快、更高效的技术。ADA的FastScan快速扫描功能,瞄准此项痛点,可快速收集海量存储中新文件、修改文件和删除文件的列表,无需对完整的文件系统进行冗长的扫描解析,令更多用户在每次执行归档、迁移或同步任务时,免除对全文件树的扫描工作。
对于不得不进行扫描的项目,ADA采用并行机制,每扫一段数据后,即实时发起此项数据作业,令扫描与数据移动作业同步进行,大幅提升工作效率,节省宝贵的时间成本。
04 数据密集型环境中安全保护力度不够,存在风险
许多企业由于业务生产繁忙且长期连续,每天新增或更改的数据量非常大,但可用的备份窗口很短,传统模式下甚至无法满足日常增量备份的需要。用户不得不面临艰难取舍,或者投资昂贵的实时灾备方案,或者将有限的资源仅保护最重要的数据,舍弃低级别的部分。尽管如此,重要数据的保留策略与使用便利性也经常不尽如人意。
面向海量非结构化数据,ADA创新性支持永久增量备份(Incremental Forever Backup)模式,优化增量流程,结合FastScan与并行扫描机制,确保在第一次归档/备份后快速收集所有新的数据更改,归档/备份过程自动跳过生产占用的数据,待释放后留给下轮增量再完成,不影响生产运行,缩短备份时间。只需一次全量,以后做永久增量,即可对所有数据资产提供完整的保护能力。
05 长期服务依赖与不可控的RTO
庞大的数据量,配以用户项目化的管理流程,使得数据保护、归档、迁移、业务连续性保障等各项工作,具备长期性、复杂性。传统方案很容易令用户形成对特定产品及其服务的长期依赖或“锁定”,并且系统RTO也难以长期保持合理的可控状态。
此外,由于旧有设备或软件的各种限制,常常迫使用户采用昂贵的实时复制方案,将数据绑定到特定厂商,并将数据“附加”到特定品牌的存储。正如我们所知,灾备是危险的备份替代方案,因为复制的数据在网络攻击事件中也很容易受到感染。
ADA消除了特定厂商和文件系统对用户的制约,通过支持广泛的存储选项——磁盘、磁带、蓝光、对象、云存储等,给用户提供充分的存储自主性与独立性。
ADA为存储设备和共享文件系统提供从TB到PB级的数据流动管理与安全保障,通过开放的网络结构与存储格式令用户可自由进行设备选型,并且数据格式可为第三方软件读取。这些特性让用户在长期的数据管理工作中,不必依赖于任何特定厂商的产品或服务,充分保持系统开放性与多样性,博采众长,从而保障用户业务连续性、可靠的系统RTO与高性价比。
06 总结
数据驱动的高质量发展如今已为越来越多的企业所接受,做好非结构化数据治理,实现数据从数字文件到数字资产的转换升级,需要企业结合自身实际,进行深度探索与实践工作。在此过程中,数据归档、迁移、同步、备份等各项技术环节相互联系、相互促进,是对海量数据进行沉淀分层的重要基础。
安腾普ADA非结构化数据管理平台,以“五合一”技术功能,低成本、灵活定制的项目构建模式,在科学管理海量数据,实现长期存档与安全保护,提升数据高可用性,遵从业务发展与监管合规等各方面,为用户提供了好用的利器。