安腾普ADA数据归档系统软件助力某生命科学中心海量数据迁移项目成功实施
浏览量
01
用户简介
某生命科学蛋白质研究中心(以下简称“蛋白质研究中心”)位于北京中关村生命科学园内,由某生命科研机构、清华大学、北京大学、中科院生物物理研究所等单位共同建设,重点业务方向为蛋白质组分析系统和功能蛋白质组研究系统,同时建设以生物信息学、蛋白质/抗体制备、生物资源库、模式动物等为核心的支撑系统,在国内同类科研领域中,始终处于领先地位。
02
快速增长的业务需求,对用户的海量数据存储和管理形成持续挑战,目前用户痛点主要表现为:
01
用户原有生产系统中的NAS存储,从性能、容量、安全性等多方面,均已不能满足蛋白质超算业务不断攀升的数据存储要求,生产存储亟需更新换代。
02
iProX蛋白质组资源库现有的800TB,上亿数量非结构化文件,需要安全、高效的从旧NAS迁移到新一代更高性能的NAS,不允许有数据丢失,必须确保海量数据迁移的完整性和安全性,迁移不能影响正常生产,需要有优秀的作业容错与数据完整性审计机制。
03
新旧存储切换窗口要求最小化,切换平滑、安全,把对生产系统的影响降到最低。
04
存储切换完成后,需要对已有数据与未来一段时间的新增数据,自动进行永久增量备份,确保主存生产数据的安全,一旦主存发生故障,能够及时利用备份数据恢复生产主存数据。
05
当前数据主要采用磁盘存储,面向数据高速增长趋势,需要提前规划数据冷热分级体系,具备冷数据长期归档能力;为有效防范网络攻击、病毒等风险,系统要预留好与磁带、蓝光等可离线介质的存储扩展接口。
03
针对蛋白质研究中心以上项目需求与业务痛点,安腾普团队与用户技术专家在多轮细致试验与充分讨论基础上,最终设计、规划了以安腾普ADA数据归档系统软件为核心的项目实施方案。
系统结构图如下:
蛋白质研究中心数据迁移结构图
-
基于安腾普ADA数据归档系统软件的迁移功能,实施业务数据迁移
-
网络运行环境:IB网络与万兆以太网
-
迁移数据源为旧有谷数NAS,IB接口
-
迁移目标端为谷数新型高性能NAS,万兆网络
-
迁移服务器使用华为产品(4CPU/512GB/10TSAS),x86 Linux系统,具备IB和万兆IP双接口
-
软件配置32个迁移通道并发工作,每通道性能约5.4MB/s,总迁移速度达到170MB/s,达到旧NAS数据持续读取的性能极限。
-
在确保迁移源端与目标端数据读取/写入整体平稳的前提下,20天左右完成了800TB数据从旧NAS到新NAS的数据迁移,之后顺利完成生产存储切换,并设置自动策略开始进行增量数据备份。
-
备份空间采用新NAS上的备份专用卷
04
用户收益
01多迁移器集群,高效数据迁移,强大容错机制
本系统采用ADA多迁移引擎集群工作模式,并发迁移效率高,速度快,饱和利用了用户环境中各类设备的数据吞吐性能,大幅缩短了预期迁移周期。迁移集群支持主机级容错与作业级容错,任何数据传输故障,待问题排除后,迁移作业自动接续断点续传。支持迁移数据校验,确保作业完成后,源端与目标端数据的完整、一致。
02自动处理生产锁定数据,迁移过程对生产无影响
支持数据迁移与业务生产同时进行,迁移作业自动跳过且记录业务占用的数据,待业务释放后,下轮作业补齐数据。日常后台迁移对前台生产作业无影响。
03 软件同时具备迁移、备份、归档等多项功能,一次投入,多重保护
在数据迁移完成后,本系统配置了新增数据自动备份功能,定期自动执行永久增量备份,采用开放式备份结构,与主数据保持一对一映像,为生产数据再提供一份相同的备份保护,极大增强了用户数据资产的安全可靠性。主数据一旦受损,备份数据可及时接管生产,同时实现主数据的快速恢复。
04 系统扩展灵活,满足未来业务再升级需要
本项目成功实施,满足了当前蛋白质研究中心对新增生产数据的管理要求。在未来业务升级的情况下,基于安腾普ADA数据归档系统软件开放的体系结构,还可以实施数据冷热分级,自动归档,满足更大数据量、更长期限的数据生命周期管理需求。