首页 logo

  • 2022国庆

服务热线 :

公司地址:北京市朝阳区安定路39

号长新大厦1205室

手机网站

传真:64437661

pc 底部 信息

首页 丨  产品中心  丨  解决方案  丨  合作伙伴  丨  服务支持  丨 关于我们

 

 

 

版权所有 © 2014-2021安腾普(北京)科技有限公司 京ICP备14038162号-1

 

 

网站建设:中企动力 北京

 

底部电话链接

企业动态

关注公众号

安腾普ADA数据归档系统软件助力某生命科学中心海量数据迁移项目成功实施

浏览量

 

0

 

  用户简介  

 

某生命科学蛋白质研究中心(以下简称“蛋白质研究中心”)位于北京中关村生命科学园内,由某生命科研机构、清华大学、北京大学、中科院生物物理研究所等单位共同建设,重点业务方向为蛋白质组分析系统和功能蛋白质组研究系统,同时建设以生物信息学、蛋白质/抗体制备、生物资源库、模式动物等为核心的支撑系统,在国内同类科研领域中,始终处于领先地位。

 

图片

 

02 

 

  项目背景与用户痛点  
 
现代生命技术被喻为新世纪科研领域的“冠上明珠”,是当今世界各国激烈竞争、势在必得的战略制高点。其中,蛋白质组分析和研究是生命科技中的重要业务领域,与基因分析类似,蛋白质研发也需要融合多项前沿生物与信息技术,借助先进的HPC超算集群,不断优化升级生命蛋白质研发信息模型。
伴随业务发展与超算算力的快速提升,蛋白质研究中心的生命超算数据量与日俱增。当前数据包含:200个物种科研资料,50个细胞类型科研资料,33种疾病科研资料,45种期刊,500多篇论文;数据总量约800TB,总文件数量上亿(以KB或MB级中小文件为主),并继续呈现指数级增长的态势。预计5年后,数据总量将增长到约10PB,文件总数可达几十亿级。

 

快速增长的业务需求,对用户的海量数据存储和管理形成持续挑战,目前用户痛点主要表现为:

 

01 

 

用户原有生产系统中的NAS存储,从性能、容量、安全性等多方面,均已不能满足蛋白质超算业务不断攀升的数据存储要求,生产存储亟需更新换代。

 

02 

 

iProX蛋白质组资源库现有的800TB,上亿数量非结构化文件,需要安全、高效的从旧NAS迁移到新一代更高性能的NAS,不允许有数据丢失,必须确保海量数据迁移的完整性和安全性,迁移不能影响正常生产,需要有优秀的作业容错与数据完整性审计机制。

 

03 

 

新旧存储切换窗口要求最小化,切换平滑、安全,把对生产系统的影响降到最低。

 

04 

 

存储切换完成后,需要对已有数据与未来一段时间的新增数据,自动进行永久增量备份,确保主存生产数据的安全,一旦主存发生故障,能够及时利用备份数据恢复生产主存数据。

 

05 

 

当前数据主要采用磁盘存储,面向数据高速增长趋势,需要提前规划数据冷热分级体系,具备冷数据长期归档能力;为有效防范网络攻击、病毒等风险,系统要预留好与磁带、蓝光等可离线介质的存储扩展接口。

 

 

03 

 

  项目实施方案  
 

针对蛋白质研究中心以上项目需求与业务痛点,安腾普团队与用户技术专家在多轮细致试验与充分讨论基础上,最终设计、规划了以安腾普ADA数据归档系统软件为核心的项目实施方案。

系统结构图如下:

 

图片

 

蛋白质研究中心数据迁移结构图

 

 

  • 基于安腾普ADA数据归档系统软件的迁移功能,实施业务数据迁移
  • 网络运行环境:IB网络与万兆以太网

  • 迁移数据源为旧有谷数NAS,IB接口

  • 迁移目标端为谷数新型高性能NAS,万兆网络

  • 迁移服务器使用华为产品(4CPU/512GB/10TSAS),x86 Linux系统,具备IB和万兆IP双接口

  • 软件配置32个迁移通道并发工作,每通道性能约5.4MB/s,总迁移速度达到170MB/s,达到旧NAS数据持续读取的性能极限。

  • 在确保迁移源端与目标端数据读取/写入整体平稳的前提下,20天左右完成了800TB数据从旧NAS到新NAS的数据迁移,之后顺利完成生产存储切换,并设置自动策略开始进行增量数据备份。

  • 备份空间采用新NAS上的备份专用卷

 

 

在完成数据迁移与存储切换的前提下,安腾普ADA数据归档系统软件还具备按数据冷热属性自动分级、长期归档能力,可根据用户日后业务发展,灵活添加海量归档设备,实现更长时间的数据生命周期管理。系统预留与磁带、蓝光等可离线存储介质的归档接口,能够实现物理隔绝级的数据安全保障。对市场主流离线存储设备与介质的广泛兼容与可靠支持,是安腾普软件产品领先国内众多竞品的重要优势。

 

 

04

 

  用户收益  

 

 
蛋白质研究中心数据迁移系统,是安腾普ADA数据归档系统软件在生命HPC超算领域完成的又一个重点项目。目前,系统已完成历史数据迁移工作,开始后续增量数据的全自动备份作业。每周增量数据在周末3小时左右备份窗口中均顺利完成,性能良好,工作稳定。
 
本系统有力支持了用户生产存储与历史数据的可靠迁移和切换,同时通过自动备份策略,又保证了今后新增数据的安全可靠。通过本项目,用户收益如下:
 

 

01多迁移器集群,高效数据迁移,强大容错机制

本系统采用ADA多迁移引擎集群工作模式,并发迁移效率高,速度快,饱和利用了用户环境中各类设备的数据吞吐性能,大幅缩短了预期迁移周期。迁移集群支持主机级容错与作业级容错,任何数据传输故障,待问题排除后,迁移作业自动接续断点续传。支持迁移数据校验,确保作业完成后,源端与目标端数据的完整、一致。

 

02自动处理生产锁定数据,迁移过程对生产无影响

支持数据迁移与业务生产同时进行,迁移作业自动跳过且记录业务占用的数据,待业务释放后,下轮作业补齐数据。日常后台迁移对前台生产作业无影响。

数据迁移后,完整保持原有结构、元数据、访问权限等,最后一次增量迁移完成后,新旧存储即可平滑切换,最小化切换过程对生产的影响。

 

03 软件同时具备迁移、备份、归档等多项功能,一次投入,多重保护

在数据迁移完成后,本系统配置了新增数据自动备份功能,定期自动执行永久增量备份,采用开放式备份结构,与主数据保持一对一映像,为生产数据再提供一份相同的备份保护,极大增强了用户数据资产的安全可靠性。主数据一旦受损,备份数据可及时接管生产,同时实现主数据的快速恢复。

 

04 系统扩展灵活,满足未来业务升级需要

本项目成功实施,满足了当前蛋白质研究中心对新增生产数据的管理要求。在未来业务升级的情况下,基于安腾普ADA数据归档系统软件开放的体系结构,还可以实施数据冷热分级,自动归档,满足更大数据量、更长期限的数据生命周期管理需求。

系统预留与对象、磁带等多类型存储设备的接口。今后,可根据用户需要,随时扩充硬件设施,满足存储无缝扩容、多介质数据副本保存、离线安全管理等各项不断更新的数据管理需求。