大数据冷储存系统研究内容,研究成果,研究产出专利
成果名称
大数据冷储存系统
类型(论文,奖励等),级别(期刊影响因子,奖励级别),项目背景或支持渠道;
期刊论文:
论文名称 | 作者 | 期刊 |
Exploring various levels of parallelism in high-performance CRC algorithms | Chi M, He D, Liu J | IEEE Access,2019,影响因子:4.098 |
会议论文:
论文名称 | 作者 | 会议 |
VACA: A High-Performance Variable-length Adaptive CRC Algorithm | Chi M, Liu J | 2017 IEEE 28th Annual International Symposium on Personal |
Fast Software-based Table-less Algorithm for CRC Generation | Chi M, He D, Liu J | 2018 21st International Symposium on Wireless Personal Multimedia Communications (WPMC) |
项目背景:
随着数据时代数据量的爆发性增长,随之而来的问题是如何有效的大规模的数据进行存储和管理。
通常根据数据使用的频率,可以将数据分为“热”数据和“冷”数据。目前市场上大规模的“热”数据存储系统成本和功耗都比较高,不适宜存储大量的“冷”数据,“冷”数据通常都是用离线存储介质进行存储,致使读取数据耗时非常长,通常以小时计。总之,目前市场的存储系统,不是成本很高,就是速度很慢。因此,迫切需要一个能兼顾成本和访问效率的大规模数据存储系统来解决这一问题。
支持渠道:由北京浩瀚深度信息技术股份有限公司提供经费支持。
成果依托什么项目(课题),开展了哪几项内容研究;
● 项目名称:高密度低功耗海量存储服务系统研发
● 项目内容:设计4U高密度存储服务器;研究低功耗存储技术;研究提升系统性能和可扩展性的方案及技术;设计提升系统接口兼容性方案。
项目成果突破了哪几项关键技术,形成哪些产品、装备,发表多少篇论文,授权专利几项等?
关键技术:
· 高密度:自研存储服务器,达到1U的空间内可以放置16个3.5寸硬盘的高密度,大大超过普通服务器每U4盘或者6盘的密度,实现真正的高密度存储。
· 低成本:采用纠错码算法进行数据存储,在保障数据安全的前提下大幅度节约存储空间,缺省配置下的存储效率是0.75。举例来说,100MB的原始存储空间,其中75MB用来存真实的数据,另外25MB用了存这些数据的纠错码,这些纠错码可以在数据受损的情况下通过计算恢复出原始数据。其它存储方案大多采用3副本的方式,存储效率是0.33,也就是说100MB的容量,只有33MB是用来存数据的,其它都是冗余。此外,我们自研的低功耗存储服务器硬件,也大幅度降低了总体成本。
· 低功耗:自研低功耗存储服务器,支持对单独硬盘的通断电控制,在硬盘上数据长时间不用时,关闭硬盘以实现最高的能耗节约,可以实现比传统服务器节约90%的电费。由于整体产品能耗很低,对机房空调的需求也大大降低,也同样节约了另外一大笔开销。
· 响应快:采用硬盘作为存储介质,只需要通电加载就可以读取数据,不需要像磁带光盘等离线存储需要机械臂拿去介质并排队等待驱动器空闲才能读取,大幅提高响应时间。
· 吞吐大:采用分布式设计,数据被分散在多台服务器的硬盘中,读写时多个过程并发进行,大幅提高整体的吞吐能力。磁带光盘等离线存储需要排队等待驱动器,并发能力非常受限。
· 高容错:缺省配置下是12:4,数据会被分成12块,然后计算出4块纠错码,这16块数据被分别保存在16个硬盘上,如果坏掉4块(含)以下的硬盘,数据仍然可以恢复出来。此外,系统采用分布式高容错的设计,一定数量的服务器故障等也不会影响数据安全,系统仍然可用。
· 可扩展:系统可以轻松进行水平扩展,添加存储服务器就可以增加存储空间,系统可以轻松扩展到100PB规模。
该成果产出了四项专利:
● 专利名称:一种文件检索方法及装置
● 专利公布号:CN108090139A
● 专利内容:本发明实施例提供了一种文件检索方法及装置,涉及计算机技术领域,该方法包括:接收文件检索请求,其中,上述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;获得检索结果。与现有技术相比,应用本发明实施例提供的方案,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,从而提高了文件检索效率。
● 专利名称:一种数据存储方法及装置
● 专利公布号:CN106599195A
● 专利内容:本发明实施例提供了一种数据存储方法及装置,该方法根据所接收的第二节点发送的针对广播的数据存储请求对应的反馈信息,从第二节点中确定第一存储节点,利用预设的公钥对待存储数据进行加密,并对加密后的待存储数据进行编码,得到编码结果;将编码结果划分为数据块,并将利用公钥对应的私钥生成的数字签名添加至每一数据块;确定各个添加数字签名后的数据块的存储节点,将数据块发送至所确定的存储节点中存储。应用本发明实施例提供的方案能够提高数据存储的安全性。
● 专利名称:一种海量网络数据环境下的元数据同步方法及系统
● 专利公布号:CN109302495A
● 专利内容:本发明实施例提供了一种海量网络数据环境下的元数据同步方法及系统,所述方法包括:中心节点服务器中的元数据库表内的元数据由第一稳定版本号更新为第二稳定版本号后,向子节点管理设备发送通知消息;其中,所述第二稳定版本号高于所述第一稳定版本号;所述子节点管理设备接收到所述通知消息后,从所述中心节点服务器中获取所述元数据库表,所述元数据库表内的元数据的版本号为所述第二稳定版本号;子节点管理设备将所获取的元数据库表发送给子节点服务器,以使所述中心节点服务器及所述子节点服务器的元数据库表内的元数据同步。本发明实施例,使得元数据同步系统中的元数据库表内的元数据及时同步。
● 专利名称:一种CRC计算方法及装置
● 专利公布号:CN107451008A
● 专利内容:本发明实施例提供了一种CRC计算方法及装置,所述方法包括:获取目标输入数据;将所述目标输入数据依次划分成n个序列长度相同的目标数据序列;利用n个处理器对n个目标数据序列进行并行循环冗余校验CRC计算,得到对应的n个第一CRC值;获取各第一CRC值对应的目标序列影响系数;分别将各第一CRC值与对应的目标序列影响系数进行迦罗瓦域乘法运算,得到n个第二CRC值;对n个第二CRC值进行异或运算,得到目标CRC值,以实现对所述目标输入数据的CRC计算。本发明实施例能够减少在CRC计算过程中的异或运算的次数,提高了计算速率;另外,本发明实施例减少了线程同步的次数,进一步提高了计算速率。
成果在哪些地方推广应用,合同额达到多少?
该系统已经部署到多个环境中,不仅在数据备份场景,还是在视频监控场景,都有应用。比如在沈阳铁路局的数据备份业务,局方的大量培训教学课件、教学视频和相关课程信息,在经过了最初的集中培训之后,数据移入冷存储,节约出存储空间给更多新的培训内容,同时满足老的培训仍然会有稀疏的请求的要求。在北邮保卫处和北京南站的视频监控系统中,该系统提供了PB级的容量,支持7日内视频2秒内快速回放,7日到一个月的视频30秒左右回放,极大的提升了视频回溯的能力
成果在行业引领作用,经济效益和社会效益,可附上2-3张展现项目成果的图片。
该结果实现了密度高、成本低、功耗低、速度快、高可用、可扩展的特点,领先于同行业其他产品。
未来愿景等后续工作。
该成果仍然在紧张的开发和不断的改进中,我们计划在不久的将来,对系统进行如下改进:
● 改进系统架构
● 高压力读、写性能调优
● 提高系统稳定性等
● 完善接口、管理、指标、测试等多方面的模块和功能