2020再谈对象存储—1.从学术项目到国标

2020-06-22

本篇文章的主题是对象存储的实际应用和一些案例反馈,主要目的是研讨对象存储发展到如今,在哪一些场景里面是适合的,以及其中的关键决定性因素。而关于对象存储的基本概念和一些技术细节,相信大家已经在不同的地方已经获得了充足的知识背景,这里就不做深入的介绍。



内容将分为三个部分,第一部分回顾对象存储发展的情况和现状,第二部分是围绕使用对象存储时相应的技术特点适用场景,第三部分对一些实际应用的案例反馈进行和总结。


那么首先我们先将看看对象存储的发展状况


从我的理解来看,现在行业里对于对象存储的认识是有几个明显的时间分界线的。考虑到IT行业的技术更迭星驰电掣的速度,这里戏称为几代人的对象存储认识


对象存储的标准最初来自于学术科研的领域,美国的卡内基梅隆大学有个并行数据实验室,1995年建立了一个叫network attached secure disk的项目,在这个项目中首次提出了对象存储的概念。随着项目不断往前发展,在更大范围里得到了认可。1999SNIA(网络存储工业协会)成立了一个叫做OSD(对象存储设备)的工作组,这个工作组发布了ANSIx3 T10的标准,这就是对象存储的原型。


5年后的2004SNIA正式发布了OSD1.0的标准,第一波对象存储的技术潮流由此涌现,一个典型的从学术走向工业界的过程。在这第一波浪潮里,Oracle推出了一个标准实现名为Lusture,相信大学和科研机构的人员对此较为熟悉,它在科学计算等领域得到较多广泛应用,可谓第一代的知名对象存储。


而对象存储的的第二波技术热潮得力于亚马逊,2006AWS正式上线,S3对象存储是其推出的第一个云服务,随着云计算的全球热潮,对象存储的知名度得到了更进一步的大发展,相信很多人是从S3这里第一次知晓了对象存储的存在。


第三次技术热潮从我看来和OpenStack的兴起有很大关系。OpenStack项目的最早只有两大组件NovaSwift,其中NASA贡献出来的Nova是解决虚拟化的问题,而另一个Swift项目就是由Rackspace公司贡献出来的对象存储。在2012前后,OpenStack里面出现了一个明星项目Ceph,相信到今天大家已经耳熟能详。这个统一存储项目刚开始吸引大家眼球的特点是它可以提供分布式的块存储,但没想到8年过去,使用最多最流行的反而是它的对象存储功能。而走在前列的专业对象存储公司SwiftStack公司也在今年出现了被NVidia收购的新闻,事情的发展真是难以预料。


回到国内来看,2018年开始,对象存储开始出现了一波热潮:不仅市场上出现了非常多的对象存储公司,而且传统的IT大厂商也纷纷推出了自己的对象存储产品,同时大量的用户在不同的行业里开始采用对象存储方案,一直到2020年的今天,对象存储仍然很受关注。


对象存储发展到如今已经15年,我们不妨从一些有趣的角度来看,不同的架构图也能够看出不同的年代感。



从一开始附在论文和标准里的简单风格的架构图到后期的扁平化二维化风格的架构图,看得出表述的信息从抽象化渐渐走向越来越具体化,强调描述出具体部署的逻辑架构。



同时,如果你关注不同年代推出的对象存储产品强调的技术亮点,会发现技术亮点从网络的先进性已经变化到强调和容器技术的结合,相信从中也能窥一斑见全豹,感受到IT技术一波一波的变革。



而对象存储的相关技术标准,在近年也有了发展和变化。


2015年之前,业界还是遵循的事实标准和企业标准,主要参考对象是亚马逊的S3Swift



20159月和20198月,国家标准化委员会分别发布了两次相关的国家标准。分别是:


《标准号:GB/T 37732-2019;标准名称:信息技术 云数据存储和管理 第2部分:基于对象的云存储应用接口》


《标准号:GB/T 31916.2-2015;信息技术 云计算 分布式块存储系统总体技术要求》



严格的说,这两次颁布的标准大框架都是属于云计算范畴的标准,但其中囊括了云存储技术标准,而对象存储作为一个子类在其中占据了不小的篇幅。


这两个标准分别就对象存储的系统架构,功能和接口协议规范做了大量阐述,比较详细,值得一看。(相关的资料在网上可以获取)


本文主要的关注重点在于应用场景,所以我们看一下在8年前2012年的时候,当时所描述的开源对象存储Swift的应用场景。


1、首先是移动互联网:巨大的终端数量代表很多的用户数,用户产生的数据量也在飞速增长,非结构化数据比重很大,Swift在这种场景是比较适合的。


2、其次是在游戏领域:页游,手游比重在增大,游戏用户的数量在增长,同时每个游戏用户的游戏相关数据也在增长,再加上多人在线这种大并发的需求,这全是Swift擅长的领域。


3、 除了传统的归档领域,近年出现一种热归档的需求,对数据响应的要求大大提高,从几小时到几分钟,Swift在一个案例测试中曾经达到秒级,表现优秀,所以这也是一块新的领域。


4、大数据方面,曾经有人考虑过Hadoopswift的结合并进行了一些测试,主要的做法是用Swift替代HDFS,这个尝试主要是考虑到swift几个好处,HA上面,原生的HDFS是有单点故障的风险,Namenode没有HA。另外HDFS的客户端cache64M,有时候不是很合适。另外swift本身设计有多租户的支持,如果搭建的系统想复用,也会比较方便。


当然到了2020年的今天,应用场景已经有很大拓展,除了音频类视频类的数据,我们看到在高性能计算,科学研究,大数据分析,AI,地震,遥感,气象,金融,医疗,交通和安防等领域,对象存储都开始有了实际的应用。



对象存储的聚合性能带宽近年有着巨大的增长,对于大数据和AI典型计算框架例如SparkPrestoTensorflowTeradataVerticaSplunk等常见分析框架来说,达到10GB/S的带宽性能非常有吸引力;有很多MPP数据库事实上已经开始采用其作为后端存储,对象存储的影响力正在变得越来大。


法律声明 | 隐私保护 | 网站地图 | 招贤纳士 | 反馈

© 2016 United Information Technology Co.,Ltd.
粤ICP备05121547