科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

ZDNet>CSC频道>Kinetic——希捷的新分布式对象存储平台

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

大约是一年多之前,Seagate希捷——全球领先的存储解决方案提供商——宣布了一种自行研发的的新存储平台:Seagate Kinetic Open Storage,这是一种创新的存储平台技术。

来源:ZDNetCBSi企业方案解决中心频道 2015年01月28日

关键字:希捷 seagate Kinetic

【ZDNet企业解决方案中心】大约是一年多之前,Seagate希捷——全球领先的存储解决方案提供商——宣布了一种自行研发的的新存储平台:Seagate Kinetic Open Storage,Seagate宣称:“Seagate Kinetic Open Storage 平台可简化资料管理,改善效能和扩充性,并节省一般云端基础设备总拥有成本(TCO)近一半之多,乃扩充式(scale-out)储存架构技术非常重要的进展。

Kinetic——希捷的新分布式对象存储平台

Kinetic——希捷的新分布式对象存储平台
最近,由于重塑品牌的需求,Seagate希捷的Logo从(上)变更为了(下)(称为Living Logo)

  ZDNet企业解决方案中心也同意Kinetic平台是一个非常重要的进展,在我们《数据中心2013:硬件重构与软件定义》的年度报告当中,我们也对Kinetic进行了差不多是最早期的分析:

Kinetic——希捷的新分布式对象存储平台
报告的182~184页有关Seagate Kinetic的内容

Kinetic——希捷的新分布式对象存储平台
HCC2014上,James Hughes对Kinetic做了很多介绍,并回答了笔者很多有些难度的问题

  在报告之后,我们也对Kinetic进行了持续的关注,并通过各种渠道进行了了解,特别是在上一年末上海的一次云计算大会上,笔者有幸参加了对Seagate Kinetic开放存储和大数据首席技术官裘剑一(James Hughes)的采访,并通过提问了不少的问题对Kinetic平台有了一个比较全面的理解,并澄清了一些之前的一些误会,在这里,笔者可以充分地回答大家的问题:Kinetic,我们为什么认为它很重要?Kinetic到底是个什么东西?它会对我们具有什么样的价值?

James Hughes:“今天先给大家介绍一下我们的存储平台Kinetic。我们现在存储需求已经有了变化。在过去我们存储的是文件系统,而现在我们存储的是一些对象,比如说像照片,或者是电影等等,所以这个存储的需求已经变化了。
  文件系统是在1965年的时候设计的,从此以后就没有任何变化,但是现在我们的存储方式已经有了改变。而且我们现在的技术要进入到硬盘上面的一些方法已经有了变化。比如说我们现在有了SMR或者HAMR技术,使得整个存储需要一些编程或者出现了一个新的变化。
  现在我们有了新的机会,这个机会,如果我们能够从头开始,从一张白纸开始的话,我们如何来设计新的一种存储方式。如果说云数据中心的数据已经不是Fibre Channel或者SAS的,而是以太网的。
  现在为什么我们不能考虑一下在存储上面我们可以有同样的协议呢?第二点我们要考虑到应用是需要存储信息的,我们要考虑存储其实不需要它的地址,或者说也不需要在512 byte上面的一些数据,他们要考虑的是这个信息的名称。
  现在我们的存储系统要有新的变化,之前我们需要一些重要的信息来代表这个信息的名字或者是一些值来代表这个值。比如说命名可以是用户名或者照片的名字,而值就是这张照片。现在我们要利用一个新的技术,这个技术现在在云上面已经可以实现了,比如说利用Hash Table,我们可以有几千个硬盘,可以创造一个非常大的存储系统,而且可以有一个非常好的效果。
  现在我们需要在存储上面有一个大的变化,比如说我们要有开源的API或者数据库。我们利用云存储系统,建立互相联系的API。在文件系统方面,我们一起合作的包括HDFS和Ceph,或者是Scality或者其他的一些用户。
  现在我们有developers.seagate.com,这是一个开源网站,里面有很多公开的信息,有一些开源的模拟器,而且整个功能是非常完备的,我们还有一些测试软件。
  这是我总的一个介绍。

  以上是Seagate的Kinetic开放存储和大数据首席技术官裘剑一(James Hughes)做的一个比较全面的介绍,但可能不够易于理解,按照笔者的一句话:Kinetic是一种分布式对象网络存储平台。让我们循序渐进地介绍:Kinetic指的是Seagate Kinetic Open Storage,希捷推出的一个开放平台,作为一个平台,Kinetic包含了硬件和软件两个部分——并且软件的部分还占的比较大,而不是像之前Seagate一直售卖的纯硬件的硬盘或者包含了软件但仍以硬件为主的NAS盒子那样。Kinetic的硬盘被称为Kinetic硬盘,或者IP硬盘,它是长这个样子的:

Kinetic——希捷的新分布式对象存储平台
HCC2014上希捷展出的Kinetic硬盘,盘体和普通硬盘也没什么不同

  我们可以看到这个硬盘和以往硬盘的不同之处,在于它采用了网线连接的方式,当然,我们也可以看到,网线的接口似乎是放在硬盘盘体之外的一块电路板上的——没错,就是这样,增加的一块电路板被称为Seagate T-Card,就是一个电气转接头,本身不包含逻辑电路:

Kinetic——希捷的新分布式对象存储平台
Seagate T-Card将硬盘盘体的接口转为一个接电源的大D口和接网络的RJ45口

Kinetic——希捷的新分布式对象存储平台
Kinetic HDD——Kinnetic IP硬盘的物理接口就是以往的SAS端口,只是做了电气上的改动,传输的是网络信号而不是SAS信号

  好了,Kinetic IP硬盘的硬件本身并不算很复杂的东西,复杂的东西存在于软件层面,要知道Kinetic有什么作用,就必须了解它的软件。Kinetic的软件堆栈包含了两大部分,一部分被放在发起存取请求的Client客户端,一部分就是Kinetic硬盘(或者更多地,由Kinetic硬盘组成的较大型的盒子),它们之间通过以太网络连接:

Kinetic——希捷的新分布式对象存储平台
Kinetic开放平台模型

  传统的存储架构当中,发起存取请求的Client客户端,需要通过“Storage Server”的中转对存储进行访问,而在Kinetic架构当中,这个中转层被取消,Client可以通过Kinetic提供的Librarites使用Kinetic的语言直接访问到目的存储。使用以太网络这一点很有意思,它实际上表现出的是一个分布式的存储网络,避免了“Storage Server”引入的扩展性问题。解决扩展性问题是Kinetic架构最大的特点。

Kinetic和其它的存储系统有什么不同?

  在前面对Kinetic简单的介绍当中,我们已经大概知道了Kinetic能人所不能的地方:解决了扩展性的问题,当然这不是Kinetic的唯一特点,要了解Kinetic和其它的存储系统有什么不同,还需要更深入一点的了解,我们还必须对Kinetic硬盘、Kinnetic堆栈本身进行更深入一点的介绍。

  Kinetic开放平台的独特之处有两点:对象存储,以及网络/分布式架构,以下分别介绍。

对象存储是什么?

  尽管看起来不显眼,但这是Kinetic架构很重要的一个特点,它是一种基于Key/Value的对象存储。我们日常接触最多的存储有两种:Block块存储、File文件存储,Object对象存储又是什么?

  1999年成立的SNIA(Storage Networking Industry Association,全球网络存储工业协会)在2004年推出了OSD(Object-based Storage Device,基于对象的存储设备)的规范,定义了基于对象的存储设备的通讯协议,并形成了一个草案提交给ANSI T10工作组,我们知道ANSI的T10工作组是做SCSI相关工作的,SNIA OSD草案最后形成的规范就是ANSI T10 SCSI OSD V1命令集。OSD(Object-based Storage Device,基于对象的存储设备)所使用的名词Object-based Storage和我们谈论的对象存储不是完全一回事,不过它们的定义可以借鉴:

Kinetic——希捷的新分布式对象存储平台
传统的块存储磁盘(左)和对象存储磁盘(右)

Kinetic——希捷的新分布式对象存储平台
ANSI T10 OSD当中对Object的定义:OID、Metadata、Data和Attribute的集合体

  在ANSI T10的OSD规范当中,将Object定义为OID、Metadata元数据、Data数据、Attribute属性的综合体,显然,这是一种Object-Based的概念,比Object-Oriented(编程领域常见)涵盖的内容要小一些,它们的相通之处就是对对象的定义:对象是一种容器,每个Object对象中都包含了数据以及数据的属性集。在传统的块存储或者文件存储架构当中,Metadata元数据一般和Data数据相分离的,尽管它们可能都存储在同一个存储空间内,另外,块存储没有属性集的概念,而文件存储的属性集是固定的——文件属性。尽管一些最新的文件系统如XFS提供了可自定义的文件属性,但在文件存储中属性不是一个重要的概念。而在对象存储当中,Attribute属性,被作为一个重要的因素,它可以被用户自由地扩展,并被用来对数据进行更高逻辑级别的组织,因此,尽管Block块存储、File文件存储、Object对象存储都是对数据的分割存储,但对象存储提供了更高等级的抽象和更灵活的封装方式。如同前面James说的那样:“……第二点我们要考虑到应用是需要存储信息的,我们要考虑存储其实不需要它的地址,或者说也不需要在512 byte上面的一些数据,他们要考虑的是这个信息的名称。现在我们的存储系统要有新的变化,之前我们需要一些重要的信息来代表这个信息的名字或者是一些值来代表这个值。比如说命名可以是用户名或者照片的名字,而值就是这张照片。

Kinetic——希捷的新分布式对象存储平台
对象存储提供了一种Flat存储模型(中),并可以更容易地在其上构建Virtual的存储架构(右,通过使用不同的对象属性进行组织),传统的块和文件存储当然也能实现,但是抽象层次过低,导致架构会复杂化

  和ANSI T10 OSD定义的对象不同,在Kinetic当中,使用的对象概念是一个更简化的概念,在很多时候,Seagate谈及Kinetic的时候都没说到对象存储,而是简单地以Key/Value Store概称,只有在开发社区里面可以看到使用了“Simple Object Storage”的字样。

Key/Value又是什么?

  Key/Value是对象的操作方法,Key/Value可以类比于ANSI T10 OSD当中的OID和Data,Kinetic当中,每个Object包含了Key作为ID,以及Value作为存储的Data,Key和Value一一对应,有时也称为Key/Value Pair。要读取数据,客户端需要提供Key,然后Kinetic会返回Value,而要写入数据,这客户端直接提供Key/Value就好,如下图所示:

Kinetic——希捷的新分布式对象存储平台Kinetic——希捷的新分布式对象存储平台
Kinetic的Key/Value操作:读(左)和写(右),Kinetic的基本操作只有三个:get、put和delete

  在Kinetic的对象概念当中并没有Metadata和Attribute,因此它是一种相当简化的对象存储,仅保留了对象操作的特征,最重要的,就是保持了对象存储的Flat存储模型,这对构建大型的分布式存储是很有利的。

  除此之外,Key/Value相对其他两种存储形式具有性能上的优势,或者说,这也是对象存储所具有的优势。传统的存储设备上,由于空间管理的缘故,块存储实际上混杂了文件系统带来的损耗,如,保存/读取数据的时候,需要同时读取、写入或者更新同一个硬盘或者存储设备上的Metadata区域,因此性能是很受限制的,而在Key/Value体系当中,由于简化的操作界面(Kinetic的基本操作只有三个:get、put和delete),用户只需要管理Key就好,Data在磁盘上的存储交给了驱动器来管理,从而降低了复杂度,额外地,POSIX文件系统标准的要求是很严格的,它严重限制了文件系统的性能表现以及扩展性。在Kinetic架构或者说在对象存储架构当中,是不存在POSIX标准的。

Kinetic——希捷的新分布式对象存储平台
Kinetic Key/Value对象存储的性能优势

  目前,Kinetic的Key/Value对的限制分别是4KiB和1MiB,原则上,没有什么理由不可支持其他的值。从某种意义上来说,由于Value的数据容量值比较大,因此它的性能是可以预期是比较好的,因为它避免了大量的极小区块的随机存取——在Kinetic硬盘当中,大部分的操作都是连续的。

  Kinetic的另一个也极为惹眼的特点就是,它基于以太网,也可以说它是一种网络存储,但当然地,它不是以往常说的Network Attached Storage(NAS,网络附加存储)。如前面所见,Kinetic的接口就是两个1Gb/s的以太网端口:

Kinetic——希捷的新分布式对象存储平台
Seagate的T-Card除了实现供电转换之外,还引出了一个RJ45的以太网络端口

  实际上,Seagate的Kinetic硬盘的物理接口就是标准的双端口SAS,不过针脚定义和传输的电气信号都被更换为SAS。那么问题来了,为什么要用以太网代替SAS?

Kinetic——希捷的新分布式对象存储平台
Seagate展出的Kinetic硬盘存储系统,里面的热插拔笼子看起来就是SAS硬盘接口,不过它实际上跑的是以太网网络

Kinetic——希捷的新分布式对象存储平台
4U单元高度,向上打开的机盖我认为上机架之后不是很好维护;它支持60个Kinetic硬盘,每个4TB,裸容量大约是240TB

  没错,一方面如同前面说过的一样,是解决了扩展性的问题,另一个则是性能上的问题。

Kinetic——希捷的新分布式对象存储平台
左边是传统存储架构,右边是Kinetic平台的架构

  这两个问题涉及到很多个方面,例如,一般的“Storage Server”其前端协议有三种选择:FC(FibreChannel),或者iSCSI和FCoE,准确的来说,FC网的规模是可以比较大的,问题在于它需要搭建独立的FC网络,而iSCSI/FCoE和Kinetic一样都基于以太网,不过FCoE的部署还是比较麻烦的,iSCSI和Kinetic是最接近的,使用的成本很低,因而应用非常广泛。

  就后端来说,SAS接口其实是个不错的接口,也可以扩展至很大的规模,不过问题比FC还严重:SAS Expander或者说SAS Switch比较少见,并且价格昂贵。并且需要大量的SAS控制器(主机端还需要大量的FC控制器),因此,我们为什么不能把这些接口以及Storage Server节点都扔掉呢?这就导致了以太网硬盘——Kinetic的产生。

Kinetic——希捷的新分布式对象存储平台
通过使用以太网,Kinetic实现了一种平坦的、分布式的存储架构

  以太网硬盘形式有扩展性和性能上的好处:扩展性上,不需要购买额外的存储服务器以及搭配的各种非以太网网络,并且理论上Kinteic的磁盘数量是受限于网络端口的数量以及内部IP池的数量,关于这一点稍后还会再谈。而性能方面,我们都知道以太网是一个交换架构,因此网络当中可以同时存在大量的传输通路,而在传统的架构当中,处处都存在着潜在的瓶颈:各种HBA,服务器端口,等等。

  关于扩展性还有一个脚注:Kinetic硬盘有时叫以太网硬盘(OSI模型的二层),有时叫IP硬盘(OSI模型的三层),有时还可以知道支持它实际采用的是TCP/UDP的(OSI模型的四层),或者更进一步地,可能还有人知道它是基于RPC(Remote Produce Call,远程过程调用,下层是TCP/UDP),就某种意义上来说,IP硬盘应该是最准确的,虽然使用了更高层次的RPC协议,但IP硬盘的“IP”表明了其数量将会受到IP池的限制,而以太网硬盘就某种程度上来说明了目前Kinetic(可能是暂时地)被局限在LAN之内而无法跨越互联网,跨越互联网是可能的,但这最好是一个由“网关服务器”完成的工作而不是由Kinetic硬盘自由完成的工作。

  去掉中央环节还可以带来各种额外的好处,例如,提升机架利用密度,提升电源效率,乃至降低TCO,等等等等。

  我们已经知道Kinetic具有很多好处,那么问题来了……我们怎么样能获得这样的好处?或者说,我们怎么样能用到Kinetic?由于Kinetic架构当中,Application需要通过LibKinetic才能访问Kinetic存储网络,因此,用户的Application必须针对LibKinetic进行改写。

  改写Application,或者改写其中其底层的一部分就是Seagate最需要做,并且已经在做的工作,目前,Seagate已经完成了一些分布式存储系统的适配工作,一个明显的例子就是HDFS。HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop大数据处理系统中的重要组成部分:文件系统部分,它同时是一个分布式的文件系统,准确地说,是一个集中式的分布式文件系统:

Kinetic——希捷的新分布式对象存储平台
HDFS:传统驱动器(左下) vs Kinetic驱动器(右下)

  集中式的意思是HDFS当中具有一个叫做Namenode的中央节点来管理Metadata,其它的Datanode则负责存取实际的数据——在传统架构当中是这样。在Kinetic HDFS架构当中,Namenode仍继续存在,但一系列的Datanode被少量的Datanode Daemon代替,Client客户端在存取实际数据的时候,不再需要经过Datanode(如左下的传统架构),而是可以直接和Kinetic驱动器通信(如右下的Kinetic架构那样),从而获得扩展性和性能上的提升。

  分布式存储系统当中,除了集中式之外,还有一种是去中心化,或者说是真正的分布式存储系统,一个典型的例子就是Ceph。根据James的介绍,(当时)对HDFS的支持集成已经完成,而对Ceph的支持集成也在进行当中。Ceph是笔者很看好的一种分布式存储系统,曾经,笔者以为Kinetic和Ceph采用了一样的去中心化结构,在Ceph当中,这个结构的核心是DHT(Distributed Hash Table,分布式哈希表),DHT可能了解的人并不多,但人们可能已经使用它已经比较久了:我们大都用过BitTorrent或者eMule,在较近代的版本当中存在的一个功能就是无Tracker下载,这就是一种DHT网络(Tracker是一个中心化的存储节点,无Tracker就是一种去中心化),BT和eMule使用的DHT算法略有不同,但原理是一样的,都是每个客户端负责一个小范围的路由,并负责存储一小部分数据,从而实现整个DHT网络的寻址和存储。

Kinetic——希捷的新分布式对象存储平台
所有的DHT算法都差不多基于一个环形哈希空间

  笔者曾经认为Kinetic当中包含了DHT算法,但James给出了否定的回答,问答比较长,感兴趣的读者可以翻看后面的专访记录。在Ceph中,DHT算法负责实现将用户的数据映射到具体的存储(OSD),而在Kinetic只负责通过Key/Value的接口提供存储功能,也就是说,它极为适合搭配Ceph进行使用。Ceph是笔者很看重的分布式存储系统,在2015版的数据中心的报告当中我们还会继续谈到它。

Kinetic——希捷的新分布式对象存储平台
Kinetic和DFS(分布式文件系统)的通用搭配框架

  就Kinetic原理可以知道,Kinetic最合适的场景就是云计算、大数据等需要大容量、高吞吐量的存储场合,除了HDFS和Ceph,Seagate也在进行其他Swift、BASHO Riak、Scality等分布式存储系统的适配工作,Seagate还组建了一个开放社区,用户也可以根据上面提供的文档和工具进行专有系统的适配工作。

【ZDNet企业解决方案中心】老实说,笔者对Seagate推出Kinetic这样的崭新的平台感到非常惊讶,2013年推出的SMR(Shingled Magnetic Recording,叠瓦式磁记录)技术尽管让人振奋,但并没有让人一惊。Kinetic这样的技术,是完全跳出了“硬盘”本身的范畴,而跃升到了“平台”的层次。

Kinetic——希捷的新分布式对象存储平台
Kinetic开放存储平台,包括了软件组件和硬件组件

  某种程度上来说,这样的行为和我们认为的技术趋势不谋而合。在2013版本的数据中心报告中,我们使用的标题是《数据中心2013:硬件重构与软件定义》,在Kinetic体系架构当中,软件堆栈的部分也开始占据了比以往重要的位置,整个Kinetic存储架构通过LibKinetic库提供给用户,与只开发硬件相比,Kinetic要求Seagate进行更多的软件层面的工作,包括开发各种分布式存储系统与LibKinetic之间的接口。Kinetic体现的就是一种硬件重构与软件定义的结合体。

Kinetic——希捷的新分布式对象存储平台
CES2015上Seagate宣布的新品牌形象的重点:Living Logo,于2015年1月4日正式上线

  我们认为,大数据/云计算是发展的趋势,而Kinetic代表的新开放平台很适合未来大数据/云计算环境下的分布式存储架构。在前段时间的CES国际消费电子展,Seagate宣布重塑其公司品牌,新的品牌要着重体现的一点是“与时俱进”,并强调了“细节广泛的产品解决方案如何将公司在数据存储领域的深厚行业知识扩展至闪存、系统以及解决方案等领域”,搭配的新Logo这被称为“Living Logo”,体现的是一种“将数据展现为一种为人类的创造、文明以及进步提供动力的富有活力的事物”,Kinetic很好地体现了“与时俱进”以及“活力”这两点。

主题:希捷科技Kinetic开放存储和大数据首席技术官裘剑一(James Hughes)采访
时间:2014年9月17日下午
地点:上海世博中心611会议室

主持人:我们请James先简单介绍一下Kinetic这一块相关的技术和优势。

裘剑一:
非常高兴能和大家见面。今天先给大家介绍一下我们的存储平台Kinetic。我们现在存储需求已经有了变化。在过去我们存储的是文件系统,而现在我们存储的是一些对象,比如说像照片,或者是电影等等,所以这个存储的需求已经变化了。
文件系统是在1965年的时候设计的,从此以后就没有任何变化,但是现在我们的存储方式已经有了改变。而且我们现在的技术要进入到硬盘上面的一些方法已经有了变化。比如说我们现在有了SMR或者HAMR技术,使得整个存储需要一些编程或者出现了一个新的变化。
现在我们有了新的机会,这个机会,如果我们能够从头开始,从一张白纸开始的话,我们如何来设计新的一种存储方式。如果说云数据中心的数据已经不是Fibre Channel或者SAS的,而是以太网的。
现在为什么我们不能考虑一下在存储上面我们可以有同样的协议呢?第二点我们要考虑到应用是需要存储信息的,我们要考虑存储其实不需要它的地址,或者说也不需要在512 byte上面的一些数据,他们要考虑的是这个信息的名称。
现在我们的存储系统要有新的变化,之前我们需要一些重要的信息来代表这个信息的名字或者是一些值来代表这个值。比如说命名可以是用户名或者照片的名字,而值就是这张照片。现在我们要利用一个新的技术,这个技术现在在云上面已经可以实现了,比如说利用Hash Table,我们可以有几千个硬盘,可以创造一个非常大的存储系统,而且可以有一个非常好的效果。
现在我们需要在存储上面有一个大的变化,比如说我们要有开源的API或者数据库。我们利用云存储系统,建立互相联系的API。在文件系统方面,我们一起合作的包括HDFS和Ceph,或者是Scality或者其他的一些用户。
现在我们有developers.seagate.com,这是一个开源网站,里面有很多公开的信息,有一些开源的模拟器,而且整个功能是非常完备的,我们还有一些测试软件。
这是我总的一个介绍。

主持人:大家有什么问题可以发问!

记者:通过刚才您讲的这些内容,反映出希捷的什么变化?就是希捷现在的变化和您讲的内容有什么样的联系?

裘剑一:
有了我们这个Kinetic存储系统,我们可以提高应用之间的一些存储效率,因为我们不需要有服务器了。没有服务器的话,首先成本降低了,因为我们不需要购买服务器,还可以节约能源,因为不需要为服务器提供这些能源,Kinetic稳定性很好,而且故障很少,这样我们就可以减少成本和能源消耗,提高我们的效率和性能。
我们非常激动,我们有很多的硬件制造商,比如说我们有硬盘的,也有其他的来自美国或者欧洲的一些制造商,现在我们在寻找中国的合作伙伴的制造商。

记者:昨天我和希捷工程师也讨论了,这个Kinetic存储架构,如果从非介入的层面,可能有两个对于产业的问题,第一使用者的消费习惯被打破了,不需要主机、服务器。第二英特尔应该不会喜欢这种做法。
裘剑一:
我认为英特尔会非常高兴,因为现在如果说存储不需要服务器,我们就不需要不停地只是复制数据了。之前我们买了这么贵的处理器就是做这些复制数据的简单工作。但是现在我们可以让英特尔解放出来,做它擅长的事情,不仅仅是复制数据,而是做一些计算工作。这不是我说的,是来自一些英特尔的管理人员说的。英特尔和希捷是很好的朋友。

记者:用户习惯是否变化了,就是刚才的第一个问题(请James 补充回答他问的第一个问题)。
裘剑一:
其实用户的习惯早就已经改变了,在1960年的时候,我们当时设计的文件系统是先要把这个文件放到主要的记忆体当中,内存当中,需要去搜索这个文件,然后读入内存,进行一些计算,然后进行修改,再写到硬盘当中。
比如说做一个PPT,改一个字,要做的事情是先把这个PPT读入到内存当中,改完了再存储到硬盘当中,这是针对于对象的,而不是说一个文件系统。所以说我们现在这种方式早就已经从老的变成新的了,因为用户在主导的,行为改变了,早就已经是一个改变的趋势。
现在我们的技术让希捷能够在硬盘上面有提高,比如说我们在硬盘上面有一百万的编程代码。我们要做的是需要有很多的代码,并且必须要跟过去兼容。但是现在因为趋势在不断的变化,我们可以有更加简洁的API,而且我们可以做得更加的便捷。

ZDNet记者:我想问一些关于Kinetic技术的连接问题?
裘剑一:
讲到这个连接,之前这些连接是对于个人的一些设备的,比如说存储在内部的,存储在bi-tray里面,比如说客户的系统需要做一个Swift,我们需要有很多的设备,然后需要用一些技术,比如说Hash Table这些技术。我们选择哪一个硬盘去读写,然后写完之后我们还要考虑把这些数据存储回哪一个硬盘,这是从系统的角度来看的。
现在我们的硬盘可以更加的简单,我们只要找到这个key,然后把它读写,存储、保存就可以了。写完了,找到那个key,再把它存储、保存回去。
还有一点就是我们现在这个联系的系统有了变化,我们需要有这些联系的设备,用Hash Table这些技术来决定我们应该选择哪一个硬盘进行互动,进行联系。我们可以用其他的一些技术,比如说mega data服务器,或者是higher key这些,目的要在多个系统当中沟通,而不是在一个系统。

ZDNet记者:其实我想问的是,就是使用这个API的时候,因为经过这个接口就不知道下面是硬盘,只知道是一个对象的存储,所以其实不知道该选择什么硬盘,我觉得选择这个问题应该是由Kinetic library来完成的,而不是由上层来完成的。
裘剑一:
我们现在也在建造这些系统,我们从底部开始建造的,我们有其他的一些供应商。有一天华为或者希捷也会一起创造这么一个系统。所以现在我们有机会让这些供应商能够在整个系统之外有更好的发展,希捷也是在这方面正在努力当中。

ZDNet记者:我们现在比如说有一个值或者有一个命令把这个数据存储到硬盘里面,谁来做这个选择?
裘剑一:
我们有分层系统的,我们这些应用当中是互相联系的,在中间的这一层来选择要存储在哪里,而不是希捷选择。我们可以用一些连接的hash来进行,或者其他不同的方式来进行。中间这一层来选择存储在哪一个硬盘上面,然后进行一些配置,是知道在哪里存储这个数据的。我们也可能在中层有一些hub或者是master,不是让硬盘来进行决定,这是一个互相关联的系统。
比如说现在Swift有一些数据写入到硬盘里面,我们有三个联系的硬盘,这个Swift会看到每一个硬盘的状态,可能有一个硬盘出现问题,就不会把数据存储在这里,会做一些复制。Swift可以看到应该进行什么样的复制,然后存储到哪个硬盘里。
在未来Swift会进行一些编码,不会去改变这个硬盘,我们会把数据放在中层。比如说我们分成十块,进行计算,把五块放到cluster里面,如果说设备出现一些故障,Swift会知道哪一个出现了故障,然后重建这个数据。
到目前为止大家都不知道哪一个硬盘会坚持到最后。我们有很多不同的设备,我们也会有不同的一些云系统,现在很难知道谁最后会成为赢家,所以我们只是选择跟他们合作,但并不会说做出最后的决定。
我想说两点,第一点就是我们会鼓励其他的卖家,让他们继续销售他们自己的存储设备,我们并不想要取代他们,而是希望与他们协同合作。第二个就是感谢您问了一个这么难的问题。

ZDNet记者:关于刚才那些问题还想问一个相关问题,如果我理解没有错的话, API,选择的硬盘是由API上面的应用来完成?
裘剑一:是的。

ZDNet记者:刚才演讲的时候我听到硬盘本身已经可以处理沉默数据失效(Silent Data Corruption),请问这是如何实现的?
裘剑一:
先解释一下这个沉默数据失效,比如说一个硬盘、一个处理器、网络或软件出现了错误,当你写入了一个数据,但是你得到的却不是这个相关数据,在写入或者反馈的时候不知道出现了错误,这就是数据失效,根本没有告诉你出现了问题。
在Kinetic平台中,每一个输入硬盘的信息都会有一个点对点的“数据集成区域”。并不是由硬盘来计算和控制数据集成区域中的数据,而是由应用程序来管理。硬盘可以识别卷标,所以硬盘可以检测数据的完整性,当数据写回主机时,会相应传回带有点对点的数据集成完整性的信息,这样应用程序就可以相应检测,确保硬盘、电脑、网络或其他区域没有发生错误,从而确保数据在写入或返回应用程序时不会出现沉默数据破坏的情况。
另外,中间层软件控制着一个后台操作程序。中间层软件可以命令硬盘对数据进行每个月的点对点数据集成检测,扫描硬盘中所有的数据,目前,你需要把所有的数据传回主机,在主机中完成相关的检测工作。如果使用Kinetic平台,就可以在硬盘内部进行相关的检测扫描工作,这样我们就可以自己扫描硬盘数据,检测是否有数据破坏的现象。如果我们发现有数据破坏的现象,我们就可以为主机发送损坏文件的文件名,这样主机就可以很轻易地解决数据破坏的问题。

ZDNet记者:这些是全自动,还是需要应用来手工发出这些指令?
裘剑一:
在非常大规模的数据群里,我们会遇到一个很大的问题,当你为所有机器发出指令时,如果一个机器发生滞后反应,那么所有的机器都会产生滞后反应。所以这里有一个问题,如果你需要让硬盘来控制数据群中的指令进程,那么在这个过程中,其中的一块硬盘可能会慢下来,以至于整个硬盘都会慢下来。我们希望中层软件部分会给硬盘下达最佳的进程指令,这样我们就可以保证100%的高效率,确保所有的硬盘都在一个快速的反应频率上。

ZDNet记者:最后一个问题,我想问一下,我看你的PPT里面有一个架构图,里面有Kinetic硬盘,也有普通的硬盘,是不是提供了一种装置,普通硬盘接上去之后变成了Kinetic硬盘?
裘剑一:没有。两种硬盘的技术不一样,所以无法实行转换。

记者:我想请您谈一下这个行业硬盘的标准?
裘剑一:
我一直在考虑这个问题。当我们研制Kinetic技术时,我们有这种硬盘,而且我们也评估过这种硬盘,我们是从客户的角度看待这方面的问题的。
这个硬盘已经经过希捷全方位的认证,作为网络服务器使用。客户现在比如说往其中加入一些微代码,但客户是不需要管理这个机器,是由希捷管理的。如果加入了ARM芯片或者Linux系统,由客户负责写这个代码,客户负责管理服务器,客户需要负责管理Linux系统。这个系统的设计可能可以容纳1个或12个配备有12块硬盘的服务器,我觉得这并不是一个改进,我会关注两方面的改进。IP的界面里面需要有一个API,因为有了这个API,我们可以了解用户的界面在做什么,而且我们可以保证客户的数据存储中心更加的简洁,而且更加的易于管理。
我们提供API,可以掌控整个系统的安全。如果在硬盘中加入一个操作系统,我们会发现这些系统安全的弱点在所有硬盘上面都会出现,对我来说,我觉得这很危险。
我们可以让用户来给计算机下达指令,或者直接给用户密码,但我感觉这不是行业的趋势。短期看来用户可以这样操作,但长期来看,管理这些机器的工作需要交给如同希捷一样的很专业的供应商来处理,他们在管理硬盘的代码方面具有资深的经验,让他们来管理这些代码,这样做的好处就是可以降低成本,而且稳定性高,而且可以随意增添一些新的功能。
另外,我之前讲过硬盘的发展历程,应用了叠瓦式磁记录技术,硬盘无法随机写入数据,需要按顺序纪录数据。可以随机读取数据,但无法随机写入数据。在Kinetic的API后台,我们可以加入很多技术以保证高的性能,可以加入配有API,可以为硬盘添加叠瓦式磁记录技术,加入大媒体模式,而且这些都可以从后台加入,为你所需的应用添加应用程序界面,但是如果用户还是想要在硬盘中写入其他的代码,那就是用户自己的事情了。

记者:我有一个关于闪存的问题,希捷在闪存产品中使用了SAS接口,我想问一下,下一代Kinetic技术会使用API的一些技术吗?
裘剑一:
Kinetic的应用程序界面并不是说为了某个硬盘而研发的,是为了存储研发的。关于闪存中的Kinetic技术,我可以谈谈我们在做什么工作。我们希望闪存中的Kinetic技术可以广泛应用在目前的市场中,而且我们认为内存中的Kinetic技术也是是非常重要的,目前的存储系统,有不同的核心应用程序,如使用在硬盘上面的程序,或者在闪存中的应用程序以及在内存中使用的核心应用程序。
如果要有一个程序可以管理所有的应用程序,那就好了。我们这样就无线将数据从主机上调出来,然后再连接到另外一个主机上面,而是我们直接在硬盘里面就可以进行修改。
我们还有另外一个领域您刚刚没有问到,但我觉得应该讲一下,就是关于第二资源,硬盘行业有很多不同的供应商为客户提供相同的产品,我们希望我们的竞争者或更多的对手提供与我们展开竞争的产品,这样我们的客户就会有更多的选择,我们也可以为用户提供更优惠的价格或者更加高的性价比。
我们可以想象有另外一个公司,生产HDST硬盘,将Kinetic软件应用在该硬盘上面。

记者:谈到我们技术,在用户这里,能否谈一下可管理、可运维有什么帮助?我感觉国内做云的公司其实搭一个云平台大家都可以搭,怎么解决后面的管理和运维,是大家很关心的。因为您这方面没有具体的讲,能否这方面谈一些?
裘剑一:
我们的系统比其他传统的系统要好维护。因为我们的应用程序界面更加简单,所以说比起传统的系统来说我们运维会更加简单,因为我们有中间软件可以进行管理存储,设备供应商就无需进行存储管理了。也就是说,供应商只需要创建一个架构,在硬盘和以太网之间进行连接和转换。这个架构相对容易搭建。云构建商或供应商,如阿里巴巴,就可以管理连接和转换的工作,所以我觉得中国的供应商如果想要进入这个市场,是非常简单的。

记者:
我的意思是,刚才谈到阿里巴巴这种公有云。国内现在有一个趋势是所谓的托管云,在自己数据中心里面搭一个云平台,第三方的人帮助我掌控运维。对于这种专门负责运维的公司来说,我了解到国内有几家在做的,客户的架构更简单、统一化。我的意思是说,比如说把原来的存储换成你这个模式,这个运维会不会对于负责运维的人来说更轻松一些?哪怕我的运维规模扩大十倍,但是我的人只需要加一到两个?
裘剑一:
如果客户需要来整合这么一个云存储系统,有两个选择,一个找到开源软件自己进行构建;第二个是外包找到供应商做。如果是Swift问题,有SwiftStack公司负责,如果是HDFS系统,希捷可以提供相关服务,如果涉及存储扩展性问题,有法国的公司在提供相关服务。客户希望购买完整的解决方案,如运送、安装、服务和支持都由一家公司完成,希捷目前有能力提供这种服务,在今后有望为客户提供一体化的解决方案服务。

主持人:大家还有问题吗?

记者:最近希捷的很多产品,包括您谈的规划好像和客户的产品有很大的竞争,包括ClusterStor产品,这个情况是否存在?
裘剑一:
在这里我解释一下,我非常了解ClusterStor产品,ClusterStor产品是基于文件系统“Cluster”而生产的。我担任技术运营总监的时候,我也是购买了这个技术,这不是一个新的技术,但这是一个非常出色的技术。它可以帮助处理海量的信息,用于超级计算机,可以提供可转换操作系统接口,Kinetic一直在试图赶超可转换操作系统接口,两者各有优势,其实在世上没有一个完美的电脑或者完美的电话适合所有的人,我们需要有不同的风格、类型,适合不同的需求。我们需要文件存储、分区存储等等。我相信目标存储,我们存储的对象会被替代,但并未改变。我觉得这个目标存储市场和传统存储市场是不一样的,而且我认为这两个市场在未来都会获得巨大成功。

推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题