Kinetic——希捷的新分布式对象存储平台

笔者有幸参加了对Seagate Kinetic开放存储和大数据首席技术官裘剑一(James Hughes)的采访,并通过提问了不少的问题对Kinetic平台有了一个比较全面的理解。

主题:希捷科技Kinetic开放存储和大数据首席技术官裘剑一(James Hughes)采访
时间:2014年9月17日下午
地点:上海世博中心611会议室

主持人:我们请James先简单介绍一下Kinetic这一块相关的技术和优势。

裘剑一:
非常高兴能和大家见面。今天先给大家介绍一下我们的存储平台Kinetic。我们现在存储需求已经有了变化。在过去我们存储的是文件系统,而现在我们存储的是一些对象,比如说像照片,或者是电影等等,所以这个存储的需求已经变化了。
文件系统是在1965年的时候设计的,从此以后就没有任何变化,但是现在我们的存储方式已经有了改变。而且我们现在的技术要进入到硬盘上面的一些方法已经有了变化。比如说我们现在有了SMR或者HAMR技术,使得整个存储需要一些编程或者出现了一个新的变化。
现在我们有了新的机会,这个机会,如果我们能够从头开始,从一张白纸开始的话,我们如何来设计新的一种存储方式。如果说云数据中心的数据已经不是Fibre Channel或者SAS的,而是以太网的。
现在为什么我们不能考虑一下在存储上面我们可以有同样的协议呢?第二点我们要考虑到应用是需要存储信息的,我们要考虑存储其实不需要它的地址,或者说也不需要在512 byte上面的一些数据,他们要考虑的是这个信息的名称。
现在我们的存储系统要有新的变化,之前我们需要一些重要的信息来代表这个信息的名字或者是一些值来代表这个值。比如说命名可以是用户名或者照片的名字,而值就是这张照片。现在我们要利用一个新的技术,这个技术现在在云上面已经可以实现了,比如说利用Hash Table,我们可以有几千个硬盘,可以创造一个非常大的存储系统,而且可以有一个非常好的效果。
现在我们需要在存储上面有一个大的变化,比如说我们要有开源的API或者数据库。我们利用云存储系统,建立互相联系的API。在文件系统方面,我们一起合作的包括HDFS和Ceph,或者是Scality或者其他的一些用户。
现在我们有developers.seagate.com,这是一个开源网站,里面有很多公开的信息,有一些开源的模拟器,而且整个功能是非常完备的,我们还有一些测试软件。
这是我总的一个介绍。

主持人:大家有什么问题可以发问!

记者:通过刚才您讲的这些内容,反映出希捷的什么变化?就是希捷现在的变化和您讲的内容有什么样的联系?

裘剑一:
有了我们这个Kinetic存储系统,我们可以提高应用之间的一些存储效率,因为我们不需要有服务器了。没有服务器的话,首先成本降低了,因为我们不需要购买服务器,还可以节约能源,因为不需要为服务器提供这些能源,Kinetic稳定性很好,而且故障很少,这样我们就可以减少成本和能源消耗,提高我们的效率和性能。
我们非常激动,我们有很多的硬件制造商,比如说我们有硬盘的,也有其他的来自美国或者欧洲的一些制造商,现在我们在寻找中国的合作伙伴的制造商。

记者:昨天我和希捷工程师也讨论了,这个Kinetic存储架构,如果从非介入的层面,可能有两个对于产业的问题,第一使用者的消费习惯被打破了,不需要主机、服务器。第二英特尔应该不会喜欢这种做法。
裘剑一:
我认为英特尔会非常高兴,因为现在如果说存储不需要服务器,我们就不需要不停地只是复制数据了。之前我们买了这么贵的处理器就是做这些复制数据的简单工作。但是现在我们可以让英特尔解放出来,做它擅长的事情,不仅仅是复制数据,而是做一些计算工作。这不是我说的,是来自一些英特尔的管理人员说的。英特尔和希捷是很好的朋友。

记者:用户习惯是否变化了,就是刚才的第一个问题(请James 补充回答他问的第一个问题)。
裘剑一:
其实用户的习惯早就已经改变了,在1960年的时候,我们当时设计的文件系统是先要把这个文件放到主要的记忆体当中,内存当中,需要去搜索这个文件,然后读入内存,进行一些计算,然后进行修改,再写到硬盘当中。
比如说做一个PPT,改一个字,要做的事情是先把这个PPT读入到内存当中,改完了再存储到硬盘当中,这是针对于对象的,而不是说一个文件系统。所以说我们现在这种方式早就已经从老的变成新的了,因为用户在主导的,行为改变了,早就已经是一个改变的趋势。
现在我们的技术让希捷能够在硬盘上面有提高,比如说我们在硬盘上面有一百万的编程代码。我们要做的是需要有很多的代码,并且必须要跟过去兼容。但是现在因为趋势在不断的变化,我们可以有更加简洁的API,而且我们可以做得更加的便捷。

ZDNet记者:我想问一些关于Kinetic技术的连接问题?
裘剑一:
讲到这个连接,之前这些连接是对于个人的一些设备的,比如说存储在内部的,存储在bi-tray里面,比如说客户的系统需要做一个Swift,我们需要有很多的设备,然后需要用一些技术,比如说Hash Table这些技术。我们选择哪一个硬盘去读写,然后写完之后我们还要考虑把这些数据存储回哪一个硬盘,这是从系统的角度来看的。
现在我们的硬盘可以更加的简单,我们只要找到这个key,然后把它读写,存储、保存就可以了。写完了,找到那个key,再把它存储、保存回去。
还有一点就是我们现在这个联系的系统有了变化,我们需要有这些联系的设备,用Hash Table这些技术来决定我们应该选择哪一个硬盘进行互动,进行联系。我们可以用其他的一些技术,比如说mega data服务器,或者是higher key这些,目的要在多个系统当中沟通,而不是在一个系统。

ZDNet记者:其实我想问的是,就是使用这个API的时候,因为经过这个接口就不知道下面是硬盘,只知道是一个对象的存储,所以其实不知道该选择什么硬盘,我觉得选择这个问题应该是由Kinetic library来完成的,而不是由上层来完成的。
裘剑一:
我们现在也在建造这些系统,我们从底部开始建造的,我们有其他的一些供应商。有一天华为或者希捷也会一起创造这么一个系统。所以现在我们有机会让这些供应商能够在整个系统之外有更好的发展,希捷也是在这方面正在努力当中。

ZDNet记者:我们现在比如说有一个值或者有一个命令把这个数据存储到硬盘里面,谁来做这个选择?
裘剑一:
我们有分层系统的,我们这些应用当中是互相联系的,在中间的这一层来选择要存储在哪里,而不是希捷选择。我们可以用一些连接的hash来进行,或者其他不同的方式来进行。中间这一层来选择存储在哪一个硬盘上面,然后进行一些配置,是知道在哪里存储这个数据的。我们也可能在中层有一些hub或者是master,不是让硬盘来进行决定,这是一个互相关联的系统。
比如说现在Swift有一些数据写入到硬盘里面,我们有三个联系的硬盘,这个Swift会看到每一个硬盘的状态,可能有一个硬盘出现问题,就不会把数据存储在这里,会做一些复制。Swift可以看到应该进行什么样的复制,然后存储到哪个硬盘里。
在未来Swift会进行一些编码,不会去改变这个硬盘,我们会把数据放在中层。比如说我们分成十块,进行计算,把五块放到cluster里面,如果说设备出现一些故障,Swift会知道哪一个出现了故障,然后重建这个数据。
到目前为止大家都不知道哪一个硬盘会坚持到最后。我们有很多不同的设备,我们也会有不同的一些云系统,现在很难知道谁最后会成为赢家,所以我们只是选择跟他们合作,但并不会说做出最后的决定。
我想说两点,第一点就是我们会鼓励其他的卖家,让他们继续销售他们自己的存储设备,我们并不想要取代他们,而是希望与他们协同合作。第二个就是感谢您问了一个这么难的问题。

ZDNet记者:关于刚才那些问题还想问一个相关问题,如果我理解没有错的话, API,选择的硬盘是由API上面的应用来完成?
裘剑一:是的。

ZDNet记者:刚才演讲的时候我听到硬盘本身已经可以处理沉默数据失效(Silent Data Corruption),请问这是如何实现的?
裘剑一:
先解释一下这个沉默数据失效,比如说一个硬盘、一个处理器、网络或软件出现了错误,当你写入了一个数据,但是你得到的却不是这个相关数据,在写入或者反馈的时候不知道出现了错误,这就是数据失效,根本没有告诉你出现了问题。
在Kinetic平台中,每一个输入硬盘的信息都会有一个点对点的“数据集成区域”。并不是由硬盘来计算和控制数据集成区域中的数据,而是由应用程序来管理。硬盘可以识别卷标,所以硬盘可以检测数据的完整性,当数据写回主机时,会相应传回带有点对点的数据集成完整性的信息,这样应用程序就可以相应检测,确保硬盘、电脑、网络或其他区域没有发生错误,从而确保数据在写入或返回应用程序时不会出现沉默数据破坏的情况。
另外,中间层软件控制着一个后台操作程序。中间层软件可以命令硬盘对数据进行每个月的点对点数据集成检测,扫描硬盘中所有的数据,目前,你需要把所有的数据传回主机,在主机中完成相关的检测工作。如果使用Kinetic平台,就可以在硬盘内部进行相关的检测扫描工作,这样我们就可以自己扫描硬盘数据,检测是否有数据破坏的现象。如果我们发现有数据破坏的现象,我们就可以为主机发送损坏文件的文件名,这样主机就可以很轻易地解决数据破坏的问题。

ZDNet记者:这些是全自动,还是需要应用来手工发出这些指令?
裘剑一:
在非常大规模的数据群里,我们会遇到一个很大的问题,当你为所有机器发出指令时,如果一个机器发生滞后反应,那么所有的机器都会产生滞后反应。所以这里有一个问题,如果你需要让硬盘来控制数据群中的指令进程,那么在这个过程中,其中的一块硬盘可能会慢下来,以至于整个硬盘都会慢下来。我们希望中层软件部分会给硬盘下达最佳的进程指令,这样我们就可以保证100%的高效率,确保所有的硬盘都在一个快速的反应频率上。

ZDNet记者:最后一个问题,我想问一下,我看你的PPT里面有一个架构图,里面有Kinetic硬盘,也有普通的硬盘,是不是提供了一种装置,普通硬盘接上去之后变成了Kinetic硬盘?
裘剑一:没有。两种硬盘的技术不一样,所以无法实行转换。

记者:我想请您谈一下这个行业硬盘的标准?
裘剑一:
我一直在考虑这个问题。当我们研制Kinetic技术时,我们有这种硬盘,而且我们也评估过这种硬盘,我们是从客户的角度看待这方面的问题的。
这个硬盘已经经过希捷全方位的认证,作为网络服务器使用。客户现在比如说往其中加入一些微代码,但客户是不需要管理这个机器,是由希捷管理的。如果加入了ARM芯片或者Linux系统,由客户负责写这个代码,客户负责管理服务器,客户需要负责管理Linux系统。这个系统的设计可能可以容纳1个或12个配备有12块硬盘的服务器,我觉得这并不是一个改进,我会关注两方面的改进。IP的界面里面需要有一个API,因为有了这个API,我们可以了解用户的界面在做什么,而且我们可以保证客户的数据存储中心更加的简洁,而且更加的易于管理。
我们提供API,可以掌控整个系统的安全。如果在硬盘中加入一个操作系统,我们会发现这些系统安全的弱点在所有硬盘上面都会出现,对我来说,我觉得这很危险。
我们可以让用户来给计算机下达指令,或者直接给用户密码,但我感觉这不是行业的趋势。短期看来用户可以这样操作,但长期来看,管理这些机器的工作需要交给如同希捷一样的很专业的供应商来处理,他们在管理硬盘的代码方面具有资深的经验,让他们来管理这些代码,这样做的好处就是可以降低成本,而且稳定性高,而且可以随意增添一些新的功能。
另外,我之前讲过硬盘的发展历程,应用了叠瓦式磁记录技术,硬盘无法随机写入数据,需要按顺序纪录数据。可以随机读取数据,但无法随机写入数据。在Kinetic的API后台,我们可以加入很多技术以保证高的性能,可以加入配有API,可以为硬盘添加叠瓦式磁记录技术,加入大媒体模式,而且这些都可以从后台加入,为你所需的应用添加应用程序界面,但是如果用户还是想要在硬盘中写入其他的代码,那就是用户自己的事情了。

记者:我有一个关于闪存的问题,希捷在闪存产品中使用了SAS接口,我想问一下,下一代Kinetic技术会使用API的一些技术吗?
裘剑一:
Kinetic的应用程序界面并不是说为了某个硬盘而研发的,是为了存储研发的。关于闪存中的Kinetic技术,我可以谈谈我们在做什么工作。我们希望闪存中的Kinetic技术可以广泛应用在目前的市场中,而且我们认为内存中的Kinetic技术也是是非常重要的,目前的存储系统,有不同的核心应用程序,如使用在硬盘上面的程序,或者在闪存中的应用程序以及在内存中使用的核心应用程序。
如果要有一个程序可以管理所有的应用程序,那就好了。我们这样就无线将数据从主机上调出来,然后再连接到另外一个主机上面,而是我们直接在硬盘里面就可以进行修改。
我们还有另外一个领域您刚刚没有问到,但我觉得应该讲一下,就是关于第二资源,硬盘行业有很多不同的供应商为客户提供相同的产品,我们希望我们的竞争者或更多的对手提供与我们展开竞争的产品,这样我们的客户就会有更多的选择,我们也可以为用户提供更优惠的价格或者更加高的性价比。
我们可以想象有另外一个公司,生产HDST硬盘,将Kinetic软件应用在该硬盘上面。

记者:谈到我们技术,在用户这里,能否谈一下可管理、可运维有什么帮助?我感觉国内做云的公司其实搭一个云平台大家都可以搭,怎么解决后面的管理和运维,是大家很关心的。因为您这方面没有具体的讲,能否这方面谈一些?
裘剑一:
我们的系统比其他传统的系统要好维护。因为我们的应用程序界面更加简单,所以说比起传统的系统来说我们运维会更加简单,因为我们有中间软件可以进行管理存储,设备供应商就无需进行存储管理了。也就是说,供应商只需要创建一个架构,在硬盘和以太网之间进行连接和转换。这个架构相对容易搭建。云构建商或供应商,如阿里巴巴,就可以管理连接和转换的工作,所以我觉得中国的供应商如果想要进入这个市场,是非常简单的。

记者:
我的意思是,刚才谈到阿里巴巴这种公有云。国内现在有一个趋势是所谓的托管云,在自己数据中心里面搭一个云平台,第三方的人帮助我掌控运维。对于这种专门负责运维的公司来说,我了解到国内有几家在做的,客户的架构更简单、统一化。我的意思是说,比如说把原来的存储换成你这个模式,这个运维会不会对于负责运维的人来说更轻松一些?哪怕我的运维规模扩大十倍,但是我的人只需要加一到两个?
裘剑一:
如果客户需要来整合这么一个云存储系统,有两个选择,一个找到开源软件自己进行构建;第二个是外包找到供应商做。如果是Swift问题,有SwiftStack公司负责,如果是HDFS系统,希捷可以提供相关服务,如果涉及存储扩展性问题,有法国的公司在提供相关服务。客户希望购买完整的解决方案,如运送、安装、服务和支持都由一家公司完成,希捷目前有能力提供这种服务,在今后有望为客户提供一体化的解决方案服务。

主持人:大家还有问题吗?

记者:最近希捷的很多产品,包括您谈的规划好像和客户的产品有很大的竞争,包括ClusterStor产品,这个情况是否存在?
裘剑一:
在这里我解释一下,我非常了解ClusterStor产品,ClusterStor产品是基于文件系统“Cluster”而生产的。我担任技术运营总监的时候,我也是购买了这个技术,这不是一个新的技术,但这是一个非常出色的技术。它可以帮助处理海量的信息,用于超级计算机,可以提供可转换操作系统接口,Kinetic一直在试图赶超可转换操作系统接口,两者各有优势,其实在世上没有一个完美的电脑或者完美的电话适合所有的人,我们需要有不同的风格、类型,适合不同的需求。我们需要文件存储、分区存储等等。我相信目标存储,我们存储的对象会被替代,但并未改变。我觉得这个目标存储市场和传统存储市场是不一样的,而且我认为这两个市场在未来都会获得巨大成功。

来源:ZDNetCBSi企业方案解决中心频道

0赞

好文章,需要你的鼓励

2015

01/29

07:14

分享

点赞

邮件订阅
白皮书