嗑技三人行:异构计算崛起 云服务遭质疑

作者:曾智强     来源:ZDNetCBSi企业方案解决中心频道      【原创】      2013-08-30 12:07:01

关键字: GPU AMD 英特尔 云计算在本页阅读全文

英特尔将要发布14nm芯片,以用于Core和Atom系列,业内诸多人士认为这是英特尔对ARM阵营挑战的回应。纵观整个芯片市场,英特尔的对手还真不少,AMD自不必说;ARM阵营正妄图逆袭X86,;Nvidia,正虎视眈眈数据中心领域……他们之间的“爱恨纠葛”将会怎样演绎?

张广彬:其实我也有一些想法,咱们这就切入到第二个话题了,自认为还是比较平滑,其实刚才我觉得第一就是像亚马逊这个,它这回宕机它不是AWS宕机,是它自己网站那部分,购物那部分。其实这部分据说是2008年以来第一次宕机,至于AWS说经常宕,这个咱们一会儿可以再说。

另外,苹果宕了好几次,苹果一开始AppStore宕了,今天说iCould也宕机了。

曾智强:对,昨天晚上宕的,但是没持续多久。

张广彬:对,然后被认为的,因为现在其实像亚马逊也好,云计算大家一提起来云计算都想分布式,包括分布式最成功的企业之一就是Google也宕了,据说5分钟就恢复了,老大还是老大。

微软,Outlook也宕了,三天才恢复。还有包括微信也宕了,包括我觉得大家凑热闹,《纽约时报》也宕了,是网站宕了,不是印刷机宕了,纳斯达克也宕了。

我觉得在讨论技术之前,反正我这人虽然大家总说我这人经常比较提供负能量,但是我觉得有时候也要正能量一下。我觉得这个事情首先就是,我觉得没有人能够从技术角度上来回答为什么它们都在这两周的时间里面宕机了,原因肯定不是同一个。放到更大的视野来看,我觉得首先这是一个积极的事情,这说明用的人多了,大家越来越依赖它,以至于一分钟都不能停。就这一点上来说,它已经是7*24了,包括微信就是这样,两年前微信要是宕了,用的人很少,大家没人知道,现在一升级,宕了,也许跟升级有关。

反正微信被捧为明星了,我觉得这两点,第一是大家都用,第二是名人效应,比如咱们的服务器宕了,咱们实验室里服务器咱都不对外提供服务,宕了也没人知道。所以我觉得包括甚至早些时候,工行大机宕了,那也是同样的。你说要在二十年前,银行宕了一天两天,那没关系,咱也不取钱,咱也没钱可取,或者你不赶上发工资就没事了。

所以我觉得一方面这其实是好事,说明云计算真正是我们生活中不可或缺的一部分了。但是另外一方面,确实是不是以前有点吹嘘过头了呢?

曾智强:我觉得这个,很多事情,像在互联网那一块,可能大家都比较新锐,因为对于新鲜事物,始终大家会保持比较高的关注度,因为按照云计算本身的架构来讲,或者说它的愿景来讲,它就是讲的那种比如说永不宕机,或者百分之百不宕机,这事从技术上理论上讲是可以的,但是实际操作过程中是没办法去保证的。就跟之前说的永动机一样,当然它是从物理学上就不合理,但是我觉得你这个东西,因为你不管是云计算架构,或者说你管理,始终是人参与进去的,没法全自动化,毕竟现在机器还没有实现人工智能,你人去管首先就会出现人为误操作,或者其他的像软件,有可能会发现软件Bug什么的,这都是不可避免的。因为这当中,之间你要永远去解决不出现问题这个东西我觉得不太可能。

但是,另外一方面来讲,你得去看它给你带来什么样的好处,应不应该去用。我觉得就跟用电脑一样,或者用智能终端一样,这个东西能不能给你带来方便,能带来方便,就有人反映你用了智能电脑,以前我们大家聚在一起的时候可能就跟我们一样聊天,但是大家现在都开始看手机。

我就觉得任何事情都会有两面性,比如说像云计算这一块,不管是公共云也好,私有云也好,它宣称的时候说怎么样,但是你必须得真正去了解更多。它不可能达到那种神话级别的东西。

张广彬:盘大师,你怎么看这分布式系统?

盘骏:从分布式系统几十年前就提出来,那时候它就是想要一个稳定透明扩张的一个系统,当然现在还没做出来,当然现在已经在朝着这个目的前进了。刚才他说得由于人的因素使得他有很多方面达不到,但是就系统本身来说,它可靠性是提供,比如说你的AWS经常宕,但是你不会所有人的都全部宕掉,但是一部分人宕掉,做得好的话,虚拟机迁移了,迁到其他地方,那其实你感觉不出来这个宕,我们要关注的一方面是人为的问题,像刚才那个微信,其实之前也宕过一次,说是光缆被人挖掉了,那没办法。

张广彬:工行那个好像也跟人为有关。

盘骏:工行那个还不大一样,它不是互联网企业,它应用都很老,它自己专有的。

张广彬:但是谁都可能会宕。

盘骏:谁都可能会宕,从这方面来说,你可能还是刚才那种迁移,你这个宕了,另外那边接受,这个是分布式系统的一个理想,但是现在还没达到。

张广彬:不过你要说到迁移,因为亚马逊居然宕过这么多次,有大有小,确实就像你所说,但是它宕机过一次很严重的,就是2011年那次,包括邓侃,网上著名的专家,他也说过,介绍过宕的过程,他就说其实就是迁移。当然它是没有出问题的时候它迁移,它这个系统原来设计的时候,就是说它两条线路,一条是主要传数据的,一条传控制信号的,一般咱们都管它叫带外,传控制信号,因为控制信号虽然很频繁,但是它数据量不大,所以它带宽设得比较窄,它说那一次是集中上了一批新的系统,它集中要做一次,因为以前自动迁移都是小规模的,你有一些不是大规模的迁徙,就好比咱们应急通道,平常大家走下楼梯可以,突然20层的人都涌到楼梯里可能就不行了。他说那个迁移一批机器往那边去了,走那个数据通道,然后那个通道,因为它那么多机器一挤,迁移就没那么快。那边一看这个数据怎么还没来,是不是那边不能用了,然后就发控制信号,说我再找一批别的机器吧。

因为数据通道堵了,迁移总是不能在规定时间到达,这个不行,我再换,再换再换。

曾:相当于形成一个死循环了。

张广彬:就等于你不断打电话,你找不着,最后把这个信号通道也堵死了。堵死了以后,就都塌了,它那里面说,因为它那个运维人员,不知道设计人员是怎么设计的,实际上是一家公司里头,我觉得这在一家公司里头也是难免的。

但是另外一个,其实就是说是不是我有这么一个不太成熟的比喻,我觉得分布式它可能,它避免了单个部件的损坏,整个软件可能会出问题,因为你考虑不周,或者就像刚才那个情况,你不了解这个内部情况,比如我打个比喻,如果你这个人身体某一个部分出问题,可能某一个硬件出问题,比如说左腿瘸了,可能不会立刻整个人就瘫痪,左腿瘸了你更多用右腿,可能右腿也出问题了,这也有可能,我记得以前赵本山有个小品演过,你感冒了你吃药,吃药吃多了,肝坏了,然后又肾坏了,最后整个人挂了,但是它这不是一下子的事情。

但是这个人,这是硬件出问题,但是这个软件出问题,比如脑子一瞬间短路了,可能就从这跳下去,整个人就完全挂掉了,所以我觉得你说是不是有这么一个可能。

盘骏:这个其实我觉得是体系架构上的问题,他刚才所说的,很多机器备份,迁移,那么它就把Data Channle全部都给读出来,但是它可能设计得不好,正确的设计应该说Data Channle的拥堵不应该导致Signal Channle,就是传输信号那一端的信号,但是他没设计好。

 

张广彬:就是没考虑到。

盘骏:那个情况下它就引发很多Signal Channle的信号再传播,然后那边也拥堵了,两个一堵整个就瘫痪了,我觉得这是设计上的问题,这是一个,可能没考虑到这种情况。

曾智强:实际上就是说不是技术问题,说白了还不是技术问题。

张广彬:不是技术能力问题。

曾智强:思维能力,思考方面的东西,我觉得另一块可能还是管理方面有一些问题,就跟你刚刚说到,你比如说像运维人员不知道设计师怎么做的,所以他没法去应对。但是,如果说你有总的预案,比如说把这种情况给考虑到的话,作为一个体系,其实这种说法也不寻常,因为像在金融行业里面它有BCM这么一个说法,就是说业务连续性管理。因为像金融行业里面它用的那些机器都比较高端,而且也是专门的团队在运维,普通的人可能根本就,即使给你看你也看不明白,所以说他就会有BCM这么一个管理体系,就是说它会有很多那种预案,当出现什么问题之后,即使是普通员工他会给你分配工作,你按照那一套预案去做就可以了。当然它那个预案做起来就不得了,比如像中国一些银行,四大银行,它预案基本上现在应该是达到六七千份左右吧,因为我这个还是去年,前年的时候拿到这么一个消息,就是说他们最多的预案已经做到6千多份,像国外一个稍微成熟的银行,他们预案基本上都是上万份的那种。

实际上他们是从,不仅仅是从技术上面去保证,更多是从运维管理,而且是整个集团的那种风险管控,管理那块去做这么一个事情。我觉得可能就说云计算这一块的话,你从底层的技术方面,不是技术能力方面的问题,而是运维方面可能有一些问题。另外一方面可能对这风险管控还不足。

张广彬:但是我是这么觉得,包括网上也有,我觉得有一点应该能达成共识的,就是它不管是分布式,还是集中式,就像咱们刚刚举的例子,工行或者什么也好,它不存在永不宕机的性质,其实我觉得另外一点就是说可能有一个悖论,其实包括亚马逊,AWS它其实做很多自动运维的事情,因为人是容易犯错误的,而且人的效率,做一些重复性工作,效率没那么高。

但是,第一这个机器它有时候执行东西太死板,另外一些它现在来说智能还不够,需要人来判断。但如果真的像你制定很多预案,需要人去参与,比如说好几十个步骤要去做的,又难免操作失误了,是吧。另外,有些错误它就是人为造成的,我觉得但是这个你防也不一定防得住,就像防止核炸弹,核潜艇里头,弄那个钥匙,两个钥匙孔,你得同时插两个钥匙孔,两个钥匙孔离3米,一般人没法一个人操作,那你还是可以把那个人买通了,或者拿枪指着他干这种事。

所以,我觉得这个可能最后还是没法避免。

曾:对,我觉得这个东西就是说,世界上本来就没有完美的事情,像维纳斯美,但是她没有双臂,当时我就,应该说大学受教育的时候,我的导师就告诉我这么一句话,世界上没有完美的事情,你不要去奢求完美,云计算最主要的一个它的功能就是说你用它用来干什么,你不可能就说去保证你去要求它永不宕机或者怎么样不出问题,我觉得可能大多数人都不会,尽管他这么给你保证,SLA或者QoS什么的,他都跟你这样去说,但是你不能去相信,因为这始终都会出故障。最主要的就是说在这个风险与你的成本之间,或者说你的作用之间,你怎么样去衡量,就是两利相衡取其重。

张广彬:我觉得这一点,其实如果咱们不讨论具体的技术的话,你要从宏观的角度来说,你如果一个云服务提供商它也是个单点,如果它的软件或者运维出什么问题了,那你还是不行,可能你要是对这个业务连续性要求高,你可能要在不同的云供应商之间达成这个,但是这可能要开放API或者什么的,或者也不是一件容易的事。

但是,我想其实这个随着,一方面就像你刚才说的,其实很多东西它没有经过时间的检验,这个云计算还是一个成熟中的产业,它可能有些东西没有那么成熟。但是另外一方面随着它的成熟,其实关于它的不利的消息也越来越多,包括也是上周开始有人在传播这样的文章,有些创业公司,因为大家都说,还说AWS,很多创业公司都去用它的,包括很多公司做大还在用,像Dropbox,但是有些创业公司就觉得大到一定规模以后我用它,原来都说云计算便宜,我用它还不如自己买物理机便宜呢,比如说有个叫这个公司它就自己做大了,它说我自己弄便宜,那你怎么看这个事情,到底谁便宜?

盘骏:其实关系到刚才曾智强说考虑到一个成本,方便性之类的问题,用云主要是它大规模,它可以摊低一些硬件的成本,管理的成本,但是如果你大到一定程度,你还有一个通信成本,就像一个思路,路政,你得把你光缆给切断了,那你怎么办,这还有一个风险问题。主要是你跟这个云提供商的沟通成本,所以说我觉得这主要是考量这两种成本,哪种更好,更高一些,如果你那个云供应商实在不安全,像出了这些事情,信任度大减,那可能你就自己回来搞。但是我觉得就算是自己搞也是自己搞一个私有云比较实在,或者到了以后你可以多个云供应商之间迁移的话,那可能就更能够解决问题了。

曾智强:说到这个事情,盘大师刚才说的就是多个云供应商之间替换,我想比如说像亚马逊宕机,很多公司就宣称自己受到了损失怎么样,但是其中有一家公司它就站起来说我没有受到损失,他们就真正实现零宕机。他们不是技术上的问题,他除了用亚马逊的云服务之外还用其他公司的云服务,就是说当亚马逊宕机之后,我迅速在另一片云上启起来,它的业务基本上不会受影响什么的。实际我觉得用不用云服务,实际上这是一个潮流问题,或者是你的一个态度问题,至于怎么样去用好这在是你所需要关心的这么一个问题。

盘骏:有些东西不是我们能掌握,譬如说这个供应商上做得好不好,所以我们还是得考虑成本问题。

张广彬:对,所以我觉得确实咱们刚才谈了技术得多元化,其实很大程度上它也是应用了多元化驱动的,然后其实包括用户也存在很多种情况,比如说可能你对于一个创业公司来说,你用云服务是很合适的,因为你不需要购置这重资产,不然的话你要一开始,我要先弄风投弄来2000万,1500万用来买设备,然后再去建设,建设好了以后你发现什么某讯某度直接人家已经做了一个东西了,创业公司要的就是快和轻负担,零资产或者什么的。那你可能在用亚马逊比较合适,或者用其他云服务,你做到一定的规模,你比较稳定了,你的工作负载不弹性,弹性或者弹性不大,那你可能你觉得我自己建一个私有云,然后我可能我这样,或者我有一定的弹性,我再弄混合云,这个我觉得都是有可能的。

盘骏:你说这个其实我想到一个很好的比喻,就是电,公共云,你这个电也是公共电,公共电就不需要自己发电,用公共电的话你可以很便宜,但是你发展到一定程度,外面供电也有可能会停,所以你可能会自己搞一个发电机应急时候用,或者像你一栋大楼可以很多进电的地方,避免单点故障。但是可能继续发展的话,公共云很成熟了,像北京这种地区基本很少停电,基本不可能,那时候你就可以放心地放在上面,这个公共云可能也是一样的道理,只是现在还不够成熟导致的。

张广彬:或者你有另外一些不一样的需求,比如说你可能会觉得用电比较贵了,比如你规模弄得很大,像Google那样的,那我在靠近水电站的地方,我建一个数据中心,当然这个我没有说自建发电的设备,那你可能会去根据你的需求,你去更去调整这些方面的东西。

盘骏:其实我听过有一些数据中心,它自己建风力发电站。

张广彬:这就比较靠近,等于你完全要看自己的这些需求,然后有一些可能现在不能满足的,如果长期没法满足你就自己搞,短期内可能你跟人去合作,我觉得可能最关键的就是还是要看你具体的需求。

曾:对,你具体的需求决定你的方式。

盘骏:现在云计算发展符合不符合你的需求,当然现在这么多事件,可能还是体现出它还不够成熟。

张广彬:对,所以我觉得确实是,虽然还是有很多人叫嚣着说以后全都用公有云,我觉得最近这一波宕机潮至少能够给大家敲一个警钟,不要去盲从。反正至少现在你最不济,如果你有条件还是考虑混合云,或者你完全用公有云就能解决,这也没有什么问题,但是这个东西不能变成一个运动式的,说就什么好,什么就不好。

曾智强:我觉得就是你不能去神话某一样东西,你要用很客观的一些事实,或者论据去看清某一件它到底优点在什么,它的缺点在哪,你不可能说任何东西都是万能的,云计算照样也不可能是万能的,它不可能满足你所有的需求,尽管它看上去很美好,也许就只看到了大家宣传的它的那一点,但是它实际上背后的一些东西可能你没有看到,这些东西你必须有一个比较全面的这么去看待这么一个事情,可能就说像,就跟狒哥说的一样,比如像公共云什么的,它可能在你公司的初创阶段比较适合你,因为你那种业务的野蛮生长,爆炸式增长出来有大批用户,你自己部署不太可能,比较影响业务的质量,你自己花费的精力也会比较大,牵扯你自己的市场拓展机会。当然当你发展到一定规模之后,你那个市场成熟之后,你有稳定的客源之后,而且它可能就没有什么弹性了,公共云可能就是说不太,至少你的那些优势,公共云的那些优势你可能用不到了,如果说你用不到了,而且可能你会受到公共云的那些劣势的影响,可能会需要考虑自建数据中心,实现这么一个公共云交私有云这么一个混合云的优势。

盘骏:考虑到一个新的因素,公共云和公共电还不大一样,因为公共云我们有数据,数据是无价的。

张广彬:而且电是没有状态的。

盘骏:对,电没状态,所以我觉得自己本地备份是肯定需要的。

张广彬:对,我觉得你们两个说得都非常好,但是我想简单小结一下。第一,以前有一些厂商说大机永不宕机,宕机都是人为的错误,不管怎么说还是会宕机。又有人说分布式永不宕机,其实首先有一点可以肯定,没有永不宕机的东西,人的因素很重要,人的因素怎么说呢,我看了一段话觉得挺有启发,首先你明白了这个东西它肯定是要宕机的,其实可能产生两种结果,一种是你会觉得我要格外的小心,比如说我作为公有云的服务商,我认为我这个东西不是永不宕机的,那我要注意微小的一些蛛丝马迹,不要千里长堤溃于蚁穴,你作为用户你要想,而不是说我用上云就高枕无忧了,就像盘大师说的,我自己得在别的地方留一份,这是一个谨慎的态度。

另外一种就是放任的态度,作为公有云的服务提供商你想反正什么东西都会宕机的,宕机不是我的责任,那这样的话你就不能改善你的服务了。或者你作为用户想,因噎废食,反正公有云也不靠谱,那我就不用公有云了,我觉得这两个想法都是,后面这种想法不管你是作为服务商还是用户,你不应该有后面的想法,应该认识到现实以后,你就更应该想办法去防止它。

曾智强:对,最重要的还是自己的态度。

盘骏:还是提升自己的能力,需要多看我们的节目。

张广彬:对,我觉得这是一个很好的结语。

曾智强:我觉得今天关于异构计算,或者说关于云计算,我们也聊得差不多了,以后如果说再有这方面的一些热点话题,我们将会持续关注,本期节目到此为止,谢谢大家。

张广彬:再见。

  • 异构计算:AMD四处押宝 英特尔暗藏韬略?

    1
  • 云服务:巨头宕机高发期 理性看待公有云

    2

在本页阅读全文

    扫一扫

    分享文章到微信


    北京第二十六维信息技术有限公司(至顶网)版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号
    举报电话:010-62641205-5060 涉未成年人举报专线:010-62641208 举报邮箱:jubao@zhiding.cn 网上有害信息举报专区:https://www.12377.cn 安全联盟认证