科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

ZDNet>CSC频道>嗑技三人行:异构计算崛起 云服务遭质疑

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

英特尔将要发布14nm芯片,以用于Core和Atom系列,业内诸多人士认为这是英特尔对ARM阵营挑战的回应。纵观整个芯片市场,英特尔的对手还真不少,AMD自不必说;ARM阵营正妄图逆袭X86,;Nvidia,正虎视眈眈数据中心领域……他们之间的“爱恨纠葛”将会怎样演绎?

来源:ZDNetCBSi企业方案解决中心频道 2013年08月30日

关键字:GPU AMD 英特尔 云计算 异构计算

英特尔将要发布14nm芯片,不仅用于Core系列,还将用于Atom系列产品,业内诸多人士认为这是英特尔对ARM阵营挑战的回应。纵观整个芯片市场,英特尔的对手还真不少,AMD整个老牌对手自不必说;ARM阵营也正妄图逆袭X86,;Nvidia,这个GPU市场的王者也正虎视眈眈数据中心领域……他们之间的“爱恨纠葛”将会怎样演绎?给市场带来什么样的影响?另,连续两周之内,包括微软、亚马逊、苹果、谷歌以及腾讯等云领先公司接连发生宕机,给火热的云计算市场浇了一盆冷水。其宕机的深层次原因是什么?是否意味着云神话的破灭?企业用户面对公共云时该如何抉择?欲知详情,请关注《嗑技三人行》。

曾智强:大家好,欢迎回到我们的《嗑技三人行》,这是我们的第二期节目,也是8月份的第二期节目。

张广彬:8月份的尾巴,你不是狮子座,虽然你是曾哥。

曾智强:书归正传,最近这两周关于IT方面的新闻比较多,经过我们这边筛选来看,可能有两个话题我们需要讨论一下。第一个就是关于异构计算的,第二个是关于云计算的,两个都是计算。

张广彬:那咱们先讨论哪个?

曾智强:比较基础性的先说吧。

张广彬:就是传说中的异构计算,或者说已经不是传说了。

曾智强:那行,我们先从比较技术的话题开始讨论,关于这个异构计算,最近因为秋季IDF又要召开了,特别是关于英特尔的新闻比较多,就传出这么一个消息,说英特尔在明年要量产14纳米的芯片。

张广彬:是Atom和酷睿都有,是吗?

曾智强:对,Atom和酷睿都有,可能就说酷睿可能会比Atom要提前半年的样子。

张广彬:但是这个半年,我觉得已经比较短了,记忆中如果从去年算的话,以前Autumn用新的工艺可能比酷瑞要慢很多。

盘骏:是,确实是慢很多,譬如说以前英特尔酷睿系列它很早就有22纳米了,但是像Atom还一直是33纳米。但是据我所知,到明年它年初第二个季度,它就会推出用平板的Atom CPU,但是用到手机上面还是比较晚,可能要再过半年左右,其实从这个来看,它的进度确实大大提升,因为它大概是跟桌面,其他酷睿系列都是同一个阶段上。

张广彬:对,我们很容易想到这是受到ARM的威胁。

曾智强:影响。

张广彬:我们在以前的节目中也对这个英特尔的应变速度做过高度的肯定。那这个事情是不是英特尔,Atom一出是不是就天下无敌了,别人就全都歇菜了呢?

曾智强:我觉得这个可能还是要从本身,就是Atom这个芯片,因为这个东西主要还是针对移动市场的,这一块可能得请盘大师分析一下Atom的这么一个优势和ARM方面的一些东西。

盘骏:相信大家都知道在移动市场,手机上,Atom有一个很强大的对手就是ARM,其实在数据中心方面,它们两个也有点短兵相接。它现在已经到了不得不面对ARM这个程度了,所以它才开始发力,加快速度,加快进度,它以前没那么重视Atom。

为什么Atom相对酷瑞之类的可以更适合面对ARM,因为它恐怕不在第一,像酷系列工艺做得再好,但是你工艺也达不到ARM那种移动的水准。像Atom它有比较好的性能,它有比较低的功耗,特别是下一代22纳米,它已经开始使用乱序架构了,它以前都是顺序执行。像ARM的V7它也是顺序执行,像ARM那个A10,A15,之前是A9和A7。A15它是乱序执行,它性能就提升了一倍,当然它功耗也提升很大,所以现在只有你手上那个手机里面有A15的核。

张广彬:对,但是它这个性能上我感觉发热量也还是挺大的。

盘骏:对,性能提升,发热量就提升了,对这个Atom来说它就从顺序调整到乱序架构,那它这个性能同样也能大幅提升,并且它工艺上有优势,比如说到了明年它到14纳米了,其他人还是22纳米,或者更高,那样它就功耗也下去了,但是性能它还能提升,所以这方面它是一个比较大的改进。这样它就有了对抗ARM的一个基础。

张广彬:但是看起来好像是英特尔受人欺负一样,被ARM逼得,实际上是英特尔太强大了,敌人越来越多,很多人越来越多人联合起来对付他了。

曾智强:对,因为前几天我也听到这么一个消息,就是惠普加入了Nvidia Grid联盟,你看这个事情到底是怎么一回事?

张广彬:对,Nvidia和英特尔对着干。

曾智强:而且惠普之前应该是英特尔的一个铁杆盟友吧。

张广彬:对啊,感觉很容易,因为你看惠普那个Moonshot它本来一开始原形,没有正式出产品的时候,它是基于ARM的,英特尔Atom一出,它其实真正的第一代产品,它就投靠Atom,但是现在又跟Nvidia勾搭到一块,这是啥意思?

盘骏:在运算方面,其实英特尔,还有ARM这个对手,但是英特尔它做另外一块业务就是显卡,CPU这一块,但是这方面它又有两个比较重要的对手,就是AMD,还有Nvidia,它在GPU这方面做得比较早,比较强。

张广彬:但是我觉得英特尔给我的感觉其实是,集成的咱不算,英特尔在GPU方面,如果光说GPU,桌面,包括移动的,感觉英特尔这方面还比较弱,如果光是这个的话,应该不至于联合起来对待它吧。

盘骏:这方面其实不在我们讨论的话题,但是其实还是可以说一下。现在英特尔的集成显卡GPU它现在已经量很大了,因为每一个CPU里面都有它,桌面级的,I3,I5,所以它现在铺货很大,现在那些人都已经不大愿意买低端的入门级的独立显卡。

张广彬:最便宜的总是量最大的,对吧?

盘骏:这个没错,在GPU方面它确实做得比较慢,它一开始是一个叫(06:44)的计划,后来变成…之类,到现在变成Phi。

张广彬:但是它不是用来显示的。

盘骏:对,它不是传统意义上的GPU,但是它做的事情差不多,就是GPGPU是通用计算的。

张广彬:对,那你要这样的话,好像还有一个新闻,也不算是新闻了,也就是说包括咱们的同事著名的凉薯(老梁)说过AMD,又引出一个敌人来,它做HSA,好像要把CPU和GPU又给放在一起。

盘骏:更高层次上看,我觉得这个敌人更为强大一些。因为它是从更高层次上想统一CPU和GPU,像Nvidia它现在也算是有CPU,就是ARM方面的CPU,但是它很弱,但是对于AMD来说不同了,它X86很强,ARM也做,GPU也做,所以它HSA架构就相当于统一它所有资源,CPU和GPU都统一在一起了,这方面我觉得策略是比较强大。

张广彬:那你怎么看AMD?

曾智强:实际上我看盘大师这么一个解读,实际上我就觉得AMD它可能在X86那一块我不及英特尔,在显卡那块我可能有点打不过Nvidia的那种样子,但是现在我把两者统一起来,然后做成这么一个综合的东西,可能就说你英特尔显卡不行,我这里面有显卡,相当于是它APU那一块,但是你像Nvidia这一块,可能就说你可能计算不行,但是我这里面有计算,实际上从AMD现在发的这个产品,包括我们大家所熟知的APU这么一个产品来看,实际上就说它至少在CPU和GPU融合这一块,实际上做得已经算比较好的了。但是可能大家反映到这么一个问题,它CPU的计算能力可能有点不足,但是我觉得这个是可以改进的。

盘骏:就是它这个HSA架构,异构它其实也可以运用英特尔资源,它自己有X86,自己也能在里面支持X86,那样它就可以自然地把英特尔的东西集成进去。如果HSA最开始的时候,它其实是想把CPU和GPU的通信打通,大家在同一个地址空间,这是以前CPU里面数据没有通过PCIe总线传过去,还有一个内存单元来做这种转换,你程序不能直接同时访问这两个。但是,AMD这个架构,它就做出来,你可以无缝访问CPU和GPU,减轻了编程的一大麻烦,性能也会下降。

张广彬:我觉得你说到这里头,我想到其实技术都是相通的,其实我们知道数据的传输其实是非常消耗资源和时间的,其实这让我想起来Hadoop来了,第一它是分布式的计算,计算贴近存储,避免把数据从存储搬运到计算那里。

另外,大家现在也在想很多办法,因为Hadoop和传统的企业计算集成,以前可能用ETL把这个数据转换再送过去,然后再做分析,其实这个效率也比较低。其实大家现在可能就是说,按照我的理解,HSA就是好像大家都可以访问,就需要共享的内存空间,而不是搬来搬去了,对吧?

盘骏:差不多是这个意思,这是原始的HSA,是CPU加GPU,现在提出HSA联盟里面我们可以看到,它里面还有很多ARM的厂商,高通之类的。

张广彬:对,TI,一大堆,还有三星,还有联发科,你最讨厌的联发科。好像感觉其实我是这么觉得,因为你看它这个不管X86,GPU,还是ARM,反正它弄这一联盟,肯定就是反对英特尔的,X86方面英特尔肯定不会参加,所以X86就它一个。

另外,我觉得AMD还是挺值得佩服的,以前有首歌,为了生活我们四处奔波,这个AMD为了反英特尔也四处奔波,跟ARM勾搭,当然GPU它早就有了,它现在把这些,反正什么都有,那你说它会不会除了CPU加GPU,会不会弄X86和ARM搞在一起?

盘骏:我觉得这很有可能,HSA后面这个架构它其实用软件层来掩盖底层的区别,就相当一个中间层,它通过一个HSA,IL,IL就是中间软件层,中间语言的意思,它就把下面各种体系,CPU,GPU之类的,它得上面提供一个标准的API,你可以通过标准的C++,AMT或者OpenCL来调动这些资源。其实这个事情大家都有,Nvidia的也有,英特尔也有,但是它可能是首先做到把X86和ARM统一在一起,这很有可能。

张广彬:关于X86和ARM统一到一起,你能想到啥?

曾智强:我觉得可能就说更像是云计算的那种感觉,你看云计算的那个核心理念不也是吗,它忽略底层硬件的这么一个区别。

盘骏:这挺像的。

张广彬:我觉得也挺像。

曾智强:云计算它的一个核心理念也是按需分配,实际上这个东西,我感觉AMD这种做法,可能不管你怎么讲,CPU和GPU至少在处理应用方面还是有区别的,但是我通过这么一个中间层,我把这种区别至少让应用感觉不到,只让应用提交这么一个需求过来,然后按照应用所提的这个需求,OK,你如果说计算能力强一点,我可能就说把CPU的那个计算资源分配多一点。但是你对图形那一块,或者是其他那一块会比较多一些的话,可能我就会用GPU,或者甚至你把ARM加入进来,如果说你可能这个应用的需求比较单一或者说怎么样子的话,我用ARM可以处理的话,出于环保或者低碳,我可能就把ARM的计算资源分配给你,这样实际上我感觉就相当于是芯片级别,或者CPU级别的,应该这不叫CPU级别了,应该叫芯片级别的这么一个云计算的感觉。

盘骏:就我来看,它可能还有进军移动市场的打算,因为它里面有高通,Imagination,所以它可能在手机里面使用ARM,再加上它自己的或者什么之类的。

张广彬:那你说这个传输中的,有可能你在一个系统里面,这和传说中的一个系统里面用安卓和Windows有关系吗?

盘骏:我觉得其实没什么关系,它只是引导不同的操作系统而已。像我们很早之前用过多启动的,Windows95,Windows98,NT什么之类的。

曾智强:对,之前我记得有,那时候说出来可能就显得我老了,因为那时候的操作系统里面你可以选择,我记得我当时用电脑的时候它有两个选项,你是用Windows操作系统,还是用DOS,那时候还有DOS。

张广彬:那说明你比我们两个年轻不了太多。

曾智强:其实坐在一块都有共同语言,如果说大家有代沟的话可能就坐不到一块来做这个节目了。

张广彬:其实我觉得两位大师说的各有一点,其实都挺重要的,我的感觉就是刚才你讲的硬件方面,包括你讲的操作系统方面。其实作为厂商来说,厂商肯定希望自己的一个技术架构,一个什么东西,就全都是我的,千秋万代,一统江湖,但实际上客观来说还是各有所长的,比如说CPU擅长干CPU的事,GPU擅长干GPU的事,Windows和LINUX也各有擅长。你要弄个服务器或者什么的,你可能弄LINUX比较合适,你要打游戏还是Windows比较好。

所以怎么在一个,不管是哪个层面来说,把这两个东西,以前可能因为技术的限制我们可能只能用一个,或者你要双启动,双启动真的很麻烦,要么你这个DOS和Windows一方面,Windows和LINUX你还要退出来再进另一个。后来有虚拟化技术,在不同的虚拟机里头,这样切换时间就短多了,可能ARM和X86,包括和GPU,是不是它也最后也能达成这么一个效果,甚至更好的。

盘骏:对,其实有很多例子,像你的手机它有一个core是A7,有一个A15的核,然后分不同的时候应用,这是一个性能高,但是功耗高;另外一个性能低但是功耗也低。对于X86和ARM,还有GPU这个方面来说,这个话题比较多,首先是X86和ARM。

张广彬:或者哪怕就像你那个例子我觉得可以要推广的话,酷睿和Atom也可以组合一下。

盘骏:没错,一般认为X86的性能比较高,但是功耗也高。下一代14纳米它可能就会赶上不少。

曾智强:就说在功耗上面降低,然后性能提高。

张广彬:而且我觉得英特尔比较厉害的,它哪怕都是22纳米的时候,我比你功耗还高一点,但是我工艺比你先进,我先14纳米,这就是不对称优势。

曾智强:没错,这是它独有的。我们接下来谈谈CPU和GPU的区别,应该可能很多人比较关注,首先一点比较直观的是GPU它频率比较低,都是几百兆,1G多,但是CPU它可以达到3G,4G。

张广彬:说到这里我有一个笑话,也是我从AMD那个HSA官网上看的,它列举了一个它的APU对普通的CPU和GPU那个组合的优势,它把CPU的频率就写了2.3M赫兹(可以Turbo到3.2G赫兹),可能就把M写成G了,但是它下面的GPU的频率就675M,所以我觉得它可能在两个体系里头,有时候你可能会(18:48)之下。

曾智强:我来介绍一下,GPU它是这样子,因为GPU它刚开始是处理图形的,图形需要的运算量很大,所以它就高度并行化,因为很多图形处理的东西都是差不多的。它也不需要太复杂的逻辑,它处理的东西比较固定,所以它首先要并行很多核,现在你可以看到几千个CUDA核心,你合上去了,你要配置相应的功耗,那你频率就得降下来,这也是为什么它现在频率得降下来。

频率降下来同时对应它也不能处理太复杂的逻辑,像CPU它可以处理很复杂的那种逻辑运算。

张广彬:各有所长。

盘骏:对,但是你GPU就不擅长这个,它频率低,频率低你再加上你又做得不能复杂,所以导致你很多什么分支计算就不如CPU。还有它内存也比较小,显存,可能对它来说是显存,这方面它就限制了一些应用,所以它只适合一些高度并行化,大量的计算,并且IO负荷不能太大,而且内存或者显存也不能太大,GPU的限制就在这里。CPU它频率高,但是核数比较少。

 

张广彬:对,那你说到这个让我想起你刚才也提到至强的融合那个Phi,它好像也是几十上百核心,8GB的显存,还是叫内存比较好呢?

盘骏:它又没有显示能力。

张广彬:对。

盘骏:就称之为它的内存我觉得就可以了。

张广彬:其实这个刚才咱们说到CPU和GPU,又是CPU和Phi,当然按照盘大师说法,Phi本质上也还是GPU,这两个东西关联让你想起了什么呢?

曾:可能就想起某些比较特殊的行业,比如像天河二号,因为它之前在透露的消息,它是用CPU和GPU这么一种模式。像现在比如不管是HSA或者是那种融合,它实际上就是这种更细致到那种硬件级别的这么一种融合吧,因为之前比如像天河二号,它可能是直接装CPU的,服务器里面,GPU这样子做。

但是,现在我可能就说从芯片级别把它两人做到一块去,有这种感觉吗?

张广彬:其实从一号和二号变化还是挺大的,但是不是每个人都了解,盘大师还是得给普及一下。

盘骏:其实可以说GPU运算在里面比较普及,现在Top500里面有很多用的是GPU系统。刚才我们可能说过GPU就是擅长并行计算,它(浮点运算)能力比较强,所以很多机器都用了它。对天河一号,二号这个来说,它是比较特别的,它更特别,在于它其实有三个运算部件,一个是传统X86,还有一个是GPU,天河一号用的是AMD的方案。还有另外是自己的飞腾1000,这个CPU架构也比较奇特,它们三个要融合在一起是比较特别的,这不像其他的,这是CPU和GPU,只有一个CPU,还不大一样。

然后到了天河二号,它其实其他方面没变,把GPU也换了。

张广彬:对,也就是说虽然它从一号的AMD的CPU和GPU的组合,换到英特尔的至强CPU加上融合的组合,你看来它本质上还是CPU和GPU?

盘骏:对,只不过是CPU比较混合一些,有点像我们刚才谈的X86加ARM,但是这里它不是ARM,那个飞腾1000它不是ARM架构。

张广彬:好像是OpenSPARC?

盘骏:应该是OpenSPARC。

曾智强:那这样子的话,看来这两家不管是英特尔,还是他们在这一块的市场打得还是比较激烈的。这样子我就会比较好奇这么一个问题,就是像GPU大家都在争夺这一个东西,GPU目前和CPU的融合,在我们一些普遍行业里面它有这样子的应用吗,据说百度里面有运用这种GPU的模式?

张广彬:对,好像是用来做机器学习。

盘骏:其实这个融合之前也有,但是可能不是现在谈的融合,之前它的融合其实是以GPU来做的,他们想占领主导地位,但是它确实不能占领。因为它做不了复杂的逻辑,很多控制,分支什么之类,只能CPU来完成,所以它现在是两个一起用,但是可能不是很好很完美地用在一起。

最近有一个OpenCL它就把通用计算比较融合,相同业务可以分给CPU也可以分给GPU,你刚才说那个机器学习那个是另外一个领域,它其实做的是GPU本身的应用,充分发挥GPU的优势。

张广彬:也就是它只是说在我们看来它只是互联网行业的一个GPU的应用,但是什么时候我们能够看到在互联网行业这种CPU和GPU混合模式,或者在非高性能计算的领域,我们能看到更多的这种,比如数据库之类的。

盘骏:其实这种GPU运算在很多方面都能发挥应用,但是我们要看到它的限制,我记得是在外国有一个机构,它用GPU做了一个40G流量的防火墙,说明它在网络方面能应用,因为网络方面是高度并行化的,大量运算。不过,IO能力另外说,除此之外还有数据库方面,也有人做出来一个模型,这是运行在GPU方面,因为数据库有很多大量并行,而且在查询过程中它也有大量运算,这个比较符合GPU的性质。

张广彬:那你的意见呢?

曾智强:我意思就是说,其实CPU在传统领域,不管是互联网还是什么,它都会涉及到最大的优势应该是并行计算,它可能能够应对那种多运算的那么一个环境,而CPU在这一块就会显得不是那么得心应手,因为这显然明显是GPU的这么一个强项。

它这样子运用的话,但是GPU它又有另外一个缺点,就是说它不擅长那种逻辑运算,就是说如果说你逻辑判断有点多的话,可能它就做不了这么一个事情。这实际上可能我就觉得CPU和GPU这么一个融合,看来至少从技术方面来看,它前景还是比较有前途的。

盘骏:就我来看,就像你刚才说的那样,它们各有所长,就我来看它们融合是一个不可避免的趋势。就是大家都把好的拿来一起用,其实这是潮流,不可抵挡的。

张广彬:这一点上来说,我有个想法,不知道其实对不对,比如说大家都说,刚才都说高性能计算领域它的特殊性,可以去尝试很多更前沿的技术,成本可能相对次要一点。然后有些技术比较成熟以后,可能就到了一些,因为高性能计算它在数据中心的角度来讲,它也是比较大规模的数据中心,可能另外一些大规模的数据中心,比如说互联网行业它也会大量用,它可能也会采用这些技术,包括像Facebook,你看Facebook它在考虑X86和ARM它都用,它可能不在HSA那么用了,包括Google它之前都用X86的,也跟IBM搞OpenPower,它也进去插一腿,这是互联网行业,我们很快也许能看到互联网行业扩散。

可能再往下就是那种传统的数据中心了,但是说到这个互联网行业,我也觉得说是不是这个互联网也有些东西是被神话的?

曾智强:我觉得可能还是说跟他们本身的基因有关,像互联网给人最大的感觉就是创新,当然它们天生就具有那种探索创新的基因。但是我觉得你在创新过程中,你如果没有错的话,那是不正常的。比如说像现在云计算应该是互联网行业最先应用的,前几天,这两周也是事出凑巧,亚马逊宕机,因为它是云计算方面的领头羊,然后微软那块也宕机,苹果也宕机,接着还有什么什么,反正就说关于云计算或者说在互联网那一块,大家可能采用新技术或者怎么样,比较早的,大家这两周就接连宕机,我们就会想到这么一个问题,为什么它们会宕机呢?

张广彬:你说为什么会宕机呢?

曾智强:而且是集中在这两周之内宕机。

张广彬:你觉得为什么会宕机呢?

盘骏:我觉得分析吧,首先它们架构有没有问题,就是首先说云计算这个架构,大架构有没有问题,我觉得应该是没什么问题。

张广彬:其实我也有一些想法,咱们这就切入到第二个话题了,自认为还是比较平滑,其实刚才我觉得第一就是像亚马逊这个,它这回宕机它不是AWS宕机,是它自己网站那部分,购物那部分。其实这部分据说是2008年以来第一次宕机,至于AWS说经常宕,这个咱们一会儿可以再说。

另外,苹果宕了好几次,苹果一开始AppStore宕了,今天说iCould也宕机了。

曾智强:对,昨天晚上宕的,但是没持续多久。

张广彬:对,然后被认为的,因为现在其实像亚马逊也好,云计算大家一提起来云计算都想分布式,包括分布式最成功的企业之一就是Google也宕了,据说5分钟就恢复了,老大还是老大。

微软,Outlook也宕了,三天才恢复。还有包括微信也宕了,包括我觉得大家凑热闹,《纽约时报》也宕了,是网站宕了,不是印刷机宕了,纳斯达克也宕了。

我觉得在讨论技术之前,反正我这人虽然大家总说我这人经常比较提供负能量,但是我觉得有时候也要正能量一下。我觉得这个事情首先就是,我觉得没有人能够从技术角度上来回答为什么它们都在这两周的时间里面宕机了,原因肯定不是同一个。放到更大的视野来看,我觉得首先这是一个积极的事情,这说明用的人多了,大家越来越依赖它,以至于一分钟都不能停。就这一点上来说,它已经是7*24了,包括微信就是这样,两年前微信要是宕了,用的人很少,大家没人知道,现在一升级,宕了,也许跟升级有关。

反正微信被捧为明星了,我觉得这两点,第一是大家都用,第二是名人效应,比如咱们的服务器宕了,咱们实验室里服务器咱都不对外提供服务,宕了也没人知道。所以我觉得包括甚至早些时候,工行大机宕了,那也是同样的。你说要在二十年前,银行宕了一天两天,那没关系,咱也不取钱,咱也没钱可取,或者你不赶上发工资就没事了。

所以我觉得一方面这其实是好事,说明云计算真正是我们生活中不可或缺的一部分了。但是另外一方面,确实是不是以前有点吹嘘过头了呢?

曾智强:我觉得这个,很多事情,像在互联网那一块,可能大家都比较新锐,因为对于新鲜事物,始终大家会保持比较高的关注度,因为按照云计算本身的架构来讲,或者说它的愿景来讲,它就是讲的那种比如说永不宕机,或者百分之百不宕机,这事从技术上理论上讲是可以的,但是实际操作过程中是没办法去保证的。就跟之前说的永动机一样,当然它是从物理学上就不合理,但是我觉得你这个东西,因为你不管是云计算架构,或者说你管理,始终是人参与进去的,没法全自动化,毕竟现在机器还没有实现人工智能,你人去管首先就会出现人为误操作,或者其他的像软件,有可能会发现软件Bug什么的,这都是不可避免的。因为这当中,之间你要永远去解决不出现问题这个东西我觉得不太可能。

但是,另外一方面来讲,你得去看它给你带来什么样的好处,应不应该去用。我觉得就跟用电脑一样,或者用智能终端一样,这个东西能不能给你带来方便,能带来方便,就有人反映你用了智能电脑,以前我们大家聚在一起的时候可能就跟我们一样聊天,但是大家现在都开始看手机。

我就觉得任何事情都会有两面性,比如说像云计算这一块,不管是公共云也好,私有云也好,它宣称的时候说怎么样,但是你必须得真正去了解更多。它不可能达到那种神话级别的东西。

张广彬:盘大师,你怎么看这分布式系统?

盘骏:从分布式系统几十年前就提出来,那时候它就是想要一个稳定透明扩张的一个系统,当然现在还没做出来,当然现在已经在朝着这个目的前进了。刚才他说得由于人的因素使得他有很多方面达不到,但是就系统本身来说,它可靠性是提供,比如说你的AWS经常宕,但是你不会所有人的都全部宕掉,但是一部分人宕掉,做得好的话,虚拟机迁移了,迁到其他地方,那其实你感觉不出来这个宕,我们要关注的一方面是人为的问题,像刚才那个微信,其实之前也宕过一次,说是光缆被人挖掉了,那没办法。

张广彬:工行那个好像也跟人为有关。

盘骏:工行那个还不大一样,它不是互联网企业,它应用都很老,它自己专有的。

张广彬:但是谁都可能会宕。

盘骏:谁都可能会宕,从这方面来说,你可能还是刚才那种迁移,你这个宕了,另外那边接受,这个是分布式系统的一个理想,但是现在还没达到。

张广彬:不过你要说到迁移,因为亚马逊居然宕过这么多次,有大有小,确实就像你所说,但是它宕机过一次很严重的,就是2011年那次,包括邓侃,网上著名的专家,他也说过,介绍过宕的过程,他就说其实就是迁移。当然它是没有出问题的时候它迁移,它这个系统原来设计的时候,就是说它两条线路,一条是主要传数据的,一条传控制信号的,一般咱们都管它叫带外,传控制信号,因为控制信号虽然很频繁,但是它数据量不大,所以它带宽设得比较窄,它说那一次是集中上了一批新的系统,它集中要做一次,因为以前自动迁移都是小规模的,你有一些不是大规模的迁徙,就好比咱们应急通道,平常大家走下楼梯可以,突然20层的人都涌到楼梯里可能就不行了。他说那个迁移一批机器往那边去了,走那个数据通道,然后那个通道,因为它那么多机器一挤,迁移就没那么快。那边一看这个数据怎么还没来,是不是那边不能用了,然后就发控制信号,说我再找一批别的机器吧。

因为数据通道堵了,迁移总是不能在规定时间到达,这个不行,我再换,再换再换。

曾:相当于形成一个死循环了。

张广彬:就等于你不断打电话,你找不着,最后把这个信号通道也堵死了。堵死了以后,就都塌了,它那里面说,因为它那个运维人员,不知道设计人员是怎么设计的,实际上是一家公司里头,我觉得这在一家公司里头也是难免的。

但是另外一个,其实就是说是不是我有这么一个不太成熟的比喻,我觉得分布式它可能,它避免了单个部件的损坏,整个软件可能会出问题,因为你考虑不周,或者就像刚才那个情况,你不了解这个内部情况,比如我打个比喻,如果你这个人身体某一个部分出问题,可能某一个硬件出问题,比如说左腿瘸了,可能不会立刻整个人就瘫痪,左腿瘸了你更多用右腿,可能右腿也出问题了,这也有可能,我记得以前赵本山有个小品演过,你感冒了你吃药,吃药吃多了,肝坏了,然后又肾坏了,最后整个人挂了,但是它这不是一下子的事情。

但是这个人,这是硬件出问题,但是这个软件出问题,比如脑子一瞬间短路了,可能就从这跳下去,整个人就完全挂掉了,所以我觉得你说是不是有这么一个可能。

盘骏:这个其实我觉得是体系架构上的问题,他刚才所说的,很多机器备份,迁移,那么它就把Data Channle全部都给读出来,但是它可能设计得不好,正确的设计应该说Data Channle的拥堵不应该导致Signal Channle,就是传输信号那一端的信号,但是他没设计好。

 

张广彬:就是没考虑到。

盘骏:那个情况下它就引发很多Signal Channle的信号再传播,然后那边也拥堵了,两个一堵整个就瘫痪了,我觉得这是设计上的问题,这是一个,可能没考虑到这种情况。

曾智强:实际上就是说不是技术问题,说白了还不是技术问题。

张广彬:不是技术能力问题。

曾智强:思维能力,思考方面的东西,我觉得另一块可能还是管理方面有一些问题,就跟你刚刚说到,你比如说像运维人员不知道设计师怎么做的,所以他没法去应对。但是,如果说你有总的预案,比如说把这种情况给考虑到的话,作为一个体系,其实这种说法也不寻常,因为像在金融行业里面它有BCM这么一个说法,就是说业务连续性管理。因为像金融行业里面它用的那些机器都比较高端,而且也是专门的团队在运维,普通的人可能根本就,即使给你看你也看不明白,所以说他就会有BCM这么一个管理体系,就是说它会有很多那种预案,当出现什么问题之后,即使是普通员工他会给你分配工作,你按照那一套预案去做就可以了。当然它那个预案做起来就不得了,比如像中国一些银行,四大银行,它预案基本上现在应该是达到六七千份左右吧,因为我这个还是去年,前年的时候拿到这么一个消息,就是说他们最多的预案已经做到6千多份,像国外一个稍微成熟的银行,他们预案基本上都是上万份的那种。

实际上他们是从,不仅仅是从技术上面去保证,更多是从运维管理,而且是整个集团的那种风险管控,管理那块去做这么一个事情。我觉得可能就说云计算这一块的话,你从底层的技术方面,不是技术能力方面的问题,而是运维方面可能有一些问题。另外一方面可能对这风险管控还不足。

张广彬:但是我是这么觉得,包括网上也有,我觉得有一点应该能达成共识的,就是它不管是分布式,还是集中式,就像咱们刚刚举的例子,工行或者什么也好,它不存在永不宕机的性质,其实我觉得另外一点就是说可能有一个悖论,其实包括亚马逊,AWS它其实做很多自动运维的事情,因为人是容易犯错误的,而且人的效率,做一些重复性工作,效率没那么高。

但是,第一这个机器它有时候执行东西太死板,另外一些它现在来说智能还不够,需要人来判断。但如果真的像你制定很多预案,需要人去参与,比如说好几十个步骤要去做的,又难免操作失误了,是吧。另外,有些错误它就是人为造成的,我觉得但是这个你防也不一定防得住,就像防止核炸弹,核潜艇里头,弄那个钥匙,两个钥匙孔,你得同时插两个钥匙孔,两个钥匙孔离3米,一般人没法一个人操作,那你还是可以把那个人买通了,或者拿枪指着他干这种事。

所以,我觉得这个可能最后还是没法避免。

曾:对,我觉得这个东西就是说,世界上本来就没有完美的事情,像维纳斯美,但是她没有双臂,当时我就,应该说大学受教育的时候,我的导师就告诉我这么一句话,世界上没有完美的事情,你不要去奢求完美,云计算最主要的一个它的功能就是说你用它用来干什么,你不可能就说去保证你去要求它永不宕机或者怎么样不出问题,我觉得可能大多数人都不会,尽管他这么给你保证,SLA或者QoS什么的,他都跟你这样去说,但是你不能去相信,因为这始终都会出故障。最主要的就是说在这个风险与你的成本之间,或者说你的作用之间,你怎么样去衡量,就是两利相衡取其重。

张广彬:我觉得这一点,其实如果咱们不讨论具体的技术的话,你要从宏观的角度来说,你如果一个云服务提供商它也是个单点,如果它的软件或者运维出什么问题了,那你还是不行,可能你要是对这个业务连续性要求高,你可能要在不同的云供应商之间达成这个,但是这可能要开放API或者什么的,或者也不是一件容易的事。

但是,我想其实这个随着,一方面就像你刚才说的,其实很多东西它没有经过时间的检验,这个云计算还是一个成熟中的产业,它可能有些东西没有那么成熟。但是另外一方面随着它的成熟,其实关于它的不利的消息也越来越多,包括也是上周开始有人在传播这样的文章,有些创业公司,因为大家都说,还说AWS,很多创业公司都去用它的,包括很多公司做大还在用,像Dropbox,但是有些创业公司就觉得大到一定规模以后我用它,原来都说云计算便宜,我用它还不如自己买物理机便宜呢,比如说有个叫这个公司它就自己做大了,它说我自己弄便宜,那你怎么看这个事情,到底谁便宜?

盘骏:其实关系到刚才曾智强说考虑到一个成本,方便性之类的问题,用云主要是它大规模,它可以摊低一些硬件的成本,管理的成本,但是如果你大到一定程度,你还有一个通信成本,就像一个思路,路政,你得把你光缆给切断了,那你怎么办,这还有一个风险问题。主要是你跟这个云提供商的沟通成本,所以说我觉得这主要是考量这两种成本,哪种更好,更高一些,如果你那个云供应商实在不安全,像出了这些事情,信任度大减,那可能你就自己回来搞。但是我觉得就算是自己搞也是自己搞一个私有云比较实在,或者到了以后你可以多个云供应商之间迁移的话,那可能就更能够解决问题了。

曾智强:说到这个事情,盘大师刚才说的就是多个云供应商之间替换,我想比如说像亚马逊宕机,很多公司就宣称自己受到了损失怎么样,但是其中有一家公司它就站起来说我没有受到损失,他们就真正实现零宕机。他们不是技术上的问题,他除了用亚马逊的云服务之外还用其他公司的云服务,就是说当亚马逊宕机之后,我迅速在另一片云上启起来,它的业务基本上不会受影响什么的。实际我觉得用不用云服务,实际上这是一个潮流问题,或者是你的一个态度问题,至于怎么样去用好这在是你所需要关心的这么一个问题。

盘骏:有些东西不是我们能掌握,譬如说这个供应商上做得好不好,所以我们还是得考虑成本问题。

张广彬:对,所以我觉得确实咱们刚才谈了技术得多元化,其实很大程度上它也是应用了多元化驱动的,然后其实包括用户也存在很多种情况,比如说可能你对于一个创业公司来说,你用云服务是很合适的,因为你不需要购置这重资产,不然的话你要一开始,我要先弄风投弄来2000万,1500万用来买设备,然后再去建设,建设好了以后你发现什么某讯某度直接人家已经做了一个东西了,创业公司要的就是快和轻负担,零资产或者什么的。那你可能在用亚马逊比较合适,或者用其他云服务,你做到一定的规模,你比较稳定了,你的工作负载不弹性,弹性或者弹性不大,那你可能你觉得我自己建一个私有云,然后我可能我这样,或者我有一定的弹性,我再弄混合云,这个我觉得都是有可能的。

盘骏:你说这个其实我想到一个很好的比喻,就是电,公共云,你这个电也是公共电,公共电就不需要自己发电,用公共电的话你可以很便宜,但是你发展到一定程度,外面供电也有可能会停,所以你可能会自己搞一个发电机应急时候用,或者像你一栋大楼可以很多进电的地方,避免单点故障。但是可能继续发展的话,公共云很成熟了,像北京这种地区基本很少停电,基本不可能,那时候你就可以放心地放在上面,这个公共云可能也是一样的道理,只是现在还不够成熟导致的。

张广彬:或者你有另外一些不一样的需求,比如说你可能会觉得用电比较贵了,比如你规模弄得很大,像Google那样的,那我在靠近水电站的地方,我建一个数据中心,当然这个我没有说自建发电的设备,那你可能会去根据你的需求,你去更去调整这些方面的东西。

盘骏:其实我听过有一些数据中心,它自己建风力发电站。

张广彬:这就比较靠近,等于你完全要看自己的这些需求,然后有一些可能现在不能满足的,如果长期没法满足你就自己搞,短期内可能你跟人去合作,我觉得可能最关键的就是还是要看你具体的需求。

曾:对,你具体的需求决定你的方式。

盘骏:现在云计算发展符合不符合你的需求,当然现在这么多事件,可能还是体现出它还不够成熟。

张广彬:对,所以我觉得确实是,虽然还是有很多人叫嚣着说以后全都用公有云,我觉得最近这一波宕机潮至少能够给大家敲一个警钟,不要去盲从。反正至少现在你最不济,如果你有条件还是考虑混合云,或者你完全用公有云就能解决,这也没有什么问题,但是这个东西不能变成一个运动式的,说就什么好,什么就不好。

曾智强:我觉得就是你不能去神话某一样东西,你要用很客观的一些事实,或者论据去看清某一件它到底优点在什么,它的缺点在哪,你不可能说任何东西都是万能的,云计算照样也不可能是万能的,它不可能满足你所有的需求,尽管它看上去很美好,也许就只看到了大家宣传的它的那一点,但是它实际上背后的一些东西可能你没有看到,这些东西你必须有一个比较全面的这么去看待这么一个事情,可能就说像,就跟狒哥说的一样,比如像公共云什么的,它可能在你公司的初创阶段比较适合你,因为你那种业务的野蛮生长,爆炸式增长出来有大批用户,你自己部署不太可能,比较影响业务的质量,你自己花费的精力也会比较大,牵扯你自己的市场拓展机会。当然当你发展到一定规模之后,你那个市场成熟之后,你有稳定的客源之后,而且它可能就没有什么弹性了,公共云可能就是说不太,至少你的那些优势,公共云的那些优势你可能用不到了,如果说你用不到了,而且可能你会受到公共云的那些劣势的影响,可能会需要考虑自建数据中心,实现这么一个公共云交私有云这么一个混合云的优势。

盘骏:考虑到一个新的因素,公共云和公共电还不大一样,因为公共云我们有数据,数据是无价的。

张广彬:而且电是没有状态的。

盘骏:对,电没状态,所以我觉得自己本地备份是肯定需要的。

张广彬:对,我觉得你们两个说得都非常好,但是我想简单小结一下。第一,以前有一些厂商说大机永不宕机,宕机都是人为的错误,不管怎么说还是会宕机。又有人说分布式永不宕机,其实首先有一点可以肯定,没有永不宕机的东西,人的因素很重要,人的因素怎么说呢,我看了一段话觉得挺有启发,首先你明白了这个东西它肯定是要宕机的,其实可能产生两种结果,一种是你会觉得我要格外的小心,比如说我作为公有云的服务商,我认为我这个东西不是永不宕机的,那我要注意微小的一些蛛丝马迹,不要千里长堤溃于蚁穴,你作为用户你要想,而不是说我用上云就高枕无忧了,就像盘大师说的,我自己得在别的地方留一份,这是一个谨慎的态度。

另外一种就是放任的态度,作为公有云的服务提供商你想反正什么东西都会宕机的,宕机不是我的责任,那这样的话你就不能改善你的服务了。或者你作为用户想,因噎废食,反正公有云也不靠谱,那我就不用公有云了,我觉得这两个想法都是,后面这种想法不管你是作为服务商还是用户,你不应该有后面的想法,应该认识到现实以后,你就更应该想办法去防止它。

曾智强:对,最重要的还是自己的态度。

盘骏:还是提升自己的能力,需要多看我们的节目。

张广彬:对,我觉得这是一个很好的结语。

曾智强:我觉得今天关于异构计算,或者说关于云计算,我们也聊得差不多了,以后如果说再有这方面的一些热点话题,我们将会持续关注,本期节目到此为止,谢谢大家。

张广彬:再见。

综合评分:8.13 分
云能力:8.3 分
营业额:533亿美元[2012]
云服务:英特尔云计算

查看更多 >>

综合评分:8.07 分
云能力:7.1 分
营业额:54.2亿美元[2012]
云服务:英特尔云计算AMD虚拟化

查看更多 >>

推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题