首页> 快讯

业内专家详解英特尔至强三代到底强在何处

2021-04-28 15:27:51中华网


  作者:马超

  王师北定中原日,家书勿忘告乃翁。在新任CEO帕特·基辛格回归以后,英特尔推出至强三代Ice Lake-SP处理器。Ice Lake-SP的发布,不但用最好的方式告慰了近几年相继离世的前任掌门人葛洛夫和欧德宁,同时也给了那些将英特尔戏称为“牙膏厂”的声音予以相应的回击。

  Ice Lake-SP与去年6月发布的Cooper Lake-SP处理器,共同构成第三代至强可扩展处理器系列。在最新的Ice Lake-SP的处理器中,英特尔使用10 纳米制程工艺,每颗CPU可提供的核心个数也由28个上升到40个,综合性能指标提高2.65 倍,每插槽最多可支持6TB的DDR4-3200内存,支持8内存通道和 64 个四代 PCIe 通道。

  与很多硅谷大佬一样,帕特·基辛格也是在十八九岁年纪轻轻时就走上了工作岗位。不同的是,在英特尔的资助下,帕特拿到了圣克拉拉大学的电气工程学士学位和斯坦福大学计算机科学的硕士学位,而且帕特的学位绝不是个简单走个过场、镀个金,RISC之父、谷歌母公司Alphabet现任董事长约翰·亨尼斯就是他在斯坦福的硕士导师。

  硕士毕业后,帕特·基辛格在80386的研发工作中逐渐崭露头角,并被时任CEO安迪·葛洛夫所赏识,后来帕特主导了80486芯片的设计工作,带领英特尔取得了成功。2000年,帕特·基辛格正式出任公司CTO,历史总是向人们展示其相似之美,2001年其作为CTO见证了初代至强芯片的从无到有,20年后他又作为CEO主导了三代至强的发布。

  这次至强三代在安全计算、AI加速、云优化及存储提速方面都有实质性进展,这些新技术不但让联通这样的通讯运营商有了更强大的流量处理能力;也让中兴、新华三等厂商可以向客户提供更加安全可靠的解决方案,为5G网络上的加密流量保驾护航。下面笔者就为大家逐一进行解读。

  安全计算:打开一片新天地

  首先聊聊笔者最熟悉的安全计算领域,多方安全计算绝大部分的应用场景可以百万富翁问题来表述,假如两个百万富翁街头邂逅,他们都想炫一下富,比比谁更有钱,但是出于隐私,都不想让对方知道自己到底拥有多少财富,如何在不借助第三方的情况下,让他们知道彼此之间到底谁更有钱?

  针对这个问题,在上世纪80年代,姚期智院士提出了解决方案,并因此获取了图灵奖,从理论层面证明了多方可信计算问题的可行性。

  但在实践层面多方安全计算依然困扰业界,尤其在金融行业更是如此,通常来说金融机构都有很多非常具有价值的数据,但是怎么发挥数据的价值却让各大银行犯了难,就算有宇宙行之称的工商银行,市场占有率也不到10%,单靠他们一家的数据训练不出特别好的模型,而把各大银行的数据都拿出来共享,又会存在客户隐私泄漏的风险。

  如何在不让其它参与者看到真实数据的情况下进行计算,并把姚期智院士的解决方案落地,就成了一个难题。

  在这个经典问题之下,目前只有少数几个平台能做到让数据在不泄露的情况下联合多方的数据进行联合计算、并得到明文计算结果,从而实现数据的所有权和数据使用权的分离,而且这还都是基于区块链软件技术机制保证安全可信。

  而英特尔至强三代支持的SGX则从硬件角度用户打消了相关顾虑,安全计算实际是给计算机加了一个安全密室,即使拥有最高权限的特权管理员也不能进入安全密室,更无法在安全密室前布放监控。安全密室与外界的一切交互全部要经过加密并进行完整性校验。

  几年前,英特尔已经实现SGX技术,但当时SGX能创建的内存空间只有128M,而目前的AI机器学习模型动辙要上百M,大的甚至要几十上百个G,当时的SGX根本放不下这样的模型,无法在多方安全计算中使用。

  不过这次Ice Lake-SP最高可以支持1T的安全空间,这种程度的提升将全面拓展SGX的应用场景,比如腾讯就联合北京微芯边缘计算和区块链研究院,将区块链与SGX结合,保障数据安全性,做到最终数据可用不可见,从而打破目前各机构边缘之间的数据孤岛,发挥数据的最大价值。

  AVX-512与VNNI双剑合璧,AI算力大提升

  本次Ice Lake-SP还新发布了AVX-512与VNNI两种AI运算加速技术,本质上它们都属于SIMD技术,而SIMD的由来要从芯片流水线技术聊起,CPU的震荡频率也被称为主频,是CPU处理性能的直接体现,CPU的每个动作都需要用晶体震荡而触发。

  以加法ADD指令为例,想完成这个执行指令需要取指、译码、取操作数、执行以及取操作结果等若干步骤,每个步骤都需要一次晶体震荡才能推进,因此在流水线技术出现之前执行一条指令至少需要5到6次晶体震荡周期才能完成。

  针对这样的问题,芯片设计人员提出了参考工厂流水线机制的想法,因为取指、译码这些模块其实都是独立的,完成可以在同一时刻并发执行,那么只要将多条指令的相关步骤放在同一时刻执行,比如指令1取指,指令2译码,指令3取操作数等等步骤都可以并发执行。

  以上图这个流水线为例 ,在T5也就是第5个震荡周期,指令流水线就建立成型,自此以后每个震荡周期T,都可以取到一个指令的结果了,也就是说平均每条指令就只需要一个震荡周期就可以完成,这样就能大幅提升CPU的运算速度。

  SIMD(Single Instruction Multiple Data),也就是单指令多数据流技术,其实就是一种数据流水线的技术,我们知道很多计算的操作数可能很长,其中最典型的就是双精度数据的运算,因为双精度数需要高低位的两个操作数才能表示,因此在传统的体系架构下,双精度运算就要执行低位相加、高位相加、进位符处理三条CPU指令才能完成,为此英特尔提出了在一个指令周期内处理多条数据的SIMD指令集MMX。

  在此之前,想在个人PC上想播放图像,都是需要安装专门的硬件解压卡的,不过解压卡也像同年代的大哥大、BB机一样,被新兴的MMX技术瞬间干掉了。

  近年来随着AI计算的兴起,在AI的神经网络世界中,现有的方法效率还是太低,以深度神经网络为例,神经元可以抽象为对于输入数据乘以权重以表示信号强度乘积加总,再由ReLU、Sigmoid等应用激活函数调节,本质是将输入数据与权重矩阵相乘,并输入激活函数,对于有三个输入数据和两个全连接神经元的单层神经网络而言,需要把输入和权重进行六次相乘,并得出两组乘积之和。

  这实际上就是一个矩阵乘法运算,因此AI运算中的向量与矩阵的运算才是基础。而VR虚拟现实技术也比较类似,它也需要不断进行矩阵的变换操作,所以说矩阵操作才是AI、VR等领域的最基础算式。

  而矩阵的维度又不固定,这也是在AI运算任务中GPU这种异构计算方案大行其道的原因,不过英特尔这次又带来了AVX512加VNNI的组合产品。

  AVX512是最新一代的SIMD指令集,VNNI(Vector Neural Network Intruction)也就是矢量神经网络指令集,其实是一种支持变长输入的指令集。

  我们可以把这项技术简单理解为在一个周期内能将指令所需的所有操作数全部取到,而且读操作数的个数还是可变长的,这其实就已经吸引了异构计算的精华了。

  从腾讯介绍的情况看,在3D人脸建模,也就是通过2D照片进行3D建模的计算中,在VNNI技术加持下建模速度提升4.24倍以上,这意味着原有基于3D人脸建模比较慢的各种优化、缓存、预处理都不需要了,在大部分场景当中腾讯都能为游戏玩家提供所见即所得的3D头像。

  逆天的虚拟化和容器加速

  另外一个值得注意的是,Ice Lake-SP的大家庭中有两款专为云计算虚拟机和容器进行优化的型号,其中P后缀:专为虚拟化层提供优化,为虚拟机提供更高的频率;V后缀:代表为SaaS优化,针对高密度、低功耗容器环境,提高编排效率。

  P后缀的8358P系列其能耗指标TDP是240W,这对于风冷服务器来说压力是不低的,不过这对于已经大规模推广液冷技术,能够给服务器“泡澡”的阿里云来讲就不是什么问题,因此我们看到阿里云是目前使用至强三代比较多的国内云厂商之一。

  阿里云与英特尔同步发布的第七代ECS云产品,搭载的就是这款Ice Lack,如果笔者所料不错的话,其小型号就应该是我们刚刚提到的8358P系列的芯片。据阿里云的介绍,第七代ECS相较于上一代整体算力提升了40%。在MySQL、Redis、Nginx等互联网典型场景中,第七代ECS最大性能提升了50%。

  在Ice Lack的加持下,阿里云在容器部署密度最大可以提升到6倍,存储云盘挂载密度最高提升1倍。第七代ECS还能在3分钟内交付50万核VCPU,单实例10秒可拉起,要知道笔者目前所亲眼见到的最快VCPU交付也只能达到每分钟万核的速度,这种3分钟内交付50万核的供给效率令人赞叹。

  傲腾-可能是影响最深远的革命性技术

  还有一项名为傲腾非易失性存储技术也特别值得关注,数据局部性原理是计算机发展历史上最伟大的发现之一,也是程序员在编程过程中必须要考虑的规律,比如数据单元A1被访问了,那么A1的邻居A0和A2被访问到的可能性也会极大的增加,因此CPU一般都会根据数据局部性原理进行优化,建立CPU到内存的高速缓存机制。

  当数据单元A1被访问的同时,将它的邻居们调入高速缓存,而经过大规模的实践后人们发现,高速介质与低速介质之间的速度差距在10倍左右时,提速效果最为明显。

  因此我们看到英特尔的CPU往往分为三级高速缓存,彼此之间的速度差距大概在8到10倍之间,其中高速缓存中的第三级缓存又比内存快10倍,这样彼此之间各差10倍左右的缓存体系加速效果最好,这就像军事行动中,先锋部队既要率先行动,又不能与大部队过于脱节,才能圆满完成任务。

  而现在计算机架构中,内存比硬盘快了几千倍,速度相差太多,用内存介质给硬盘进行缓存效果往往不是很好。

  英特尔傲腾技术是一个介于内存以及存储之间的新介质,为硬盘缓存体系提供了新方案,根据英特尔的介绍,傲腾200持久化内存产品,单根将提供512G的容量,不但具备了很强的灵活性,也提供了高于内存的容量,为加速数据提供了更好的性能。如果傲腾这个产品能提供比内存更低的价格,又比硬盘更快的速度。那么在数据洪流来临的时代,傲腾和至强的联手,可能会给英特尔带来一定优势。

  概括来说,英特尔再次回到了极致技术道路上,最后用英特尔前任CEO安迪·葛洛夫的名言做结尾:“唯一不变就是变,只有偏执狂才能生存”。

  榜单收录、高管收录、融资收录、活动收录可发送邮件至645528#qq.com(把#换成@)。

相关阅读

    无相关信息