关于扩展方面在职研究生论文范文 与2019英特尔至强可扩展处理器方面硕士论文范文

本论文可用于扩展论文范文参考下载,扩展相关论文写作参考研究。

2019英特尔至强可扩展处理器

2017年7月,英特尔正式发布了全新至强可扩展系列处理器家族,英文名称为Xe o n S c ala ble Pro cesso r.全新处理器带来了大量新技术和更强扩展能力、更多核心,同时将Xeon处理器的命名规则更改为至强铂金处理器、至强金牌处理器、至强银牌处理器和至强铜牌处理器.英特尔至强处理器面向的用户是企业级用户以及云计算、关键业务和大规模科学计算等领域的用户.新的至强可扩展处理器仍旧是基于英特尔的14nm制程,内部核心布局更新到了最新的Mesh架构.那么,这一代至强为何要命名为“可扩展处理器”?它又有哪些不容错过的技术亮点呢?

文/图 袁怡男 刘忆冰 特约作者 张山

规格飞跃:可扩展的四大“段位”

按惯例,在拿到一款新产品时,应该先来看看产品的命名和产品型号划分.对于全新至强来说,可扩展就成为最关键的一点.要明白可扩展的含义,还得从上几代至强产品来看.对至强家族来说,以往的分级基本上是基于任务和性能导向,单路针对工作站级的产品是X e o n E3,双路针对主流企业级市场的是X e o n E5,而针对关键业务、高性能需求的是Xe o n E7.E3、E5、E7处理器之间的接口、尺寸、散热设计等完全不同,甚至内存支持也存在差异,所以基本上是不能互相替换的.

但是,在C P U性能发展到一定阶段之后,由于至强E5的性能不断提升以及云计算式的解决方案不断成熟,用户发现在一些企业级应用中,E5与至强E7之间开始出现了一定的可替换性.这就使得在先前至强体系中的分级开始变得模糊.于是,英特尔今年干脆从命名上取消了X e o n E5和E7两条产品线,将其统一叫做“至强可扩展处理器家族”(X e o n S c a l a b l e P r o c e s s o r),然后再在具体产品应用分级时使用铂金、金牌、银牌、铜牌这样浅显易懂的命名方式来区别其性能和定位.更重要的是,这一代至强可扩展处理器的接口完全统一了,从命名上便突出了“S c a l a b l e”,即可扩展性.这就完全解决了用户可能遇到的弹性扩展问题,把原本区隔开来的两个市场合二为一,用户未来无论是希望“S c a l e U P”纵向扩展还是“S c a l e O u t”横向扩展,都不再成为问题.从硬件规格和配套芯片组的角度来看,至强可扩展处理器家族中所有处理器都使用相同的P u e l r y平台芯片组和S o c k e t P接口,使得所有的处理器在硬件尺寸和安装规格上完全实现扩展可能性.从内核设计的角度来看,新一代至强可扩展处理器家族升级到了代号为S k y l a k e -S P的核心微架构,其最大的特点是放弃了之前的环状总线架构,采用了全新的M e s h网格化架构,使得在核心扩展越来越多时,各个核心的延迟可以降到最低,具体我们后面再详细分析.

在扫除了提高可扩展性第一道障碍后,接来下就是理清具体型号、对应的产品需求了.英特尔在至强可扩展处理器家族上彻底放弃了之前“E+数字”的命名方式,转而采用了一种更商业化的、更容易理解的命名,并且将产品分为四个“段位”.新一代至强可扩展处理器中最高端的是至强P l a t i n u m(铂金)家族:提供最强性能、最多核心和最强大硬件扩展能力,支持最先进技术、最强安全性能和业务敏捷性.产品命名为至强P l a t i n u m 8000系列,核心数量从22核到28核心不等.比如旗舰型号至强P l a t i n u m 8180,28核心56线程、基础频率2 . 5 G H z、最高睿频频率3 . 8 G H z、缓存3 8 . 5 M B、T D P为20 5W;另外,P l a t i n u m 818 0还有带“M”后缀的加强版本,最大支持内存从六通道76 8 G B提升至六通道1.5T B.次高端的是至强G o l d(金牌)家族:提供卓越性能、快速的内存、丰富的扩展能力和加速引擎接口、坚实的可靠性.产品型号方面则是至强 G o l d 5000和6000系列,核心数量从14到22核不等.典型的产品有至强G o l d 6154,具备18核心36线程,默认频率高达3G H z、最大睿频3.7G H z、缓存24 .75 M B、T D P功耗为2 0 0 W.接下来是至强银牌家族:提供优秀的性能功耗比.具体型号方面则是至强S i l v e r 4000系列,核心数量从10到12个.典型的产品型号如至强S i l v e r 4116,具备12核心24线程,默认频率2 .1G H z、最大睿频3 . 0 G H z、缓存16 . 5 M B、T D P功耗为8 5 W.最后是至强铜牌家族:提供入门级性能.本文截稿之时,英特尔已有两款至强铜牌处理器现身,均属于至强B r o n z e3000系列,核心数量在10个以内.

典型的产品型号如至强B r o n z e3106,具备8核心8线程,默认频率1. 7 G H z、缓存11M B、T D P功耗为85W.

全新特性解读

和产品名称类似,至强可扩展处理器的架构名称也带“ S P ”字样,被称为S k y l a k e-S P.和英特尔前几代服务器处理器微架构是在桌面版本微架构的基础上进行优化和扩充一样,S k y l a k e -S P 同样也来源于桌面版本的S k y l a k e,但针对服务器和工业、云计算、大数据等场景做出了更进一步的系列优化.根据英特尔的数据,S k y l a k e -S P在核心、内存、缓存、I /O等组件上都有深入优化,每时钟浮点性能提升了2倍,8 K数据块压缩速度可达10 0 G b/s,平均性能提升高达1.6 5倍,数据保护性能提升高达2倍,相比四年前的产品,总体拥有成本降低了65%.那么,英特尔是怎么达成如此显著提升的呢?简而言之,最重要的几点分别是—全新M e s h互联架构、全面改进核心架构、全新接口和芯片组等.

全新的Mesh互联架构

由于处理器的核心越来越多,片上互联架构就成为厂商关注的重点,因为这直接影响到处理器内部核心通讯效率,也直接影响处理器性能.在前几代的产品中我们看到,随着核心越来越多,要保证每个核心的缓存在被共享读取时保持高效,已经变得越来越困难.

而所谓M e s h架构,是指网状结构.顾名思义,M e s h本身就像我们常见的渔网一样,是由经线和纬线组成的孔洞结构,在M e s h架构中,内核被放置在经线和纬线交叉的点上,并和周围的核心通过总线交叉相连,形成一个二维结构.为什么上一代不用M e s h呢?其实这跟核心的数目有很大的关系.事实上,核心采用怎样的连接方式,并不是一成不变的选择.我们知道,S k y l a k e微架构的第七代酷睿处理器C o r e i7 7900X在游戏性能表现上是落后于六代酷睿C o r e i76 9 5 0X的;有分析认为,导致性能出现落后的原因就是其核心采用M e s h布局.在核心数量较少时(同为10个核心),M e s h的效率并不比环状总线强,这或许是英特尔没有更早地采用Mesh架构的原因.

到上一代英特尔至强E 52 6 9 9 V4为止,环形总线已经发展到总共左右两组,通过两个S w i t c hB a r来控制一致性.每组总线环上最多可以挂接12个处理器核心和它们的缓存,环之间通过高速接口实现数据互通.那么,本代至强为何取消了经典的环状总线架构,改用了全新的M e s h架构呢?据笔者了解,最重要的还是为了降低极限情况下的延迟.环状总线每个环能承载的核心数量是有限的,扩展越多延迟越高,看样子12个就已经是极限.我们以前介绍的上上代至强的环状总线上只有一个S w i t c h B a r,上一代是两个,那么再扩展更多的环出来,就要通过更多的Sw i t c h B a r来保证一致性和平衡延迟,这时候效率可能就已经不如M e s h架构了.所以在这一代,英特尔不惜在消费级上背上新不如旧的“恶名”也要整体改结构.毕竟从成本的角度讲企业级和消费级只会在一个微架构上共存,而面向企业级的产品需要更多的核心,所以提升其效率是更重要的.

采用M e s h网络后,每一个内核都会成为M esh网络的一个节点,可以发送和接收数据,数据通路从之前的环形总线一条通路变成了很多条通路.这样一来,处理器内部的通讯就会变得非常顺畅.举例来说,环形总线情况下,两个环中距离最远的2个内核之间的数据通讯,在不考虑Sw i t c h B a r等其它延迟的情况下(其实这种延迟更高),光数节点,其延迟就要超过11个周期,但是在M e s h网络中,由于平铺设计,内核布局从环形的1D向2D迈进,因此28核心之间最远的两个核心,其延迟也仅需要大约9个周期.

英特尔在采用M e s h布局处理器内核后,轻易将处理器内核数量从24个提高到了28个.事实上,如果不需要殚精竭虑如何优化延迟,显然核心数量的扩张会更容易,而如果未来工艺方面进一步提升,M e s h网络还能容纳下更多核心.理论上这不会受M e s h架构本身的影响,而是受工艺和功耗限制,毕竟2 8 核心处理器的T D P功耗已经高达205W了.

缓存和内存结构变化巨大

缓存结构是影响处理器性能的核心结构.在M e s h架构上,由于处理器内部结构变化,诸如缓存这样的关键性参数也发生了变化.之前的环形总线处理器的L3缓存可以做得很大,用于各个处理器共享.在采用M e s h的S k y l a k e -S P中,内存数据将直接写入L2,而不是像上代产品一样还需要同时写入L2和L3;L 3在S k y l a k e -S P上只是作为L 2的“辅助”,并且是非包含结构,数据和L2互相独立.前代架构的L3是包含式结构,含有L2数据,被当做主力缓存使用.因此,S k y l a k e-S P的L2缓存需要做得更大(大约1M B每核心,远超前代256 K B每核心),L3缓存由于调用方式改变,不需要更大容量,因此被显著缩小(从前代2 . 5 M B 每核心降低至1. 3 7 5 M B每核心).举例来说,至强可扩展处理器 P l a t i n u m 816 8的L 3缓存为3 3 M B,但是同为24核心的至强E 7- 8 8 9 4 的L 3缓存却达6 0 M B,这并非倒退,而是技术改进造成的.

在缓存体系改变后,英特尔还给出了一些数据用于证明改变的有效性,包括:缓存命中率提升、缓存延迟轻微上升—在更多的核心下这是一个非常好的结果.除了缓存外,英特尔在内存上也做出了改善.

现在S k y l a k e-S P处理器上拥有2个内存控制器,每个控制器拥有三个D D R 4内存通道,最高可达D D R 42666,可以实现6通道内存模式.在内存控制器的布局上,英特尔将内存控制器加入M e s h网络,这就大大降低了多个核心在调用内存数据时的延迟,大大提升了内存工作时的效率并提升了实际有效带宽.根据英特尔的数据,S k y l a k e -S P的内存带宽在延迟没有显著提升的情况下得到了极大的增长,更符合多核心处理器的设计和使用需求.

核心架构进化

虽然S k y l a k e -S P内核与桌面版S k y l a k e架构有相近之处,但也做出了不少改进以适应企业级应用的要求.比较重要的核心部分改进包括—分支预测单元大幅度改进、提高了解码部分的吞吐能力以及更大的I L P提取窗口;调度器和执行引擎部分提高了效能、吞吐量并降低了延迟;缓存部分的改进在前文曾提到过一部分,主要在预取部分和缓冲区.最值得关注的部分则是全新的 X-512增强,包括每个内核配备1+1个F M A单元以及搭配1M B 的缓存.在全新S k y l a k e - S P上,英特尔在 X指令集上又做出了重大升级,加入了对A V X-512的支持— X-512实现了单次计算512位的矢量数据,大幅度提升了系统的浮点性能,这个计算能力之前出现在英特尔的Xe o n P h i(K n i g h t sL a n d i n g)计算卡上,在至强中出现还是首次.说起A V X- 5 12 指令集,就不得不提及 X指令集. X指令集是英特尔继M M X、S S E 之后提出的一整套名为A d v a n c e d V e c t o rE x t e n s i o n s高级矢量扩展(简称为A V X)的指令集,指令集宣布时间为2 0 0 8 年3月,最早集成的实际产品是S a n d y B r i d g e处理器,W i n d o w s 7 S P开始提供系统层面的支持.在最初的版本中,A V X指令集可以通过支持2 5 6位矢量计算大幅度提高浮点计算性能,并且可以实现包括数据重排、支持三操作数或者四操作数、支持不对齐的内存地址访问等功能.由于 X的存在,英特尔处理器在对浮点运算要求极高的视频实时编解码、F I R矢量操作、M a t r i x A d d i t i o n操作等方面取得非常出色的性能提升.为了更好地支持A V X- 512,英特尔在硬件设计上也有相应加强.比如S k y l a k e - S P 的内核不但有1个F M A 用于加速A V X- 512 计算,S k y l a k e -S P还可以通过加速接口P o r t 5外挂一个A V X- 512加速单元,这样就能够实现同时处理2个X-512指令.

在指令规格上,根据英特尔说明,S k y l a k e - S P的A V X- 512加速可以运行诸如A V X- 512- F、A V X-5 1 2 - V L 、A V X - 5 1 2 - B W、A V X -5 1 2 - D Q 、A V X - 5 1 2 - C Q 等不同的指令,面向不同应用领域,不但快,而且全.由于硬件大幅度加强,性能自然不会弱.从微架构角度来看,支持A V X-512的S k y l a k e微架构的每周期D P F L O P S 能力高达3 2,单精度S P F L O P S高达6 4,相比以前的H a s w e l l和B r o a d w e l l翻了一番,相比早期的N e h a l e m的单精度8、双精度4的计算能力更是不可同日而语.在实际产品的性能方面,根据英特尔数据,A V X-512每瓦特G F L O P S 性能是S S E 4 . 2 的4 . 8 3 倍、A V X 的1. 74 倍、A V X 2 的2 . 9 2 倍;每G H z 的G F L O P S 性能是S S E 4 . 2的4 .19倍、A V X的1. 9 5倍、A V X 2的3.77倍.如此强悍的规格和性能提升,使得S k y l a k e -S P在面对编解码、加密解密、数值计算、高精度渲染等应用上显得更游刃有余.另外,由于 X-512的存在,S k y l a k e -S P在目前大热的深度学习等方面也会有相对上代产品更为出色的性能表现.

搭配芯片组更强大

最后再来看看芯片组方面的改进.S k y l a k e - S P 采用全新L G A36 47封装,搭配S o c k e t P 接口的C 6 2 0芯片组,支持双路、四路或者八路处理器,在八路运行的情况下,系统中将存在224个处理器核心和4 4 8个线程.外部接口方面,S k y l a k e -S P的芯片组可以提供14个S A T A 6 G b p s、10个U S B 3 . 0、2 0 个P C I e 3 . 0、S A T AE x p r e s s 、N V M e 、R S T e 、四个万兆以太网端口的等外部配置.如此强大的扩展能力与新一代至强可扩展处理器的48条P C I e 3.0通道搭配,可满足数据中心和云计算中心等需要大量存储场合的用户需求.

基准性能实测

2 0 16 年,《微型计算机》评测室在同一台英特尔双路服务器(基于S 2 6 0 0 W T 主板)上分别安装了至强E 5 v 3的旗舰型号E 5 2 6 9 9 v 3 和至强E 5 v 4 的旗舰型号E5 2699 v4,内存统一为8 条3 2 G B D D R 4 2 4 0 0 组成的2 5 6 G B四通道内存(E 5 v 3由于内存控制器的限制,最大仅运行在D D R 4 213 3频率)进行了一系列测试.为了更直观地观测新一代至强可扩展处理器平台(双路P l a t i n u m 818 0及六通道、12条D D R4 2666内存)在性能上相对上两代产品的进步幅度,我们搭建了与去年高度一致的系统环境.

测试环境

本次测试以行业公允的S P E Cc p u 20 0 6 v 1. 2为主要考察对象,由于时间及版面的限制,同时为了使得测试成绩能与我们先前测试过的至强E 5 V4、E 5 V 3等历史产品的成绩进行横向对比,本次测试暂时未采用S P E C c p u 2 0 17(2 0 17年6月下旬发布).为了运行S P E Cc p u 2 0 0 6 测试,我们为测试平台安装了W i n d o w s S e r v e r 2 0 1 2R 2系统(与先前测试过的至强E 5V4、E5 V3一致),还安装了V i s u a lS t u d i o、C+ + / F o r t r a n C o m p i l e r编译器.此外我们还额外加入了结果可读性更高、更便于理解的S i S o f t w a r e S a n d r a、C i n e B e n c hR15测试.

测试结果点评

对于S P E C c p u 20 0 6测试,我们一般关心S P E C i n t _ b a s e2006、S P E C f p _ b a s e 2 0 0 6、S P E C i n t _r a t e _ b a s e 2 0 0 6 和 S P E C f p _r a t e _ b a s e 2 0 0 6这4个得分,前一组(_ b a s e)得分衡量平台完成单个任务的快慢,后一组(_ r a t e _b a s e)得分衡量平台的运算吞吐性能.此外,S P E C C P U 测试还会给出两种类型的结果:B a s e基准测试结果和 P e a k 峰值测试结果,B a s e测试要求编译器套件按照指定的规则进行优化,而P e a k测试则可以允许使用更多优化技术,作为平台对比,我们均选择 Base 测试结果.最终测试结果显示新一代至强可扩展处理器比上一代产品在性能方面有显著提升,例如在S P E C c p u 20 0 6C i n t r a t e性能测试中,至强铂金818 0的性能得分27 2 0,比上一代型号E 5 -269 9 v4的169 0分高出了60.9%.通过对比,至强铂金8180的单个任务处理能力相比上一代产品分别提升15 . 5 %(S P E C i n t _b a s e 2 0 0 6 得分8 1 . 2)和3 3 %(S P E C f p _ b a s e20 0 6得分153),由于该项测试大部分时候仅使用到单个核心(处理器运行在最高睿频),至强铂金8 1 8 0(3 . 8 G H z)相比 E 5 2 6 9 9 v 4(3 . 5 G H z)频率有所提升,可见主频及架构优势明显;在多核心满负荷测试(运行C i n e B e n c h或S i S o f t w a r eS a n d r a)时,至强铂金8 18 0 全部核心可工作在2 . 9 G H z~ 3 . 0 G H z 频率(S k y l a k e -S P的睿频具有6档峰值频率),凭借主频、架构以及更多核心的优势,相对于满载全核心2 . 8 G H z的E 5 26 9 9 v4而具可具有50%左右的综合性能提升.

写在最后

数字化经济在改变着每行每业,在2017英特尔至强可扩展处理器发布会上,英特尔行业解决方案集团中国区总经理梁雅莉女士举了一个例子—滴滴出行,一个没有车、没有司机的公司在五年之内改变了每个人出行的方式,将来也许会改变城市交通运营和管理的方式.我们生活在数据“洪流”的时代,随着技术不断创新,从互联网到移动互联网到物联网、云计算、人工智能和的无人驾驶,所有的数字化应用无论在消费市场还是在企业市场都处于快速增长之中.

据预测,到2 0 2 0 年为止,每天,每个互联网用户将产生1. 5 G B的数据、一个数字化的医院会产生3T B数据、一台无人驾驶汽车产生4T B数据.所有海量数据背后对大家意味着什么?意味着处理这些数据所需的服务器运算能力面临严峻考验.从新一代至强可扩展处理器的升级之处、应用实例来看,业界对更多核心、更高性能、更好互联性的追求是永无止境的.如何更好地把海量数据变成企业的竞争先机?这是留给新一代至强可扩展处理器这样的云时代基础设施及相关参与者的宏大命题.

TIPS:① S P E C c p u 2 0 0 6近年来应用最广泛的版本为1.2(本文截稿期间已发布最新版本S P E Cc p u 2 017),它包括C I N T 2 0 0 6和C F P 2 0 0 6两个子项目,主要包括了12项整数运算和17项浮点运算,它以一台S u n U l t r a E n t e r p i r s e 2工作站作为基准参考系统,系统基于一颗29 6 M H z的U l t r a S P A R C I I处理器,测试的得分就表明这个项目中测试系统相对基准系统性能的比值.S P E C C P U 2 0 0 6会给出8组测试数据,每组数据包含不同的测试内容.

② S i S o f t w a r e S a n d r a这款软件在M C评测室的日常评测中很常见,这款软件可以对于系统进行方便、快捷的基准测试,最高可支持32、64路平台.

③ C i n e B e n c h是是基于C i n e m 4 D工业三维设计软件引擎的测试软件,可以完善地支持多核、多处理器.其最新版本R15可以很好地支持双路至强可扩展处理器的56核心112线程运算,可帮助清楚展现新一代处理器的单核、多核性能提升幅度.

2017至强可扩展处理器前沿应用实例腾讯云:携手新至强共创更大价值

“过去十年,腾讯的数据存储量增长非常迅猛,我们预计很快我们到ZB级别.为处理这些数据,我们不断更新基础架构,使用英特尔最新的产品满足爆发式的需求.如今英特尔的多核并行技术,使用更高密度的CPU、更多核芯来并行处理数据,之前很多台服务器处理的数据现在单台就能完成,而Intel X-512,也使得新一代处理器的处理能力大大提升.基于我们与英特尔新产品的合作,我们目前单C PU的v C P U核数高达96个,较之前提升了71%,而功耗仅为1.25P U E—这相比目前国内的平均水平节能15%以上.根据最新的测试结果,搭配英特尔六通道的D D R4内存,相比下一代我们的第三代云服务器,内存性能提高高达60%,最受市场欢迎的化物理服务器黑石产品整体计算性能最高提升88%.对于云计算服务使用者这意味着更低功耗、更低的创新成本,带来更多的创新机会.我们相信随着腾讯云自然语言处理、语音识别、图像识别、大数据和人工智能服务的广泛应用,腾讯和英特尔的合作将基础继续加速社会的智能化创新以及创新发展”

国家气象局:新至强助力“看云识天象”

“气象台除了向公众提供预报外,防洪减灾是我们气象部门每年工作的重中之重……定时定量的气象预报,背后的支撑就是‘数值天气预报系统’,我们国家‘数值天气预报系统’是建立在超级计算机之上的一个天气预报系统.天气预报是一个非常典型的高性能计算的问题.目前,国家气象中心采用的天气预报系统是建立在两台高性能计算机上,峰值性能500T F LO P S.这两台系统非常繁忙,就像高峰时期北京的交通一样不堪重负,所以我们计划很快将建立一个新的更高性能的高性能计算机.这台高性能计算机预计它的峰值性能应该在8P B左右,它的基础就是今天发布的新一代至强处理器.我们也对这个新的至强C PU进行了一点测算,测算结果是在没有改变任何程序的情况下,没有做任何针对至强优化的情况下,它的性能比上一代C P U计算性能提升30%.我们希望尽快的能够建立这套系统,在不久的将来我们能够让新一代至强可扩展处理器在我们的业务数值天气预报中采用,在我们国家未来的防灾减灾工作中发挥作用.”

扩展论文范文结:

关于对写作扩展论文范文与课题研究的大学硕士、相关本科毕业论文扩展论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。