时间:2024-10-23 23:37:02
服务器和高端桌面平台处理器才有的AVX-512指令集,可以像企业级硬件一样处置向量运算。i3 8121U的频率不进反退,让人们对Intel 10nm工艺的实际性能展现出产生了丝丝顾虑。
从外媒SemiAccurate的一篇研究文章中得知,目前(指i3 8121U发售时)Intel的10nm工艺还不存在很多问题和艰难,其收益只有10%,近高于预计中的60%,其中SAQP、COAG、Cobalt和调优等环节相比之下领先于计划和预期。其后的几个月,坊间传闻Intel 10nm工艺相当严重阻碍,甚至即将退出10nm的研发工作,也有传闻称之为Intel将降低标准以构建这一制程,但都被Intel一一辟谣。
好在今年的CES上,Intel展出了10nm工艺的全新Sunny Cove架构Ice Lake处理器,却是让注目新的制程的人们不吃了一颗定心丸。虽然Ice Lake继续还并未落地,不过外媒Anandtech却通过各种渠道,摸到了用于Cannon Lake处理器的“党和国家”笔记本电脑,并对其展开了详尽的测试。
10nm工艺无以在哪?2017年9月,Intel在技术与生产日上展出了一个10nm Cannon Lake芯片的原始300mm晶圆,外媒Techinsights测出该芯片的芯片面积大约为70.5mm²,也就是说,i3 8121U是Intel迄今为止大于的双核处理器,但与当时的Skylake处理器(六代酷睿)比起,i3 8121U使用了CPU和GPU分离出来的设计,集成度更加较低。业内取决于半导体工艺优劣的常用标准之一,是芯片中每平方毫米集成度晶体管数量有关。CPU中并不都是运算晶体管,还有SRAM单元,以及一些被设计成区域间热缓冲区的“杀”硅。
晶体管的计数也有有所不同的方法,一个2输出的NAND逻辑单元比一个简单的扫瞄触发器逻辑单元要大得多。Intel将单位面积上的晶体管数量区分为2输出NAND单元和扫瞄触发器单元,其中2输出NAND单元的晶体管密度是90.78MTr/mm²(百万晶体管每平方毫米),扫瞄触发器单元的密度为115.74 MTr/mm²,在为其彰显60/40的权重后计算出来出有10nm工艺的晶体管密度为100.8MTr/mm²,是14nm工艺37.5MTr/mm²的2.7倍。Intel还在国际电子器件会议上透露,明确各不相同所需的功能,10nm工艺的逻辑库有10种类型,还包括短库(高密度库),中高库(高性能库)和高库(超强高性能库)等。
库越高,电路功耗就越较低,晶体管密度越高,但峰值性能也就越较低。因此Intel的10nm工艺只不过有多种不同的密度,实质上只有密度最低的短库可以超过100.8MTr/mm²。在实际芯片生产中,一般来说不会混合用于多种库,较短的库限于于I/O和非核心区等对性能不脆弱的部位以节约成本,较高的库通过较低的密度和较高的驱动电流,一般来说用于在对性能脆弱的核心区域。为了更佳的解读Intel 10nm工艺,首先要辩论Fin(鳍)、Gate(栅极)、单元机制,以及定义与晶体管和FinFET涉及的一些术语。
晶体管的源极-漏极由鳍(灰色)获取,该鳍穿越栅极(绿色)并映射氧化物中,这里的关键指标是鳍的高度、宽度和栅长,半导体工艺的目标是使每一个都尽量小、单元性能尽量低。Intel在其22nm工艺中,用于了包括多个鳍片的三栅极晶体管来减少总驱动电流,以取得更佳的性能。这就引进了一个新的度量:“鳍间距”,即鳍之间的距离。
如果一个鳍通过了多个栅极,栅极之间的距离称作“栅极距”。鳍和栅极之间认识的越少,鳍间距就越小,外泄就就越较低,性能也就越少,这可以减少驱动电流,也能掌控寄生电容和栅电容。
其后的14nm工艺中,鳍的高度、宽度和栅长都显得更加较短,每个鳍穿越的栅极也更加多,因而取得了更佳的性能。而到了10nm工艺,Intel也在大力设计鳍结构,鳍间距从42nm缩减到34nm,鳍宽度从8nm削减至7nm以防止寄生电容。
改动看上去并不多,但在这个尺度上每nm都十分最重要。Intel还通过加到共形钛层来提高源极和漏极蔓延区域,鳍和沟槽之间的认识区域(栅极下方的灰色尖头)也必须让认识电阻最小化。在10nm工艺中,Intel将其从钨认识改回钴认识,使认识线电阻减少了60%,种种这些改良,让技术显得极为具备挑战性。
鳍与栅极人组一起就是基本的电路单元,从22nm制程的扫瞄电子显微镜的图像来看,单元有6片鳍的和2片鳍的(当然也有其他规格的),栅极长度不尽相同,每个单元内都有活跃的鳍传送电流和非活跃的鳍作为间隔。在10nm工艺上,用于高密度库的单元总共有8个鳍,其中5个是活动鳍,这些单元可用作I/O等不必须很高性能或对成本脆弱的电路部分。高性能库和超高性能库则分别有10个和12个鳍,各自比起前者多出一个额外的P鳍和N鳍,有助获取额外的驱动电流,以必要的效率壮烈牺牲来交换条件峰值性能的提高。
在单元之间,一般来说不会有许多作为间隔物的伪栅极。在Intel 14nm工艺中,每个单元的两端都有一个伪栅极,这意味著两个单元之间不会有两个伪栅极。而在10nm工艺中,两个邻接的单元可以分享一个伪栅极,这将带给更大的密度优势,Intel回应最少可节约20%芯片面积。
晶体管内部,栅极一般来说靠两支长度稍微远超过单元尺寸的触点给源极和溢极加电,这不可避免的要占有额外的平面尺寸。在10nm工艺中,最少在目前Cannon Lake处理器用于的版本中,Intel通过一种被称作“有源栅极认识”(COAG)的设计,将栅极触点横向摆放在单元上。这一设计为生产过程减少了好几个步骤(一次转印、一次沉积和一次打磨),但可以为芯片获取约10%的面积图形。
前文早已言道,外媒SemiAccurate上的一篇研究文章曾回应,COAG是一种风险较高的实施方案,虽然Intel早已把它其实并且长时间工作了,但它并不像预期的那样可信。用作Cannon Lake核心的COAG或许不能运营在较低性能较低功率,或高性能高功率的工况下,期望未来Intel能在新一代10nm Ice Lake处理器月发售时详尽解释关于COAG的改良情况。返回晶体管密度上,取决于晶体管密度的另一种方法是CPP*MMP,将要栅间距(认识多晶硅间距Contact Poly Pitch)除以鳍间距(大于金属间距)。
种种这些改良加在一起,使Intel的CPP*MMP尺寸只有54nm*44nm,比起台积电和三星的7nm也只是额赢一点点,这也是Intel仍然特别强调前两者只是商业命名的原因。揭露架构之秘虽然i3 8121U的Cannon Lake核心仍正处于NDA中,但经过科技圈众多同仁一年以来孜孜不倦的研究,再一还是基本揭露了其架构的面纱。
整体而言,Cannon Lake核心的设计很看起来PC末端Skylake核心与服务器端Skylake-SP核心的混合体。虽然它用于了PC末端标准的4+1解码单元、8个继续执行单元以及L1+L2+L3内存结构,但也从服务器端引进了一个AVX-512单元,并且L1数据内存的读取速度分别超过了每周期2*512Byte和1*512Byte。更进一步来看,Cannon Lake核心也反映了一小部分第二代10nm Sunny Cove架构的设计,一些Skylake和Skylake-SP核心上没的指令,在Cannon Lake和Sunny Cove上都有不存在。
除此之外,虽然目前不过于确切Cannon Lake核心的架构前端设计变化,但还是可以显现出轻排序缓冲区的大小是与Skylake核心完全相同的224条微指令,而Sunny Cove架构的大部分特性改良(存储比特率加倍、继续执行端口更加多以及继续执行端口功能改良)都没经常出现在Cannon Lake核心上。Cannon Lake反对的新指令还包括IFMA(Integer fusion Multiply Add,整数融合乘乘法)、VBMI(Vector Byte operation instructions,矢量字节操作者指令),以及基于硬件的SHA(Secure Hash Algorithm,安全性哈希算法)等。
其中,IFMA是52位整数融合乘法乘法(FMA),其不道德与AVX512浮点FMA完全相同,延后为4个时钟周期,每个时钟周期的吞吐量为2(对于xmm/ymm/zmm为4和1)。该指令一般来说被用作辅助加密功能,但也意味著可以继续执行给定精度的算术运算。
VBMI指令集获取了VPERMB、VPERMI2B、VPERMT2B和VPMULTISHIFTQB四条指令,在字节混洗方案中十分简单。而硬件加速SHA则纯粹是为加密算法加快而设计的,不过测试表明,Cannon Lake核心有了它后速度依然比Goldmont(下代Atom处理器的核心)和AMD的Zen都快,这意味著起码基于硬件的SHA在i3 8121U上并不是尤其简单。
除了减少新的指令,Intel一般来说还不会在新的核心上改良现有的指令,用作减少吞吐量或增加延后(或两者兼而有之)。Cannon Lake核心还反对Vector-AES特性,它容许AES指令一次用于更好的AVX-512单元从而使吞吐量大幅提高。在Cannon Lake核心上,仅次于的变化是可以硬件反对64位整数乘法,仍然必须拆分成几条指令,18个时钟周期内就可以已完成64bit的IDIV。
相比之下,Zen继续执行某种程度的运算必须45个时钟周期,Skylake核心则必须97时钟周期。对于字符串的块存储,所有REP STOS*系列指令都可以用于512bit继续执行载入端口,吞吐量为每时钟周期61bit,相比之下,Skylake-SP为43bit,Skylake为31bit,Zen为14bit。对于全字整数矢量,AVX512BW命令VPERMW的等待时间从6个时钟周期增大到4个,并且每个时钟的吞吐量增加一倍。与向量类似于,用于VMOVSS和VMOVSD命令移动或拆分单/双精度标量的向量现在与其他MOV命令的不道德完全相同。
对指令集的其他有益调整还包括使ZMM区分和平方根更加慢一个时钟,并将一些GATHER函数的吞吐量从每四个时钟一个减少到每三个时钟一个;重返则以原有x87指令的形式经常出现,其中x87 DIV、SQRT、REP CMPS、LFENCE和MFENCE都减慢一了个时钟,其他指令则快的更好,目的是让人们弃用这些老旧的指令。Cannon Lake核心比较严重不足的地方还包括:VPCONFLICT*命令具备3个时钟周期的延后,吞吐量为每时钟周期一条,速度依然极快;DWORD ZMM表单的延后为26个时钟,吞吐量为每20个时钟1个;不反对Skylake-SP核心的内存行写返功能CLWB;不反对SGX(软件保护拓展)。处理器规格对比在i3 8121U的测试中,用于i3 8130U移动处理器作为对比,这是一款Kaby Lake核心的双核四线程处理器,用于14nm工艺生产,TDP某种程度为15W,基础频率与i3 8121U完全相同,睿屡屡亲率则反而要略为低一些。
对于这种15W TDP的移动处理器,不会很更容易撞到上温度墙造成降频。测试中i3 8121U降频十分频密,在AVX2应用于中索性是运营在2.2GHz的基准频率状态,AVX-512应用于中甚至不会降频至基准线以下的1.8GHz。相比之下,用于14nm成熟期工艺的i3 8130U在AVX2应用于中仍能保持2.8GHz的频率,比如在POV-Ray测试项中,i3 8130U可以更慢的已完成测试,性能比起i3 8121U高达26%。不过尽管i3 8121U在运营AVX-512应用于时频率很低,但先进设备的指令集依然带给了出众的性能,在3DPM测试中,打开AVX-512指令集的i3 8121U在1.8GHz下成绩为3846分,6倍于2.8GHz但只反对AVX2指令集的i3 8130U。
内存性能和功耗测试在内存/内存延后测试中,i3 8121U和i3 8130U处理器都停止使用了睿频,被迫它们以完全相同的2.2 GHz频率运营,以便展开奇偶性和必要的架构较为。Cannon Lake核心的内存/内存子系统与Skylake核心完全相同的,没任何其他改良,理论上展现出出有的性能也应当基本相同。在这项测试中,两颗处理器的内存采访延后完全完全相同,但Cannon Lake核心的i3 8121U的内存采访延后要高达Kaby Lake核心的i3 8130U多达50%,一上来就愤慨了四座(当然这不是啥好事)。
尽管为i3 8121U设施的DDR4 2400内存时序17-17-17,额输于i3 8130U的16-16-16,但这一扔扔时序差异近足以有如此大的影响,能想起的唯一原因是,Cannon Lake核心采访内存控制器有十分大的额外支出,这也许就是堵住了幽灵和熔断漏洞的副作用。而功耗方面较为扑朔迷离,我们告诉,Intel在处理器硬件中设置了两个关键的功耗容许——PL1和PL2,前者掌控稳态功耗,后者掌控短时间睿频功耗。在大多数情况下,处理器的稳态功耗和TDP完全相同,如i3 8130U就是这样,处理器的稳态功耗为15W,然而同为15W TDP的i3 8121U的稳态功耗仅有为12.6W。
由PL2掌控的峰值功耗也是某种程度,i3 8130U的峰值功耗可以超过24.2 W,而i3 8121U最低不能冲向18.7W,且睿频的持续时间也要比i3 8130U短很多。糟心的是,虽然i3 8121U的功耗墙更加较低,但由于其频率更加较低性能更差,实际继续执行运算所消耗的能量反而更加多。在POV-Ray测试项中,Kaby Lake核心的i3 8130U的总耗电只有768 mWh,而Cannon Lake核心的i3 8121U的总耗电为867mWh,整整低了12.9%。2.2GHz同频测试:SPEC2006除了功耗,关于Cannon Lake核心的另一个问题在于它是否是一个高效的架构设计。
为了展开必要的IPC较为,我们将两颗处理器相同寄居2.2 GHz同频率上运营SPEC2006 测试。SPEC2006是一个最重要的基准测试软件,它与其他测试软件的区别在于所处置的数据集更大更加简单。
作为基准测试更加有代表性,它可以充份展出架构的更好细节。从测试结果来看,两款有所不同核心的处理器性能相差无几,Kaby Lake核心的i3 8130U在与SIMD涉及的462.libquantum和470.lbm测试项中或许比Cannon Lake核心的i3 8121U更加有优势,这或许与二者内存延后性能有关。2.2GHz同频测试:系统综合性能系统测试部分重点注目实际用户体验,将还包括应用于读取时间、图像处理、非常简单科学物理、建模、神经建模、优化计算出来和3D模型研发等测试项。
GIMP应用于读取时间系统响应速度是最牵涉到用户体验的指标,一个很好的测试用例是看应用于读取必须多长时间。在这一测试中,Cannon Lake核心的i3 8121U展现出的尤其好。FCAT图像处理FCAT软件使用录音的视频,并将颜色数据处理出帧时间数据,以便系统可以绘制可视化的帧亲率。这一测试是单线程的,在基准频率下,Cannon Lake核心的i3 8121U与Kaby Lake核心的i3 8130U耗时差距在半秒之内,i3 8121U稍微领先。
3DPM粒子运动计算出来3DPM测试是一个自定义的基准测试,目的仿真3D空间中六个点的有所不同粒子运动算法。算法的一个关键部分是用于了比较较慢的随机数分解,最后在代码中构建倚赖链。在这一测试中,我们在六种算法上运营一个原子粒子集,每次20秒,停止10秒,并报告粒子移动的总速率,以每秒数百万次运动为单位。
在不启动AVX,Cannon Lake核心的i3 8121U输给了Kaby Lake核心的i3 8130U。但各自启动AVX后,i3 8121U居然跑出了4519的超高分,甚至打败了4185分的18核Core i9 7980XE处理器,十分可怕。
Dolphin 5.0模拟器Dolphin 5.0是一款GameCube/Wii主机模拟器,可以在PC上玩到这些老款游戏主机的独霸大作。不过,仿真这两台用于Power架构处理器的主机一般来说必须一颗不弱的处理器才讫。在这一测试中,两款处理器的同频性能大致相同。
DigiCortex海蛞蝓大脑仿真DigiCortex基准测试最初设计用作神经元和神经元活动的仿真和可视化,该软件具备多种基准模式,本次用于小基准测试,仿真32000个神经元和18亿个神经元,规模相等于海蛞蝓的大脑。仿真类型分成“非唤起”和“唤起”两种模式,前者不受内存影响更大,后者更加倚赖纯粹的处理器性能。测试中用于了后者,两款处理器的同频性能大致相同。y-Cruncher科学计算y-Cruncher是一款协助计算出来各种数学常数的工具,软件反对通过二进制、单线程和多线程等有所不同优化方式运营,甚至还包括AVX-512优化的二进制文件。
本次测试基于单线程和多线程方式,计算出来2.5亿位圆周率。测试结果不出意外是 Cannon Lake核心的i3 8121U获得胜利,到目前为止,所有可以利用AVX-512指令集的软件都是i3 8121U获得胜利。
Agisoft Photoscan 2D图像并转3D模型PhotoScan可以将许多2D图像切换为3D模型,这是模型研发和文档中的一个最重要工具,依赖许多单线程和多线程算法。测试用于了PhotoScan v1.3.3版本,其中包括了84 x 1800万像素的大数据集,通过一个非常较慢的算法变体,最后对比切换过程总时间。
在这一测试中,两款处理器的同频性能大致相同。2.2GHz同频测试:图形性能图形性能一般来说是处理器在专业环境下的关键指标,从3D图形到光栅化,涵括网格、纹理、撞击、锯齿、物理等方面。大多数RenderMan都反对CPU图形,少数可以反对GPU或FPGA和ASIC等专用芯片。对于大型工作室来说,CPU依然是选用的硬件。
Corona 1.3图形Corona是3DS Max和Cinema 4D等软件的高级性能RenderMan,基准测试的GUI可表明正在建构的场景,并将图形时间对系统给用户。本次测试用于了必要输入结果的命令行版本,输入的结果也不是报告时间,而是报告六次运营中每秒的平均值光线数,因为单位时间内的性能比例一般来说更容易解读。Corona只反对到AVX2指令集,无法充分发挥Cannon Lake 核心的特性。
在这一测试中,i3 8121U同频性能领先i3 8130U大约10%。Blender 3D创作软件Blender是一个开源的高级图形工具,反对大量可配备项,被世界上许多著名的动画工作室所用于。该软件的研发小组最近公布了一个基准测试包在,本次测试通过命令行运营该套件中的“bmw27”场景子测试,并测量已完成图形的时间。Blender某种程度只反对到AVX2指令集,在这一测试中,两款处理器的同频性能大致相同,Cannon Lake 核心的i3 8121U有黯淡优势。
LuxMark引擎用于LuxRender引擎研发的基准测试获取了几个有所不同的场景和API,本次测试自由选择在C ++和OpenCL代码路径上运营非常简单的“Ball”场景,以粗略图形开始,并在两分钟内渐渐提高质量,最后结果以每秒图形的光线数展出。POV-Ray光线跟踪Persistence of Vision光线跟踪引擎是另一个众所周知的基准测试工具,在AMD公布Ryzen处理器之前仍然默默无闻,而后Intel和AMD都开始向开源项目的主要分支递交代码。
本次测试用于从命令行调用所有内核的内置基准。2.2GHz同频测试:办公性能Office测试套件目的专心于更好行业标准,如办工流程和系统会议等,但是我们也将编译器性能绑在本节中。对于必需对硬件展开总体评估的用户来说,这些一般来说是最必须考虑到的基准测试。
3DMark物理计算出来游戏测试软件3DMark的每个测试场景皆还包括一个物理测试子项。按复杂程度排序的依序为Ice Storm、Cloud Gate、Sky Diver、Fire Strike和Time Spy。在所有测试场景中,两款处理器的同频性能都大致相同。
GeekBench 4GeekBench 4是常用的跨平台测试工具,重点谋求峰值吞吐量的一系列算法,还包括加密、传输、较慢傅里叶转换、存储器操作者、n体物理、矩阵运算、直方图处置和HTML解析等,常用于移动设备测试。考虑到其通用性和风行程度,本次也重新加入了这款软件的单线程和多线程测试。
2.2GHz同频测试:编码性能随着流媒体和短视频内容的蓬勃发展,更加多的家庭用户和游戏玩家必须将视频文件展开切换,处理器的编码和转码性能显得更加最重要,本次编码测试也主要环绕这些最重要的场景展开。Handbrake视频转码Handbrake是一种风行的开源视频切换软件,近期的版本可利用AVX-512和OpenCL来加快某些类型的转码和算法。
本次测试用于的CPU转码。7-Zip传输可执行文件在传输/可执行文件应用于中,开源的7-Zip是很青睐的工具之一。
本次猜测是用于近期的v18.05版本,它内置有基准测试,从命令行运营基准测试,报告传输、解压缩和综合分数。WinRAR传输可执行文件在大多数人的系统中一般来说都有WinRAR,它是20多年前的第一批传输可执行文件工具之一。
它没内置基准测试,本次用于一个包括多达30个60秒视频文件和2000个累赘小文件的文件夹,以长时间压缩率运营传输。WinRAR是星型线程的,但也更容易受到内存的影响,因此测试须要运营它10次并取最后五次的平均值,使结果可以展出CPU纯粹的完整计算出来性能。
AES加密许多移动设备配置文件用于的文件系统都获取了加密功能以维护内容,PC上的Windows也有,一般来说由BitLocker或第三方软件应用。本次用于已投产的TrueCrypt作为其内置基准测试,可必要在内存中测试多种加密算法,反对AES指令集但不反对AVX-512。
测试使用的数据是AES加密/解密人组,以每秒千兆字节为单位。(公众号:)总结Intel在10nm工艺上显然展开了很多改良,如果每一步都能极致运营,那么10nm应当在去年就出了。可问题是在半导体设计中,有几百个有所不同的特性,改动任何一个都可能会造成其他几个甚至几十个特性变差,这正是Intel在10nm工艺方面遇上的仅次于问题。
仍忘记2018年的CES上,Intel对10nm工艺涉及的问题缄口不言,从这昙花一现的Cannon Lake核心来看,唯一算是亮眼的展现出只有AVX-512性能,很显著第一代10nm还相比之下没准备好踏入黄金时段,Intel是在企图冷处理这一代处理器,也认同会月公开发表发售它们。在Intel得出的这张图中,右侧表明10nm工艺及其改型可依赖较低的动态电容享有较低的功率,然而数轴的左侧则表明10nm和10nm+工艺的单个晶体管性能只不过还要高于当前的14nm++工艺,之前下下下一代的10nm++工艺才能确实构建全面领先,而从i3 8121U的展现出来看,相当大概率上也意味著在第三代10nm++工艺实行之前,业界很有可能都无法看见确实突破性的10nm处理器(一竿子支到三零零零年了……)。预计将在今年下半年问世的Ice Lake处理器不会用于第二代10nm+工艺,电气性能将十分相似14nm++工艺,也许那时Intel在10nm工艺上打响确实的第一炮吧。
版权文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:博鱼(boyu·中国)官方网站-www.njcjla.com