在IDF中Intel表示将会把精力放在功耗和运算能力两个方面,向两个方向同时发展。最近的Intel Atom就是英特尔偏侧于功耗控制方面的产品,而对于新的高端四核Itanium和Larrabee产品则属于性能侧重方面。
第一个介绍的就是Intel的四核心Itanium,名称是Tukwila:
Tukwila是英特尔第一款集成20亿个晶体管的芯片,预计在今年年底正式上市,在明年将会全面进入市场。Tukwila,就像Nehalem一样, 将会支持英特尔的QuickPath Interconnect(QPI)技术,这个技术有点类似于AMD的Hyper Transport。同时也跟Nehalem相似的是Tukwila将会集成内存控制。
接下来是英特尔的Dunnington处理器,一个主要基于Penryn核心的45nm六核心Xeon。
Dunnington处理器拥有六个核心(三个双核心),同时拥有达到16MB的L3缓存。Dunnington与Tukwila在集成晶体管数量上有点相似,集成19亿个晶体管。Dunnington是第一块由英特尔的印度研发团队研发出来的处理器。
从结构上看,Dunnington和现在基于Penryn核心的Xeon并没有太大的差别,看上去只是添加了更多的核心数量和一个大得有点可怕的所有核 心共享的L3缓存。设计这么一个怪兽当然是不容易的,然而在L2缓存没有改变的设计大大减轻了Dunnington的设计难度。
目前我们可以看到Intel在开发一种类似于Phenom的缓存架构,而Dunnington则是在这个理念下迈出的第一步,Nehalem也是这样的一款产品。
二、Nehalem的核心改进情况
Nehalem支持QPI,集成内存控制同时具有一个超大的所有核心共享的L3缓存。
Nehalem是一个模块化的架构,它允许英特尔为它配置2个到8个核心,有些配置可能会集成显示芯片和多样化的内存控制器。
Nehalem具有比Penryn多33%的Micro-ops,达到了128个,而Penryn仅有96个。
Nehalem同样升级了非直联缓存读取性能(unaligned cache access performance)。
在很多应用程序中我们会碰到unaligned cache access的延迟,如视频编码中,而Nehalem则对这个延迟进行了大幅度的优化,使得这个延迟大幅度降低,也就是说Nehalem在进行视频编码的时候性能将比现在的CPU有大幅度的提高。
Nehalem同时为每个核心引进了二级分支预测器(Second level branch predictor)。这个东西的工作有点类似于L2缓存和L1缓存的协同工作。二级预测器能够储存大量的历史数据用以预测分支,其实目前的CPU都有一 个分支预测器,但是它的运行速度比较慢,而且数据量上并不是很大,当加入新的二级分支预测器后,大量的历史数据将保存在二级分支预测器,当二者同时工作 时,分支预测将有更好的效率,同时减少预测错误的概率。
Renamed Return Stack Buffer同样是Nehalem中的一个主要技术革新。在管线中错误的预测将会造成很大的问题,而Renamed Return Stack Buffer则能够较好地解决这个难题。
三、奔腾四与Phenom附体?Nehalem缓存架构解释
Nehalem将会支持两路SMT(每核心两线程),就像以前的Pentium 4一样。然而由于管线比NetBurst要短,因此能够有更好的性能。虽然技术理念上与Pentium 4相似,但是其实际的效果则是完全不是一个级别的。
Nehalem的缓存子系统几乎与Penryn完全不同。Nehalem具有与Penryn相同的32KB L1缓存结构,而L2与L3缓存则是全新的。四核心Nehalem中的所有核心都有一个较小的256KB L2缓存,而英特尔着重提到了这个L2缓存是“低延迟”的(很可能是因为本身容量就比较小)。在较小的L2缓存下,英特尔同时为其产品配备了超大的L3共 享缓存,容量达到8MB。
这种设置似乎与AMD的Phenom在架构上相当相似,但是却明显地是基于Intel的Core 2基础研发的。而最大的改进在于这个缓存是完全内置的,而不是像AMD的一样采用外部设计。这种完全的内置设计使各个层级的缓存拥有一个低一级缓存的备份。
以目前来看,AMD相比于Intel仅有的优势就在于内存的表现和互联速度,然而Nehalem则也在这方面有所改进,可以说Intel留给AMD的空 间已经几乎没有了。Intel的设计将会让Nehalem的内存存取速度两倍于Penryn。对于AMD来说,除非其Bobcat和Bulldozer核 心有相当大的改进,否则AMD的CPU将在未来难以与Intel进行竞争。
Intel同时为Nehalem增加了第二级TLB,这与我们前面所说的二级分支预测器有点相似。由于一级TLB的实际效果并不是很好,然而加入第二级TLB后性能表现会有所提升,而延迟也会有所降低。
TLB增强对于服务器的工作会有极端明显的效果,我们怀疑Intel正在寻求让Nehalem取代Opteron的地位。
第一个高端Nehalem平台将会集成三通道DDR3内存控制,同时支持DDR3-800,1066和1333。
在服务器方面,我们能够见到Nehalem的IMC能够提供内存的认证支持。
四、英特尔32nm袭来!
Intel同样对32nm处理器进行了一个小升级,包括Westmere(以Nehalem为基础的32nm)和Sandy Bridge(32nm,全新的架构)。
关于Westmere的问题开始变得清晰,而且Intel着重说明,他们打算为CPU增加新的向量指令。
英特尔高级向量扩展(AVX)将不会再Westmere中出现。但是Sandy Bridge将会提供256位向量工作支持。关于这方面的具体情况,在即将到来的中国IDF中,英特尔会详细地进行介绍。
五、英特尔2009年要杀绝GPU市场!
最后讨论的主题就是Larrabee,英特尔高度并行的微型处理器结构让它能够很好地适应3D显示程序的需要:
Larrabee将会在2009年到2010年之间真正面世,它更像是一个独立的GPU,面向的竞争对手是AMD和nVidia。Larrabee将会拥有相当多的核心,同时还会有很多相当小而且相当简单的IA核心。
每一个核心将会支持新的向量架构系统,而这个系统目前英特尔已经与游戏的开发者一同研发。所有核心都会有相当宽广的向量处理单元,但是英特尔并没有在 Larrabee上做出很详细的介绍。我们相信,Larrabee将会同时支持DirectX和OpenGL,但是如果游戏开发者针对其ISA进行开发的 话,那么它的性能将会毫无疑问地相当强大。
六、八核心十六线程!Nehalem性能展示
就如一般的英特尔展览一样,现场有几个基于Nehalem和Dunnington的系统进行现场展示:
上图是一个4核心(8线程) Nehalem系统在运行一个制定的显示Demo。
Intel并没有进行任何跑分相关的测试,似乎是有意不让我们知道其真正的性能。核心频率并没有说明,但是考虑到其晶体管的数量我们相信Nehalem的频率将于Penryn相似。
上图是两个Nehalem构成的系统,它有8个核心,16个线程。
文/PCOnline