• 阅读1739
  • 回复17

英特尔的Core微架构能够解决其技术瓶颈吗?

[复制链接]
发表于 2006-8-6 18:49 | 显示全部楼层 |阅读模式

2006英特尔春季科技论坛:英特尔3.0架构的核心

Intel Developer Forum Spring 2006

英特尔科技论坛(Intel’s Developer Forum;IDF)一直是业界了解处理器技术趋势与发展的重要管道,不过2006年的IDF不只是为专业人士、技术发烧友、产业分析师和科技记者的一场盛会而已,为了让初入会议的观众进入状况,英特尔的技术长Justin Rattner先生认为2006年的IDF是继1997第一次举办以来最值得纪念的一次科技论坛,这是英特尔赖以向世界昭告技术走向的舞台,利用这个场合他们同时也宣示将处理器效能研发主导权由德州奥斯丁(Austin)的研发团队重新转回加州的圣塔克拉拉(Santa Clara)的团队。

这两年对英特尔的处理器事业实在是一波三折,以90奈米制程的Pentium 4(Prescott核心)做为一个分水岭来看,因为在这之后的新诞生的Pentium 4处理器耗电功率显著的增加,但是并没有在效能上等量提升,虽然英特尔尝试在NetBurst架构之下不断增加时脉速度,但是瓶颈比预期的还要提早到来。

在此同时,超微(AMD)凭借着一个更有效率的处理器架构,接连过关斩将,领先的态势扩及到新近的双核心处理器的产品线,让英特尔在处理器效能与耗电效率上,双双遭到重击。

有些人甚至开始认为英特尔从此三振出局,不过,不要忘记英特尔的财务、制程和其它的资源是超微的十倍之多,因此,不要异想天开,以为英特尔会认输下台,2005年英特尔宣布下一世代的处理器微架构,酝酿新一世代技术的到来,所有2006年第三季新诞生的处理器会根据这个新的共通设计而来,英特尔这一波要玩大的,包括在行动运算的Merom处理器,其比Core Duo的效能多出20%,以及桌上平台的Conroe处理器,耗电减40%而效能还得成长40%,还有服务器平台的Woodcrest处理器,据说耗电要减掉35%,换得效能上最多成长到80%的成绩。

听起来太好了,反而有些不太真实,这就是何以英特尔这次要大事周章的着重在新架构(称呼为Core微架构)技术细节的揭露,本文将首先针对主要技术细节做一讨论,接着探讨行动运算与系统平台的发展领域,毕竟IDF谈的不只是处理器而已。

英特尔的技术长Justin Ratter先生俨然是所谓「Intel 3.0」技术背后的首脑。

六安论坛
 楼主| 发表于 2006-8-6 18:49 | 显示全部楼层

英特尔的能源唤醒技术(Energy Awakening)

英特尔最后终于承认NetBurst架构实在是理想性太高,Justin Rattner说「我们受到很大的竞争压力」。

如果你了解最近的处理器历史,对于英特尔的新策略会了然于心,Pentium 4和Pentium D处理器比对手阵营超微的Athlon 64和Athlon 64 X2处理器耗费更大的电力,使散热系统不得不愈用愈大,电费也愈缴愈多,以北美洲的基本电费为例,一个一天24小时一周7天持续运转的系统,一年电费的差距就有100美元之多,更遑论其它电费较贵的区域,对于动则拥有百台或上千台计算机系统的大企业而言,这个电力成本的差异显然是一个重大的缺憾。

使用者可以简单的采取置换成Pentium M或Core Duo架构(Yonah核心)处理器,以期降低能源耗损同时追上Pentium 4处理器的效能,为此,英特尔根据每一个指令执行所消耗的功率(EPI:Energy per Instruction)先定义出新的效能公式:

效能(Performance) =频率(Frequency)*每一时脉所能执行的指令数目(Instructions per clock cycle)

这个在2005年的秋季科技论坛发表的公式,旨在绝对效能和每瓦效能上双双击败其竞争对手,甚至夸夸其言的大声谈论所谓每瓦的满意度(satisfaction per Watt),事实上根本就是将64位运算能力和虚拟化技术等功能纷纷加进计算公式中,老想着尽可能提升时脉数值,而偏偏弃浪费不合理的热能于不顾。

英特尔更进一步,不去管处理器中平行管线有多长,也不论内存管理器是否整合进到处理器里面,甚至到底组件中的时脉真正跑多快等,这些会忠实反应最小耗费功率所能产生最大效能的参数,通通不谈,这真的是我们要的吗?我们需要英特尔给一个说法。

降低执行每一指令所花费的功率变成现在主要的目标了,有趣的是Pentium M和Core Duo以及早先的Pentium(P54)处理器几乎提供相同的每执行指令消耗效能。

有一个重要因素是关于65奈米制程,因为能够带来增加20%的晶体管速度和降低30%的功率输出的好处,而且确定2007年的45奈米制程也可以更进一步受惠。

这张图很清楚的看到P4处理器家族的状况,当时脉和输入电压都提升20%时,效能增加的很有限,但是耗电却多出了四分之三。

六安论坛
 楼主| 发表于 2006-8-6 18:49 | 显示全部楼层

四个核心多芯片封装会在2007发生

至于未来的多核心处理器的趋势就简单了,也就是愈来愈大的高速缓存容量和可能愈来愈小的核心面积,因为英特尔在下一个10年中会想看到在单一个晶粒中可以封装数以百计的核心进去,下一个世代处理器会在2007的下半年发生,这会涵盖桌上型的Kentsfield处理器和服务器/工作站的Clowertown处理器,他们将会包进来两个双核心Conroe或Woodcrest晶粒,放入单一个封装之中。

这就是多芯片封装技术,事实上今天的Pentium D Presler处理器已经是封装两颗Cedar Mill的Pentium 4处理器芯片,当然,还是有缺点,就像L2高速缓存的存取一样,这些各自分离的L2高速缓存会因为该核心一旦需要从其它L2高速缓存中存取资料时,会产生额外的前端总线负担,不过就商业观点来看,这个做法是有效的,因为采用65奈米为主的制程,的确让效能有所提升,而且就英特尔所陈述的,如果要产生单晶四核心(monolithic quad-core)的处理器,那必须先让45奈米的制程可以推出,才做得到。

迈向四个核心之路已经呼之欲出了,首先要有多芯片封装技术,也就是整合两颗双核心处理器,并且加以封装到一颗单一的晶粒上。

这是双核心处理器在今年至2007上半年之间的进程。

六安论坛
 楼主| 发表于 2006-8-6 18:50 | 显示全部楼层

救援用的核心

我们先前已经提到英特尔为了新世代所设立的微架构里程碑,也造就了一堆赏心悦目的数字来表示每时钟脉冲指令数和打破纪录的每个执行指令电源消耗(energy per instruction)数值,一共有三颗处理器设计源于此相同的双核心架构,分别是桌上型的Conroe、笔记型的Merom和服务器级的Woodcrest处理器,这些都是采用65奈米半导体制程,这三颗处理器在技术上几乎完全一样,只有在因应不同市场区隔之下,才做不同的功能开启或关闭的设定,而高时脉速度只有在高阶桌上型计算机或服务器上才看的到,对其他大多数的应用软件而言,时脉速度的增减而不影响执行效能的设计是一个理想目标,现在这将可以由增加平行管线数量及频宽的增加而做到。

这个新的微架构现在称为Core微架构,一共有五个主要功能,分别有Wide Dynamic Execution、Advanced Digital Media Boost、Advanced Smart Cache、Smart Memory Access和Intelligent Power Capability。

Core微架构是一个非循序式的设计,可以让单一的指令任意排序,并放置在14阶的平行管线中,为了增加指令执行效率,英特尔特别关注在指令执行的弹性上,听起来好象很容易,但是和IA机器需要有一个干净的内存排序以便于承接程序的语意,这就变成彼此相冲突,举一个简单的例子来说,一个储存指令需要先完成资料导入的工作,因为你需要先处理完现有的资料组存取的工作,否则资料就散逸消失了。

为了同时可以执行更多的指令,这也需要三个数学逻辑运算单元(ALU:Arithmetical Logical Unit)的配合运作,能够让SSE指令(128 位宽的 SSE指令)在一个时钟脉冲内做完,此外,L2高速缓存的运作改善也相当有效,这都归功于分享式的设计和可以防止内存内容紊乱的新prefetcher机制,因为prefetcher的功能用在预先取得即将被其它排队的指令所覆盖的数据,如此一来就可以帮助平行管线的运作更加有效率。

有些评论在于比较这个Core微架构与Pentium III架构,很显然的,英特尔的确做了全新改变,因为新架构赋予行内译码(inline decoding)功能,这在Pentium III架构未曾出现,而且三个数学逻辑运算单元的设计也比仅有一个ALU的Pentium III(另外两个放在NetBurst)还要多,最后还拿掉了追踪快取(trace cache)。

英特尔从头重新设计新的处理器,同时加上由Pentium M(Banias, Dothan)所学到的经验,直接在执行指令阶层中来改善效能,并且维持热消耗降到最低的目标,如同英特尔行动运算副总经理Mooly Eden先生所说的「我们得回到原点,仔细的重新设计一个新的平稳的系统。」

Merom处理器会采用Socket 479平台,基本上目前的Napa系统是可以只更新BIOS之后就使用Merom处理器,英特尔喜欢称这颗新处理器为Napa更新版本。

Conroe处理器会用Socket 775平台设计,除了在游戏应用上采用975X系统芯片组之外,还可以用新出品的965系统芯片组,专为数字家庭与办公室应用而来,如果用更新BIOS的系统一样可以使用,除非你想要用FSB1333(667 MHz)的系统,那就一定得使用新的Extreme Edition版本的处理器。

Woodcrest也就是闻名的Xeon处理器,是采用Bensley平台,即将成为有力的Dempsey处理器,目前最高时脉可到3.73-GHz

六安论坛
 楼主| 发表于 2006-8-6 18:50 | 显示全部楼层

宽的动态执行(Wide Dynamic Execution)

宽的动态执行(Wide Dynamic Execution)总结英特尔在执行指令宽度的改善,也就是用四个并行处理器取代原本的三个,完全冲着微指令运算效率而来。

如上图所示,在整个运算路径中都保持着这个加宽的四个执行宽度(有些甚至是五个),意谓着一个内部频宽的增加,也就是说,处理器可以同时处理取得、释放、执行和回复等四个指令。

此外,Core微架构支持Pentium M处理器用来减低微指令(micro-ops)总数所用的技术,将微指令分成处理器所认得的x86指令,两个这种指令就可以变成另一个微指令,以便于节省运算时间与能源,据英特尔所说,使用这种微指令融合(Micro Ops Fusion)功能大概每十个指令可以省下来一个,被整合到下一个指令去。

这个将微指令融合的创意也整合到指令的阶层,称为指令层平行化(instruction level parallelism),让两个独立指令,例如一个比较和一个跳跃指令,加以联合起来,并且一起译码一起执行,这个称为微指令融合的功能甚至被带进所有的数学逻辑运算单元(ALU),也就是允许在整个单一指令执行时钟脉冲之下,执行两个指令所组合的微指令,或是只执行普通的指令。

这些指令融合机制都可以显著的帮助增加每一个核心的处理效率,因为融合起来的指令也是另一种型态的指令,或看成微指令阶层的融合。

六安论坛
 楼主| 发表于 2006-8-6 18:50 | 显示全部楼层

先进的数字媒体增强(Advanced Digital Media Boost)

数学逻辑运算单元(ALU)会将指令分成两个区块,结果可以产生两个微指令,而有两个执行时钟脉冲,现在英特尔将执行宽度扩增到三个ALU,可以一次储存或导入128位的资料,允许八个单精度浮点或四个双精确度浮点区块的资料在一个执行时钟脉冲内执行,因为这个功能放进了SSE指令的执行,就称其为先进的数字媒体增强(Advanced Digital Media Boost)技术,有一称为单一时钟脉冲的SSE(Single Cycle SSE),允许四个32位单位向量合并为一个128位的单位。

英特尔寄望于这些能够将各种型态的媒体处理应用,例如编码、转码、压缩等等的运作能有显著的改变,因此甚至说出Core微架构,可以在提供最高向量处理的英特尔架构运算密度(IA computation density)。

六安论坛
 楼主| 发表于 2006-8-6 18:51 | 显示全部楼层

先进的智能快取(Advanced Smart Cache)

统一的L2高速缓存可能是第一个被提到功能,其允许一个较大L2高速缓存(2 MB或4 MB的容量)可以分享给两个处理器核心来使用,因此,快取的效率可以大量提升,因为不用像以前一样需要复制两次在两个不同的L2高速缓存中,这个完整的L2高速缓存可以依每一个核心负载的需要做最大弹性使用,也就是在极端情况下,一个核心甚至可以使用所有的L2高速缓存空间。

资料的分享因此更有效率,因为不需要借助前端总线的运作来存取资料进入高速缓存,这类似于Pentium D的运作,所以当双核心要存取高速缓存的资料时,就不会受到耽误,有一个不错的例子可以呈现出这个设计的优点,就是在多执行绪环境下,当一个核心在写入资料到高速缓存时,另一个核心刚好同时正要从高速缓存中读取资料出来,这时快取误失的比率降低了,延迟减少了,而存取资料的确变快了,因为先前的前端总线这颗大石头这次真的移开了。

六安论坛
 楼主| 发表于 2006-8-6 18:51 | 显示全部楼层

智能的内存存取,先进的Prefetch机制

在更有效率的处理架构及有力的L2高速缓存的设计后,英特尔希望这些部分能够确实有效率的被使用,在Core dual处理器配属总数为8个的prefetcher单元,其中每个核心都安排有两个资料和一个指令prefetcher,其余的两个并入共同分享的L2高速缓存中,英特尔说明会对不同的处理器版本(Merom/Conroe/Woodcrest)进行细部微调,以符合笔记型、桌上型和服务器不同的资料预取的需求。

Prefetcher采用一个非常随机性的算法将资料放进高一层内存单元中,这是为了让会被用到的资料先提前准备好,以期降低内存延迟,并增加效率,这些prefetcher内存靠着内存存取模式的信息,去预测哪些资料会被移入L2高速缓存中,准备下一个就会被使用到,prefetcher同时也是非常关心资料交通流量的微调,也就是顺序资料流的管理,不过,当交通量大时,资料预取机制会因命中率的影响而变的不太实际,有点愈帮愈忙的反效果

六安论坛
 楼主| 发表于 2006-8-6 18:51 | 显示全部楼层

内存明朗化

许多时候,一个加载(load)的指令非得等到其它的指令先做完,否则还什么事都不能做,而内存明朗化机制会针对内存加载的指令先做预测,以期尽早安排配合的执行时序(详见上图所示),这是另一种让处理器管线的效率能够提升的方法,让内存延迟能够降低。

六安论坛
 楼主| 发表于 2006-8-6 18:51 | 显示全部楼层

智能型功率调整能力

降低每一执行指令所需耗费的能量会是一回事,当然也能够凭借着好的能源管理来助一臂之力,英特尔从制程技术阶段就开始整合好几个量测重点,65奈米制程在晶体管电路的效率砸下良好的基础,时脉把关(Clock gating)和休眠晶体管(sleep transistors)的设计能够让单一晶体管不需完全保持停止,Enhanced SpeedStep在系统处于静止或低负载时,仍会采取减少时脉的措施,而且各自核心自行分别管理,处理器内部不同区块的输入电压也可以不一样。

六安论坛
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

侵权举报:本页面所涉内容为用户发表并上传,相应的法律责任由用户自行承担;本网站仅提供存储服务;如存在侵权问题,请权利人与本网站联系删除!举报微信号:点击查看