您的位置: 嵌入式在线 > 资讯 > 最新技术 > 技术前瞻 英特尔80核心CPU详细介绍

技术前瞻 英特尔80核心CPU详细介绍

2007-03-02      嵌入式在线      收藏 | 打印
 在今年的IDF大会上,Intel公司似乎并没有为我们带来所期待的爆炸新闻,因此我们只有转向International Solid-State Circuits Conference (ISSCC)去了解一下Intel公司正在进行中的R&D研究项目。一般来说这些有关研究课题的介绍都会在IDF大会结束的那天由Intel公司的Justin Rattner来向大家展示,但是今年却有一点不一样。

      目前“Tera-scale ”已经成为了Intel公司当前最主要的研发课题之一,而所谓的Tera-scale是Intel最近才提出的一个新的概念,这种运算概念的核心就是多核心架构,组成Tera-Scale 运算的的特点是:每秒万亿次(TeraOPS)运算的能力、每秒万亿位的内存带宽、以及每秒万亿位的I/0传输通道。不过在我们正式开始了解该款处理器的细节之前,还是让我们来重温一下多核心处理器发展所面临的几大难题。

  

  Tera-scale

  Tera-scale发展的难点:

  在Spring 2005 Intel Developer Forum大会上,Justin Rattner为我们多核心处理器发展道路上面临的一个极为严峻的问题:内存带宽。相信大家现在也已经看到了这个问题,目前无论是单核心的X86处理器还是四核心的X86处理器目前的内存的带宽都是相同的。现在这个问题虽然现在显露的并不明显,但是一旦今后处理器的核心数量进一步提升至8核心、16核心甚至是32核心的时候,这个问题就会变得越来越严重。

  

  内存带宽将成瓶颈

  解决这个问题最直接的办法当然就是采用更宽的前端的总线以及频率更高的内存,但是这只是治标不治本。通过上面这张Intel展示的幻灯片,我们可以看到当采用6通过内存控制器的时候则需要大约1800针脚,这就对处理器的安排以及如何封装提出了一个很高的要求。因此单纯得靠提升内存带宽,或者提升内存的频率以满足多核心处理器的需求是无法跟上未来多核心处理器发展需求的。

  那么我们该如何解决这个问题呢?也许你的想法是再加一层分级存储体系,因为每一层的分级存储体系( 寄存器堆、 L1/L2/L3缓存、主内存、硬盘)都是为了尽快的让处理器获取所需的处理数据。所以满足多核心处理器对数据传输需求的最简单的方法就是在处理器的核心内集成更多的内存,比如4级缓存?

  但是谈到这里我们又将会遇到一个新的问题,那就是处理器核心是昂贵的,而且如果想要满足10核心处理器对内存的需要则不是简单得增强几M的缓存就可以解决的。那么Intel公司打算如何处理呢?这一次Intel计划采堆迭模式将处理器的每一个核心一个一个的堆积在一起,此外ITTEL还将会把内存芯片以相同的方式整合至处理器当中去。

      这样处理器的核心数量虽然增加了很多,但是核心面积却不会因此而增加多少。比如在IDF上,英特尔曾经对外展示了核心频率为3.1 GHz的由于80个核心构成的研究芯片,该芯片的核心面积只有300平方毫米。

  

  当把内存集成进处理器核心之内后,将可以极大的提升内存的带宽,因为处理器核心与内存是直接连接的。同时内存的延迟也将会因此而大大得降低。虽然处理器核心内集成了内存,但是系统主内存还是需要的,因为Intel公司估计每一级内存的容量可以达到256M。层次越多,内存的带宽自然也就越高,这样充分满足10核心处理器对内存带宽的需要也就成为了可能。

  在一年半之后, Rattner又回来了,不过这一次他带来了一个新问题,那就是:bus bandwidth。尽管采用堆积方式可以在处理器内放入更多的核心,但是处理器是需要与外部进行数据交流的。而从目前的情况来看处理器FSB技术的发展速度在过去的几年中一直都非常缓慢。毕竟一块拥有10核心的处理器除了需要足够的内存带宽以外还需要拥有与外界足够快的数据交换速度。

  在去年的Intel Developer Forum大会上,Intel对外展示了一种多功能混合硅激光器。该项技术的核心就是光能够获得列好的数据传输速度同时功耗也更低,因此这也使得光总线非常适合用于未来的多核心处理器

  

  Justin Rattner此次报告的核心部分就是一些有关于Intel公司Tera-scale项目的一些内容,而当处理器核心采用堆迭模式之后,将能够满足未来处理器万亿级数据带宽的需求。而硅光子设备的成功研发也将可以使得处理器与其它系统之间实现万亿级的I/O互联。

  

  芯片展示:

  从该款芯片的命名我们不难看出Intel目前还没有打算正式在市场上推出这款芯片,不过通过这款芯片我们却能够看到Intel未来处理器发展的方向。

  Teraflop使用的是65nm的生产技术,电子管的数量为100M,核心面积为275mm^2。不过用今天的眼光来看,Teraflop的技术似乎也并不如想像中那么先进。至少目前Intel Core 2 Duo处理器就同样采用的是65nm的生产工艺,电子管的数量为291M(百万),处理器核心面积为143275mm^2。

      从这些数据来看Teraflop的体积应该是有些过大的,我们可以看到Teraflop电子管数量要比 Core 2 Duo少,同时缓存的容量也低很多。而在另一方面。另外就是Teraflop配备了很多 I/O电路,这些电路不能够做到像其它电路那样的最小化,这也是导致Teraflop体积如此之大的原因。Teraflop采用的是8层铜互联结构。

  Teraflops内部集成了80个独立的处理器核心,或者称作“ tiles”,每一个“ tiles”的面积为3mm^2。该款芯片采用的是与LGA封装,这个与 Intel Core 2和 Pentium 4处理器的封装方式是相同的,不过针脚数却为1248针,其中有343个针脚用于数据处理器,其余的则主要有于提供动力。

  

  teraflop能够通过不同的工作电压获得不同的核心频率,不过该芯片最低的工作电压为1V,而此时处理器的核心频率为3.13G。而在这种状态下如果处理器的80个核心全负荷运载的话,那么teraflop的总功耗为98W。当频率达到4G时,teraflop的峰值处理则可以达到1.28 TFLOP(每秒万亿),这时处理器电压为1.2V,功耗为181W。

 处理器结构介绍:

  尽管Teraflop的核心面积比较大,但是其内部的每一个“tiles ”却是非常的小。这里需要指出的是Teraflop并不是x86处理器,不过Intel公司已经表示该公司的下一步计划就是推出基于X86架构的80核心处理器。每一个“tiles ”都配有 Processing Engine (PE),并且可以通过配备的5口路由与其它“tiles ”实现数据传送。

  

  为了能够让“tile ”在结构上尽可能的简单,每一个“tile”都是基于 96-bit Very Long Instruction Word (VLIW)架构。提到这个架构我们不能不提到Intel公司推出的Itanium处理器,但是这二者之间却存在着较大的不同。

  处理器由一个3KB的单循环指令内存,2KB的数据内存,10-port 寄存器堆以及两个单循环单精度FPMAC单元组在。teraflops能够在一个 VLIW指令上最多进行8次操作,而这也操作能够在FPMACs单元里载入/存储,同时每一个指令都可以通过每个“tile”配备的路由器进行数据传送。

  

  虽然该处理器能够进行每秒1万亿次的浮点计算操作,但是我们却不能被数字所迷惑,因为这些不是128-bit FP而是单精度 FP。teraflops的每一个“tile”都配备有两个32位fully pipelined FPMAC单元。由于这里再也没有其它的执行单元,因此所有的计算处理器都必须通过这些FPMAC单元来进行。这很明显将会对teraflops芯片的应用带来很大的限制。因此teraflops的推出最重要的并不是速度上的突破,其意义更主要的是在于推出一种多核心处理器的架构。因为在这里我们主要关注的并不是处理器浮点计算的性能以及tiles排列,我们更为关心的是如何将这些 tiles联系起来。

 网络:

  teraflops内部集成的80个“ tiles”都是相同的,这将有助于简化设计并且有利于生产。相信大家一定记得我们在前面提过每一个“ tiles”主要由两部分组成:Processing Engine (PE)以及 5-port路由。而每一个“ tiles”上配备的路由器都是通过网络来传送数据。当传送数据时这些数据可以只是通过路由器进行传送而不需要经过Processing Engine (PE)。因此tiles上配备的PE此时会因为独立于路由器而降低功耗

  每一个tiles都配备有5个39-bit端口,如果处理器的频率达到4G,那么该处理器就可以拥有80GB/s的数据带宽。由于tile 3mm^2面积上只有 0.34mm^2是用于路由功能,而这也使得在单块处理器上集成80个处理器核心成为可能。 tiles上的五个端口其中有四个用于与其它tiles相连接,通过下面的幻灯片你可以清楚得看到:

  

  第五个端口用于与堆栈存储器相连接

  这里最让人关注的当然就是路由器,而处理器的网络布置最值得关注的就是处理器的PE可以被替换为任何的替换品,这其中包括 x86核心或者其它核心(例如DSP或者硬件加密引擎)。你可以想像一下,在这个由80个tiles组成的网络上,当中有6个为x86核心,面其余的核心则可以专门进行特别的处理器,比如3D渲染,TCP/IP 传输,编码解码等。

 频率及功耗管理:

  在处理器已经获得了极高发展的今天,处理器的设计者们都得面对处理器的频率以及处理器核心面积不断得增长这两大难题,不管怎么说在进行处理器设计时必须要保证在频率上不能落后同类产品太多。对此Intel公司曾经表示处理器的核心频率在处理器功耗设计这一块大约要占据处理器总功耗的30%,因此在这里如何降低处理器的功耗就变得十分重要。

  teraflop并不是一块常见的处理器,该处理器内部的每一个tile都是独立的,因此我们只需要保证处理器内部每一个3mm^2的tile频率达到要求就可以了。而在这个前提之下,Intel将teraflop处理器设计为了每一个tiles可以单独得达到额定的频率。虽然这样的设计会导致tile至tile的交流会因此变得稍慢,但是这种功耗节约方面带来的效果却是相当巨大的。Intel估计要让teraflop的核心频率达到4G时功耗将会只有2.2W。

  很明显,如果我们拥有一个网络更加复杂的核心网,那么需要消耗的功耗将会远大于此,但像teraflop这样的核心网络上,你只需要关心每一个tile的核心频率就足够了。

  

  频率的管理并不是Intel用来节能的唯一方法,而且 teraflop在处理器的架构上就已经非常注重这一点。根据介绍 teraflop的每一个 tile都被分为了多达21个不同的休眠区域并且能够根据指令的执行情况独立的开关。在前面我们也给大家介绍过每一个 tile的PE单元和路由器都是可以独立开关的。

  

  除了路由器以外,每一个端口都能够独立的开关,而且teraflop还能够根据需要进行重新分配,如果一部分tiles过热了话,那么teraflop还能够动态唤醒其它部分的tiles一起参与操作以避免出现局部过热现像。

  

  在需要使用FPMACs之前一直都会处于休眠状态,因此当唤醒的时候会存有一定的延迟。在实际运行中,大约有90%的FPMAC以及74%的PE会处于休眠状态以节约电力。

小结:

  也许我们将永远不会在市面上见到Intel这块 Teraflop研究芯片,而且在实际应用中我们也基本上不会需要一块拥有80个核心的处理器,80个这个数字个人认为只是Intel做出的一种挑战。因此在性能上创造出一个个颠峰并不是teraflop的主要目的,Teraflop最主要的目的就是为了尝试,tile网络、功耗管理以及多核心、3D堆栈存储器等,所有的这些都在向我们展示了多核心处理器的未来。

  

  Intel表示这块研究芯片的下一步研究重点就是推出3D堆栈核心,对此我们感觉Intel公司已经获得了重大突破,因此我们充满期待。当然Intel推出这款研究芯片可不是想制造出一个FP怪特,而且在一块处理器上集成80个核心也不是Intel的主要目的,Intel最主要目的还是要为8核心甚至是16核心的X86处理器的推出做准备,当然还包括其它特别的硬件产品以及前面提到的3D堆栈存储器

  

  那么我们什么时候才能够享受这样的技术呢?对此Intel公司表示目前大约还需要5-10年的时间才能够让我们享受到这样的研究成果。从目前的形势来看,在今后的几年里四核心处理器将会成为桌面PC的主流,而到了2015年的时候我们今天所讨论的这些多核心处理器问题就会成为真正的现实,而到了那个时候,上面所提到的种种问题一定已经得到了圆满的解决。

本文来源:天极Yesky    作者:晨风
热点资讯(一周点击率)
热评博文
评一评已有 0 位网友对此文发表了看法。  我也来评一下

验证码:  看不清?换一张

 

快乐大本营
工程师之星
高福东
擅长嵌入式开发及单片机应用开发
  • 王波涛  熟悉单片机及其接口技术
  • 朱伟平  熟悉51单片机系统LCD驱动程序编写及调试。
热门招聘
论坛热贴