"); //-->
3BSE008508R1指令给闲置的执行单元
此外,对于指令流水线的改进启发了减少CPU器件闲置时间的技术。称为超标量的设计包括了一条长指令流水线及多个相同的执行单元。上标量流水线的分派器同时读取及通过数个指令;分派器决定指令是否能够平行执行(同时执行)并分配到可执行的执行单元。大致上来说,一个上标量的CPU能够同时分派越多的指令给闲置的执行单元,就能够完成越多的指令。
上标量CPU结构的设计中,最困难的部分便是创造一个有效率的分派器。分派器必须能够快速且正确的决定指令是否能够平行执行,并且让闲置的执行单元最小化。其需要指令流水线常时的充满指令流,且提升了在上标量结构中一定数量的CPU缓存。其亦催生了危害回避的技术,如分支预测、投机执行与跨序执行以维持高层次的性能。借由尝试预测特定的指令选择何分支(路径),CPU能够最小化整个指令流水线等待特定的指令完成的次数。投机执行则是借着执行部分的指令以得知其是否在整个作业完成后仍被需要而提供适度的性能提升。跨序执行则是刷新指令执行的命令以降低资料相依。
当不是所有的CPU器件均有上标量性能时,未达上标量的器件性能便会因测序推迟而降低。奔腾的原型有两个每一时脉循环可接收一个指令的上标量算术逻辑单元,但其浮点算术处理器(Floating Point Unit, FPU)不能在每一时脉循环接收一个指令。因此P5的性能只能算是整数上标量而非浮点上标量。英特尔Pentium结构的下一代P6加入了浮点运算处理器的上标量能力,因此在浮点指令上有显著的性能提升。
此两种简单的流水线及上标量设计,均能透过允许单一处理器在一个时钟循环完成一个指令[注 12],提升指令流水线的性能。多数的近代CPU设计至少都在上标量以上,且几乎所有十年内的泛用CPU均达上标量。近年来,一些重视高指令流水线的计算机将其从CPU的硬体移至软件。超长指令字符(的策略使得一部分的指令流水线成为软件,减少CPU推动指令流水线的工作量,并降低了CPU的设计复杂度。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。