推土机(Bulldozer)是AMD公司研发的一款微处理器架构,采用32纳米硅氧化物绝缘层(SOI)工艺,特点是模块化设计,每个模块包含两个处理器核心。
简介
推土机架构的每个模块都将集成2M L2缓存和8MB的L3缓存。该架构采用了全新的控制结构和运算单元,尤其在整数运算和浮点运算方面的性能有所提升。推土机架构的重点开发领域包括时钟发生器、电源管理器、L1缓存等。AMD计划在2011年推出基于该架构的服务器级处理器Interlagos和桌面处理器Zambezi,后者面向中高端市场,采用新的Socket AM3 r2接口插槽。新处理器支持新的内存控制器,可提高内存带宽表现,并支持动态频率提升技术(turbo core)。
崭新技术
革新的Turbo Core技术
Turbo Core技术旨在加速未充分利用的工作负载,使时钟速度更快。在多种工作负载下,Turbo Core技术可使性能提升高达500兆赫兹。与传统核加速技术不同,Turbo Core技术可加速所有核,而非仅部分核。此外,对内存控制器进行了优化,以提高内存吞吐量。
新接口新工艺
推土机处理器采用Socket AM3+接口,941个针脚,支持DDR3-1866内存和高级节能技术。AM3+将是AMD的最后一代PGA封装,后续将改为LGA封装。Fusion融合处理器将使用LGA AF1新接口,支持DisplayPort 1.2标准、PCI-E 3.0规范和四通道内存。
加强型内存控制器
AMD首次推出集成内存控制器,并在此代产品中全面提升内存控制器性能。通过对内存控制器效率的重新设计,实现了30%的内存性能提升。此外,内存支持1600MHz频率,可额外提升20%性能,总体吞吐量提升50%。
同时支持AVX指令和SSE指令
FLEX FP技术是AMD最具创新性的浮点计算技术之一。每个模块都有一个FLEXFP进行浮点运算。在128位编码下,AMD的执行数量是竞争对手的两倍。在256位AVX编码下,Bulldozer可将两个浮点运算单元合并执行。因此,Bulldozer可在高性能计算、媒体编解码等领域表现出色。
更先进的电源管理技术
每个模块内的第二个整数核心所需的电路仅占总核心面积的12%,芯片级别的电路增加仅为5%。更多的核心和更少的空间有助于提高单位功耗和成本的性能。Bulldozer在最大时钟供电的百分比下,无论在正常应用状态还是闲置状态下,都有着良好的能耗表现。AMD还在各个能耗单位上进行了优化,以便在各种情况下关闭电源。
架构特点
内核设计全面模块化
推土机架构是AMD自K7以来的一次重大变革,核心架构和功能性均有较大变化。模块化设计使处理器的功能更具灵活性,同时也易于控制成本。物理结构可根据市场需求进行调整,以适应产品生产及成本控制需求。处理器核心模块由两个核心组成,共享二级缓存和预取、解码单元,所有模块共享8MB三级缓存和北桥模块。AMD表示,将每个拥有双整数核心的推土机模块视为一个独立的单元即可。
高效的集群多线程架构
推土机架构采用了基于集群的多线程技术,即Cluster-Based Multi-threading (CMT)。每个模块可同时运行两个线程,两个内核可执行两个互不影响的线程。CMT技术的效能高于传统的多线程方案。AMD表示,单个“推土机模块”可实现约80%的多线程性能提升。
强化的浮点和整数计算性能
推土机架构的集群化多线程架构使其浮点和整数计算性能得以增强。每个模块中的两个线程都具有独立的整数运算单元,共享浮点单元。这种设计可更有效地提高处理器在基本应用中的性能。Bulldozer的每个模块还具备两条128Bit FMAC(乘法累加运算)流水线,以满足新增的AVX指令集扩展的需求。
制作工艺“两级跳”
推土机架构采用32nm制程,预计32nm工艺将于2010年第三季度开始试产,28nm工艺于2010年第四季度上马,超低功耗版28nm工艺则排在2011年第一季度。这意味着AMD将在2010年完成产品生产工艺升级的“两级跳”。
AMD推土机接口升级
推土机架构将采用新的AM3+接口,拥有941个针脚,支持DDR3 1866内存和高级节能技术。AM3+是AMD最后一代PGA封装,后续将改为LGA封装。Fusion融合处理器将使用LGA AF1新接口,触点多达1591个。
架构解析
CMP和SMT
CMP和SMT分别是通过复制物理核心和共享资源来扩展处理器在多线程软件中的性能。CMP的优点是直接有效,但成本高昂,受工艺限制。SMT优点是成本较低,但效率因负载而异。AMD认为SMT在理想条件下可等同于CMP,但在非理想条件下,SMT效率低于CMP。
推土机架构分析
推土机架构采用32nm SOI工艺,模块化设计,每个模块包含两个处理器核心。每个核心具有各自的整数调度器和四个专有的管线,共享一个浮点调度器和两个128位FMAC乘法累加器。L1缓存有所不同,每个核心具有16KB L1数据缓存,每个模块具有64KB双向L1指令缓存。两个核心共享L2缓存,模块之间共享L3缓存及北桥。AMD表示,平均计算下,一个单独的“推土机”核心执行两个线程可以达到1.8核CMP的效率。
参考资料
还记得当年的"推土机"模块架构吗?.百度学术搜索.2024-10-30
从"推土机"到Zen后的又一次重大升级 AMD Zen 3架构锐龙5000系列处理器首发评测.百度学术搜索.2024-10-30
推土机架构处理器.百度学术搜索.2024-10-30