GPU历史系列（四）：通用GPU的来临

来源：内容由半导体行业观察（ID：icbank）编译自「techspot」，谢谢。

随着DX10的到来，顶点和像素着色器保持了很大程度的通用功能，因此移动到统一的着色器拱门消除了许多不必要的重复处理块。第一个使用这种架构的GPU是Nvidia的标志性G80。

四年的研发和4.75亿美元的投入，生产出了6.81亿个晶体管，484mm² 的庞然大物——在11月8日首次成为8800 GTX旗舰和8800 GTS640MB。一款超频的GTX，即8800 Ultra，代表了G80的顶峰，夹在两款较小产品的发布之间：2月份发布的320MB GTS和2007年11月19日限量生产的GTS 640MB/112 Core。

在新的Coverage Sample anti-aliasing（CSAA）算法的帮助下，Nvidia满意地看到其GTX彻底摧毁了所有单显卡和双显卡竞争对手。尽管取得了成功，但该公司在第四季度在独立显卡市场的份额下降了三个百分点-AMD凭借原始设备制造商（OEM）合同的优势获得了增长。

MSI版本的GeForce 8800 GTX

2007年2月和6月，英伟达关于G80的商业战略的其余部分成为现实。基于c语言的CUDA平台SDK(软件开发工具包)以beta形式发布，目的是利用GPU高度并行化的特性实现一个生态系统。Nvidia的PhysX物理引擎以及它的分布式计算项目、专业虚拟化和OptiX (Nvidia的射线追踪引擎)是使用CUDA的更受瞩目的应用程序。

Nvidia和ATI（现为AMD）都在将不断增加的计算功能集成到图形管道中。ATI / AMD将选择依靠开发人员和委员会来开发OpenCL，而Nvidia考虑到CUDA和高性能计算有更直接的计划。

为此，英伟达在6月份推出了Tesla系列的数学协处理器，最初是基于已经为GeForce和Quadro FX 4600/5600提供动力的G80 core，经过至少两次（可能三次）的主要调试，AMD在5月份发布了R600。

媒体大肆宣传该产品是AMD对8800 GTX的回应，但HD 2900 XT令人大失所望。它是一款中高端卡，但有着发烧级主板的功耗，比其他任何当代解决方案都消耗更多的功率。

R600的失误在ATI内部产生了深远的影响，促使战略改变以满足未来的最后期限和最大限度的发布机会。RV770 (Evergreen)以及南北群岛系列改进了执行。

R600是迄今为止最大的ATI / AMD GPU，面积为420mm²，它结合了许多GPU首创。它是AMD的第一个DirectX 10芯片，它的第一个也是唯一一个拥有512位内存总线的GPU，第一个带有tessellator单元的厂商台式机芯片(由于游戏开发者的漠不关心和缺少DirectX支持，该单元一直未被大量使用)，第一个具有集成音频/ HDMI支持的GPU，以及第一个使用VLIW的GPU，这种架构一直保留到现在的8000系列。这也是自RADEON7500以来，第一次在竞争对手的价格和性能方面，ATI/AMD没有部署顶级卡。

AMD将R600升级为RV670，将GPU从TSMC的80nm进程缩减为55nm节点，并将512位双向内存环总线替换为更标准的256位。这使得R600的裸片面积减少了一半，同时封装了几乎同样多的晶体管(666万个，而R600是7亿个)。AMD还为DX10.1更新了GPU，并增加了对PCI Express 2.0的支持，所有这些都足以淘汰HD 2000系列，并与主流的GeForce 8800 GT和其他更小的显卡竞争。

在缺乏高端GPU的情况下，AMD于2008年1月推出了两款双GPU显卡，以及基于预算的rv620 /635的显卡。HD 3850 X2在4月份上市，最后一张All-In-Wonder品牌显卡HD 3650在6月份上市。经过精心设计的驱动程序包，双GPU显卡立即引起了评论家和消费者的注意。HD 3870 X2轻松地成为最快的单显卡，而HD 3850 X2也没有慢多少。与Nvidia的SLI解决方案不同，AMD通过通用的ASIC为Crossfiring显卡建立了支持。

Radeon HD 3870 X2在单显卡中放置了两个GPU

在G80取得成功的基础上，英伟达于10月29日推出了8800 GT的G92，受到科技网站的广泛好评，这主要是由于其极具竞争力的价格。512MB显卡的价格介于199美元到249美元之间，性能优于基于G80的8800 GTS。它击败了HD 2900 XT和HD 3870，后者在GT推出三周后发布，通常在GTX的80％之内。不出所料，这导致在几周内短缺8800 GTS。对Nvidia的新竞争者及其8600 GS/GT同款的强劲需求，帮助该公司在年底前获得了71%的独立市场份额。

继GT之后，英伟达于12月11日推出了基于G92的8800 GTS 512MB。虽然GTS在性能上普遍落后于GT，但它的可取之处是使用了更好的内置GPU，在超频时基本上可以与GTX和价格不菲的8800 Ultra相媲美。

如果不添加不幸的后记，即在某些G86、G84、G73、G72/72M GPU、C51和MCP67显卡芯片组的BGA中使用高铅焊料，那么GeForce 8系列的故事就不完整。这与低温填充、冷却不足和冷热循环的密集状态有关，导致了过多的显卡故障。

如果说8系列是Nvidia的技术胜利，那么9系列将迎来一段停滞期。

Nvidia在2008年年中改用了AMD使用的日立(Hitachi)共晶(高锡)焊料，并显著改变了8800 GT冷却器的单槽参考设计，增加了更多风扇叶片，并调整了护罩，以促进更高的气流。G92也被怀疑受到填充不足问题的影响，尽管在8800 GTS 512M和非参考冷却器上的双槽设计似乎没有受到过度影响。

英伟达公司在此次事件中收取了4.759亿美元的费用，这导致英伟达笔记本电脑OEM厂商遭到了消费者的强烈反对。在这件事被公布于众之前，这两家厂商已经知道这件事有一段时间了。英伟达在业内的地位将永远与它的历史最低点联系在一起。

如果说8系列是英伟达的技术胜利，那么9系列则迎来了一段停滞期。该系列的亮点还包括2008年2月推出的首款型号。9600 GT是基于“新的”G94，这比前一年的G92削减了一点，建立在同样的65nm台积电工艺上。

AMD在HD 3870和HD 3850上的降价，以及英伟达8800 GS和GT的降价，使得9系的其余部分几乎完全处于品牌重塑的旗号之下。

最初的9800 GT是8800 GT重新定位，而8800 GTS（G92）则演变为9800 GTX。过渡到台积电的55nm工艺使G92的面积减少了20%，时钟频率也有了小幅度的提升，生产出9800 GTX+，同样的OEM GTS 150，以及在8系列卡推出15个月后进入零售渠道的GTS 250。

由于旗舰GT200的姗姗来迟，以及AMD的HD3870X2现在是单显卡军备竞赛的领头羊，英伟达采用了历史悠久的传统，即把两台9800 GT夹在一起，制造9800 GX2。虽然它赢得了基准测试赛，但大多数观察家很快注意到，以3个9800 GT的价格出售一个双9800 GT充其量只能说吸引力有限。

GTX 260板上的Nvidia G200 GPU

到6月，英伟达发布了带有GT200 GPU的GTX 260和GTX 280，这是一个576mm²的部件，代表了迄今为止最大的生产GPU芯片（英特尔的Larrabee估计为600-700mm²），也是台积电制造的最大生产芯片。

GT200重申了Nvidia希望通过将专用双精度(FP64)和计算硬件整合到设计中，将GPGPU推向聚光灯下的愿望。以游戏为导向的架构变化较为温和，但这并没有阻止Nvidia将280的价格定为649美元，也没有阻止该公司推出3D视觉(3D游戏和视频)驱动程序，以及3D快门眼镜和红外发射器——这是一个非常昂贵的软件包。

在HD 4870和4850上市后，价格大幅下跌，GTX 280下跌38%至400美元，GTX 260下跌25%至299美元。

AMD用RV770回应了GT200和G92。第一款卡是较低主流的HD 4730，于6月8日推出，紧随其后的是主流和性能市场HD 4850和4870。由于规格泄露，商店在NDA 到期前一周就开始销售HD 4850，这次发布已经失去了一定的影响力——这是现在的普遍现象，但在2008年却不那么普遍。

4870和4850成为第一个使用GDDR5内存的消费类显卡，Nvidia最终在18个月后使用基于GT215的GT240实现了这一功能。

HD4870和4850凭借其广泛的功能列表赢得了好评，包括7.1lpcm的HDMI声音、通用性能和多GPU扩展，当然还有价格。该卡的唯一缺点是，在参考板的电压调节部件上，会产生局部高温，这会导致不成比例的故障率和锁定，特别是在使用Furmark等老化软件时。

为了与上一代保持一致，也为了缩短GTX 280的两个月统治期，AMD在8月发布了HD 4870 X2。该显卡很快就在包括性能在内的大多数类别的评估基准图表中占据了首位，但由于参考鼓风机，该显卡还在噪音输出和热量生产类别中占据了一席之地。

Radeon HD 4870 X2（以上）和Radeon HD 4870

2009年1月，当GT200被转移到台积电的55nm工艺上时，英伟达的产品线只进行了一次增量调整。55nm在B3修订版芯片中得到了应用，去年9月，B3修订版芯片首次成为GTX 260的核心216版本。该公司推出了其GTX 295，其中包括两个削减（ROPs和内存总线）GT200-B3。

该显卡的单GPU变体在4月份以GTX 275的形式发布。AMD的回应也是如此:经过修订的rv790xt驱动的HD 4890和HD 4770 (RV740)，这也是AMD的第一张40nm显卡。

HD 4770本身并不是一款主要产品，但它给AMD带来了无法估量的经验，让AMD体验到了台积电陷入困境的40nm工艺，由于GPU裸片中金属层之间的连接不完整，导致电流泄漏的差异很大，缺陷率也很高。有了这些工作知识，AMD就能够改进Nvidia在其Fermi架构下面临的代工工艺问题——这些问题还没有出现在Nvidia最初的微型40nm GPU上。

英伟达在7月份推出了首款40nm产品。入门级的GT216和GT218以GeForce 205、210和GT220的形式出现，直到10月份后两款产品进入零售市场，它们都是OEM产品。它们只是作为Nvidia的第一张DX10.1卡而引人注目-AMD在HD 4870/4850上实现了这一点-并通过7.1音频，无损LPCM音频，Dolby TrueHD / DTS-HD / -HD-MA的比特流和HDMI音频提高了声音功能。该系列的目标是家庭影院市场，并最终于2010年2月更名为300系列。

在2009年9月到2010年2月的4个月里，AMD完成了从上到下的4个GPU(Cypress、Juniper、Redwood和Cedar)的全面发布，这4个GPU由Evergreen系列组成，首先是顶级的HD 5870，一周后是中高档的HD 5850。

由于供不应求，台积电陷入困境的40nm工艺打击了AMD利用英伟达Fermi No-Show的能力。这在很大程度上是由于AMD有能力将Evergreen的版本与Windows7同步，并采用了DirectX11。

虽然DX11花了一些时间来展示Evergreen的巨大价值，但HD 5000引入的另一个功能在Eyefinity上产生了立竿见影的效果。Eyefinity依赖于DisplayPort的灵活性，每个板上最多可以支持6个显示管道。它们被路由到一个约定DAC或内部TMDS发射机和显示端口的组合。

以前的显卡通常使用VGA、DVI和HDMI的组合，每个输出都需要一个专用的时钟源。这增加了GPU的复杂性、大小和pin数。DisplayPort否定了独立时钟的需要，为AMD在硬件中集成多达6个显示管道开辟了道路，而软件仍然负责提供用户体验。这包括边框补偿和跨越显示面板的最佳分辨率。

Evergreen系列成为了所有领域的领先者（除了纹理过滤问题），HD5850和HD5770吸引了大量注重成本的玩家，HD5870和双GPUHD5970提供了无与伦比的性能和效率。

6个月后的4月12日，Nvidia终于(soft)通过GTX 470和480发布了它的第一个Fermi板卡。公司的裸片没有一个是全功能的，就像下面的GF104一样，因此Fermi的核心速度是相当保守的，以抑制功率使用和内存带宽较低，因为Nvidia对GDDR5 I/O缺乏经验。

由于GF100 Fermi的芯片尺寸为529mm²，已经给AMD造成供应问题的台积电（TSMC）40纳米工艺的良率还达不到最佳水平。由于芯片尺寸，良率，功率要求和热量输出都密不可分，Nvidia的400系列与AMD的产品相比，在游戏性能上付出了高昂的代价。

Quadro和Tesla版的GF100在市场上几乎没有受到影响，如果有的话，这要归功于专业市场内部的一个现成的生态系统。此次发布没有让人失望的方面是引入了透明超级采样抗锯齿

(TrSSAA)，它将与现场覆盖采样AA (CSAA)一起使用。

虽然GTX 480的回应并不热烈，但英伟达的第二款Fermi芯片（GTX 460中的主流GF104）却取得了不朽的成功。它的性能很好，价格也很便宜，192bit/768MB的发行价格为199美元，256bit/1GB的发行价格为229美元。他们推出了大量的非参考和factory超频卡，由于Nvidia选择了保守的参考时钟来帮助降低功耗，因此有很大的超频空间。

460的积极反应部分源于GF100上市后的低预期。据推测，GF104的容量不超过GF100的一半，与AMD的Cypress GPU相比，其遭受的影响非常之大。这证明是错误的。当Nvidia在11月发布新版GF100，即GF110时，博客“专家”和AMD都感到了第二个惊喜。

升级后的芯片实现了之前的芯片无法实现的功能，即实现了整个芯片的功能。最终得到的GTX 570和580是最初400系列的预期值。

第一个AMD Northern Islands系列GPU Barts于10月问世。Barts是Evergreen的进一步发展，旨在降低Cypress裸片的生产成本。与大幅提升性能不同的是，该GPU的性能看起来与之前的HD 5830和HD 5850相当，但在GPU尺寸上大大节省了。AMD削减了流处理器(着色器)的数量，大修并减少了内存控制器的物理尺寸(以及相应的内存速度降低)，并取消了执行双精度计算的能力。但是，Barts确实在Evergreen上进行了细分升级。

虽然性能的提高并不显著，但AMD确实升级了显示技术的各个方面。DisplayPort被提升到1.2（从一个端口驱动多个监视器的能力，高分辨率显示器的120Hz刷新，以及比特流音频），HDMI被提升到1.4a（3D 1080p视频播放，4K屏幕分辨率），公司还增加了一个支持DivX的更新视频解码器。

AMD还通过引入形态抗锯齿（MLAA）改进了驱动程序特性集，这是一种后处理模糊过滤器，其功能（尤其是在启动时）非常成功或失败。

HD 6970和HD 6950的推出为具有EQAA（增强质量AA）的Catalyst驱动程序增加了传统的AA模式，而AMD还实现了对HD3D的支持，这一次使用PowerTune进行了动态功耗分析。

一般来说，Cayman部件要比第一代Fermi芯片好。他们本来应该胜过他们，但比第二代（GTX 500s）落后了几个百分点，而且随后两个阵营的driver版本增加了进一步的差异。

Cayman 11月的发布被推迟了一个月，HD6970和6950于12月15日发布，它代表了与VLIW5体系结构的（短暂）背离，而VLIW5体系架构自R300系列以来一直在使用。该公司转而使用VLIW4，它在每个流处理块中删除了第五个特殊功能（或Transendental）执行单元。

这是为了在DX9（及更早版本）游戏中撤回过多的资源，同时对图形管道进行更加面向计算的重组。

Trinity和Richland系列APU的集成显卡是VLIW4的唯一其他部件，而AMD最新的显卡体系结构基于GCN（Graphics Core Next），而VLIW5则作为入门级Evergreen GPU的品牌保留在HD 8000系列中。

参照GF100/GF110的进展，GTX 460的继任者——GTX 560 Ti——于2011年1月上市。基于GF114的显卡具有功能齐全的经过修订的GF104，并被证明与前代产品一样功能强大且用途广泛。在有和没有factory超频的情况下，它提供了无数的非参考解释。

作为回应，AMD立即降低了其HD6950和6870的成本，因此GTX560TI的价格/性能优势消失了，即使评论正在撰写中。随着许多董事会合作伙伴提供的邮寄回扣，HD6950——特别是1GB版本——的购买更加引人注目。

英伟达GeForce GTX 590参考板卡

2011年3月26日，英伟达(Nvidia)推出了第二款重要产品，这款产品一开始就引起了轰动。GTX 590将两个功能齐全的GF110整合到一个电路板上。这场公关风波几乎立刻就开始了。

这些电路板运行的驱动程序没有将功率限制到正确的程度，并且与允许高电压的BIOS配对。这种疏忽使得过电压开始吹mosfet。Nvidia用一个更加严格的BIOS和驱动程序来弥补这个问题，但是发布日的活动引发了一些尖刻的评论和至少一个流行的YouTube视频。GTX 590的性能与两周前推出的AMD自己的双卡HD 6990不相上下。

由于没有明确的基准测试胜利者，这些产品在论坛上引发了无休止的争论，从多GPU扩展、库存可用性、基准相关性、测试方法，到爆炸式的590。

从1月9日开始，AMD的北岛继承者，南岛，以旗舰HD 7970，开始了阶段性的发行计划。它是第一张PCI-E 3.0卡，也是第一个基于台积电28nm制程节点上的AMD GCN架构的芯片。仅仅三周后，7970又推出了第二张基于Tahiti的HD 7950显卡，2月15日，主流的Verde显卡也加入了这一行列。基于Pitcairn GPU的性能卡于一个月后的三月上架。

这些显卡很不错，但与之前的40nm主板相比，并没有提供惊天动地的游戏改进。再加上AMD自HD2000系列以来一直采用的价格标签竞争力较低，两个月内没有WHQL驱动程序和一个非功能视频编解码器引擎（VCE），这降低了许多潜在用户和评论家的热情。

Tahiti的一个好处是证实了AMD通过超频获得了许多尚未开发的性能。这是在功耗和热输出与时钟速度之间的权衡，但导致了一个保守的核心和内存频率。最大化产量的需要和对Nvidia基于Kepler的GTX680/670的低估，也可能已经进入了这个方程。

通过引入Kepler 架构，Nvidia继续在GPU中丰富其功能集。

在之前的几代中，Nvidia使用了最复杂的芯片来满足高端游戏社区，并开始了漫长的专业(Tesla/Quadro)模型验证过程。在最近的几代中，这种方法并没有给公司带来特别好的效益，这种方法在最近几代中并没有为公司提供特别好的服务，因此看起来较小的GK107和以性能为导向的GK104比糟糕的GK110获得了更多的优先权。

GK107可能是必需的，因为Nvidia有大量的OEM移动合同要履行，并且需要GK104用于高端台式市场。这两款GPU都以A2版本芯片的形式发布。Mobile GK107s (GT 640M/650M，GTX 660M)从2月份开始向OEM发货，并于3月22日正式宣布。同一天，Nvidia推出了基于GK104的GTX 680。

与Nvidia最近的GPU设计不同的是，着色器时钟的运行频率与内核频率相同。自从GeForce 8系列产品问世以来，Nvidia采用的着色器的运行频率至少是内核频率的两倍-高达9系列内核频率的2.67倍，是400和500系列产品的两倍。

这种变化的基本原理是基于Nvidia将重点(消费者台式/移动设备)从直接的性能转移到每瓦的性能效率。在并行工作负载中，以较慢速度运行的内核越多，其效率就越高，而以两倍频率运行的内核则越少。基本上，它是GPU和CPU范式(多核、低频率、高带宽和延迟相对于少核、高频率、低带宽和延迟)的改进。

减少着色器时钟还具有降低功耗的优势，而Nvidia通过大幅减少裸片可用的双精度单元，以及将总线宽度减少到更主流的256位，进一步节约了设计成本。这些变化以及动态提升功能（按需超频）增强了相对适中的基本核心速度，提供了更加均衡的产品-尽管以计算能力为代价。但是，如果Nvidia保留了Fermi的计算功能和带宽设计，那么它会因为生产大型的，热的，耗电的设计而被嘲笑。物理定律再次将芯片设计变成折衷的艺术。

英伟达再次生产了双GPU板。由于GK104改善了功率范围，因此GTX 690实际上是SLI中的两个GTX 680。唯一的区别是690的最大核心频率（boost）低于52MHz。尽管性能仍然是driver的SLI配置的一时冲动，但该卡的功能却是一流的，其美学价值堪比限量版。

GK 110与Nvidia通常的做法不同，Nvidia通常先在GeForce的旗帜下发布GPU。最初被视为Tesla K20的这张显卡被大量用于超级计算合同，其中超过22000张需要用于ORNL的Cray XK7 Titan、NCSA的Blue Waters、瑞士CSCS Todi和Piz Daint系统。

在GK110成为GeForce之前，消费者不得不等待6个月。被称为GTX Titan的数字型号的缺乏增强了Nvidia希望将显卡视为与现有（可能是随后的）Kepler系列分离的模型的愿望。Nvidia还扩大了对研究人员和专业人士的吸引力，因为它标志着该公司首次允许GeForce卡保留其专业的Tesla和Quadro显卡一样的计算功能。

英伟达GeForce GTX Titan

该卡迅速成为游戏基准测试中的佼佼者，尤其是在采用超级采样抗锯齿功能的多显示器分辨率中尤其明显。但是，Nvidia对OpenCL驱动程序的支持不多，以及最近与AMD的Gaming Evolved计划相结合的游戏产品的涌现，不仅抑制了Titan的冲击，而且还抑制了其高昂的价格。

6月份，AMD通过HD7970GHz版本推出了“我也是”（me too），其核心频率跃升了75MHz，并进一步提高了50MHz（与Nvidia提供的动态调整版本相对）。GHz版本代表了显卡可能应该在一月份开始的频率。GHz版表示显卡可能应该在一月份开始的频率。

不幸的是，对AMD来说，这个SKU的目标市场已经决定，标准型号通常能够通过以更低的价格和更低的核心电压超频获得相同（如果不是更好的话）的性能。AMD随后推出了HD7970GHz版本和HD7950增强版。

简而言之，PC显卡的现在和未来

到目前为止，2013年已经见证了Nvidia和AMD在PC显卡独立市场份额上的竞争，随着游戏开发和屏幕分辨率无法与集成显卡的跨越式发展相匹配，这一市场份额正在逐步缩小

2002年初，Intel占有14%的个人电脑图形市场份额。随着其极限显卡(830至865芯片组)的推出，该公司的份额上升到33%，然后是第三代和第四代DX 9芯片组的38%，现在是超过50%的DX10 GMA 4500系列。将GPU集成到CPU意味着Intel现在要负责60%的PC显卡的传输。

JPR：2012年第四季度GPU市场份额

对新显卡的需求在每一代产品中都越来越不明显。大多数游戏都是基于10年前的API (DX 9于2002年12月上市)，因此游戏中的图像增强功能已不再集中于GPU负载，而更多地关注于后处理过滤——即使是兼容dx11的下一代游戏机，这一点也不太可能改变。当光线追踪被证明是一个难以破解的难题时，依赖光栅化将会继续。

不幸的是，所有这一切都表明，除非游戏引擎发生根本性的变革，或者出现价格合理的超高分辨率显示器，否则硬件发烧友们在未来可做的事情将越来越少。不管未来几个月或几年的情况如何，请放心，我们将继续在TechSpot上回顾即将发布的GPU。

★ 点击文末【阅读原文】，可查看本文原链接。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2300期内容，欢迎关注。

★从财报看2019年的国产集成电路

★AI芯片的一些科普

★Arm芯片三十五年

中国半导体｜苹果｜封测｜蓝牙｜设备｜晶圆｜英伟达｜射频｜台积电

电脑装配网

GPU历史系列（四）：通用GPU的来临

人阅读 | 作者pangding | 时间：2023-06-13 16:49

相关文章