为什么GPU性能效率比峰值性能更关键_检测资讯

为什么GPU性能效率比峰值性能更关键

嘉峪检测网 2025-03-13 12:30

在评估 GPU 性能时，通常首先考察三个指标：图形工作负载的纹理率（GPixel/s）、浮点运算次数（FLOPS）以及它们能处理计算和AI工作负载的每秒 8-bit tera 运算次数（TOPS）。这些关键数据，结合面积数据、功耗估算和通用功能集，帮助 SoC 设计师比较不同系统配置的性能。

然而，这些指标仅提供了理论性能，并不总是能够很好地反映实际性能。没有任何 GPU 能够始终以100%的利用率运行，因此下一步是探索GPU在实际应用中的特定工作负载性能，通常以每秒帧数（FPS）来衡量，并考虑整体GPU利用率。像Manhattan和Aztec这样的基准测试为实际图形性能提供了一个有用的指南（尽管它们本身并不能完全代表典型的应用程序）。

通常在这个阶段，不同的GPU架构会产生令人惊讶的结果。那些更擅长将理论性能转化为实际性能的架构会脱颖而出，提供远高于其标称TFLOPS预期的帧率（FPS）。

为什么FPS/TFLOPS很重要？

通常来说，具有更高TFLOPS的GPU需要更大的硅片面积和更高的功耗。如果一个较小的GPU能够提供与理论上更强大的GPU相同的实际性能，设计师就需要选择：要么以更低的成本提供相同的性能，要么保持成本不变但将额外的性能或效率交给最终用户。

基于此，理解GPU的性能效率是了解GPU在终端设备中表现的重要部分。

Imagination 的 PowerVR 架构经过数十年的优化，已成为市场上性能最为高效的嵌入式 GPU IP。本文将概述关键的硬件和软件优化，帮助 Imagination 的 GPU 实现比竞争对手的嵌入式产品高出两倍的 FPS/TFLOPS 性能。

1. 大容量、响应迅速的寄存器存储

Imagination GPU 的每个算术逻辑单元（ALU）内都有非常大的寄存器存储，一般为 512KB，通常是竞争对手嵌入式 GPU 设计的两倍。这使得工作负载可以避免从主GPU内存进行长时间的加载/存储操作，这些操作可能会延迟处理工作，从而对GPU利用率和效率产生负面影响。

ALU中的寄存器体设计得允许同时访问多个寄存器。这意味着在每个周期中，ALU内的多个单元都可以执行任务。例如，FP32操作可以与复杂操作并行处理，而无需排队等待内存访问。大多数其他嵌入式GPU架构在寄存器访问方面存在限制，这会导致数据需要额外的周期来获取，从而造成处理停滞。

Imagination GPU设计可同时处理多个工作负载。这意味着当需要进行加载/存储时，可以通过替代操作填补处理暂停，从而有效避免延迟问题。

2. 专用模块卸载主ALU工作

Imagination 的ALU包含多个固定功能块，使 GPU 能够将冗长的任务（如地址计算）从主ALU 卸载，从而使它们可以自由处理一般工作负载。相比之下，大多数其他嵌入式 GPU 提供商通过 INT32 ALU模拟地址计算和复杂任务，降低了整体 GPU 性能效率。

3. 整体 GPU 架构效率

由于其延迟渲染技术，PowerVR架构自问世以来一直是GPU效率的领导者。在流水线的早期阶段，Imagination GPU 会全面分析每一帧，确定哪些片段是可见的，并仅处理用户可以看到的部分。通过尽早移除不必要的操作，Imagination GPU降低了功耗并提高了性能效率。其他嵌入式GPU架构仍然处理比必要更多的片段，浪费宝贵的计算资源和带宽，从而需要更多功耗。

4. 软件最大化GPU利用率

虽然我们主要从图形角度讨论性能效率，但上述内容同样适用于计算和 AI 应用。为了进一步提高 AI 工作负载的性能效率，Imagination 提供了一套高度优化的计算库（imgNN、imgBLAS、imgFFT），用于常见的运算操作，使程序员能够最大化 GPU 利用率。

所有这些特性的结果不言而喻。在下图的所有图形工作负载中，Imagination GPU 的 FPS/TFLOPS超过了同等面积的嵌入式竞争对手设计。在某些情况下，性能效率是其他GPU的两倍。

图注：基于Imagination内部数据。所有竞争设备以低时钟频率运行，以避免主机 CPU 和系统瓶颈，以便更纯粹地了解竞争 GPU 的能力。

GPU性能在所有细分市场上都在蓬勃发展，不仅用于图形体验，在 AI 时代，还将其用作灵活的并行计算处理器。硬件设计师有两种选择来提供这种额外的性能：一种是简单地构建一个具有更高理论TFLOPS的GPU；另一种选择是选择一个理论TFLOPS较低但高性能效率的 GPU。

来源：Imagination Tech

​为什么GPU性能效率比峰值性能更关键

相关新闻：

为什么GPU性能效率比峰值性能更关键