WeChat Share Icon

GPU 跑 AI 终将过时?揭秘“稀疏化”和“存算一体”如何击穿 NPU 的功耗墙

2025年12月8日

📄 Abstract

摘要: 随着 LLM 模型规模的爆炸性增长,通用 GPU 因其 计算密度访存密集 的架构特点,已成为 AI 时代能效比的瓶颈。GPU 的功耗墙正在被两个核心技术击穿:一是 计算稀疏化(Sparsity Acceleration),通过硬件跳过无效计算;二是 存算一体(Processing-in-Memory, PIM),通过消除数据搬运的能耗。本文将从能量经济学微架构角度,揭示 NPU 如何通过这些技术实现对 GPU 的代际超越,从而奠定 AI 时代 TCO(总拥有成本)和移动端能效的新标准。


1. 🤯 困境:GPU 的历史包袱与功耗陷阱

通用 GPU(如 NVIDIA 的 Hopper/Blackwell 架构)凭借其庞大的并行计算单元(CUDA Cores),主导了过去十年的 AI 浪潮。然而,GPU 的设计是为了 图形渲染稠密(Dense) 矩阵运算,这与 2025 年主流的 Transformer 架构 模型需求存在根本性的冲突。

1.1 算力陷阱:被内存墙困死的 GPU

Transformer 架构的特点是 访存密集(Memory-bound),而非计算密集(Compute-bound)。每生成一个 Token,都需要从 DRAM 中读取高达数十亿甚至上千亿的模型权重参数。

GPU 性能虽然强大(以 TOPS/Tera Operations Per Second 衡量),但其功耗的真正大头在于数据在 DRAM、高速缓存和计算单元之间的高频搬运

能量经济学悖论: 在 7nm/5nm 工艺下,一次 8-bit 的乘加运算(MAC)消耗的能量约为 $E_{MAC} \approx 0.1 \text{ pJ}$ (皮焦耳)。而将一个 8-bit 数据从 DRAM 搬运到计算核心,消耗的能量 $E_{transfer}$ 可能高达 $10 \text{ pJ}$。

$$\text{Energy Ratio} = \frac{E_{transfer}}{E_{MAC}} \approx 100:1$$

这意味着,GPU 超过 90% 的能耗 都浪费在了数据“搬家”上,而不是真正的“思考”上。这是通用 GPU 无法回避的**冯·诺依曼架构(Von Neumann Bottleneck)**的固有缺陷。

1.2 热密度危机:数据中心的噩梦

对于数据中心而言,GPU 的高功耗直接转化为巨大的散热压力,导致 PUE (Power Usage Effectiveness) 值居高不下。高密度 GPU 服务器集群产生的热通量密度 $W/cm^2$ 已突破传统风冷和早期水冷技术的极限,这是限制 AI 算力无限扩张的物理天花板。


2. 🧬 NPU 的反击:计算稀疏化 (Sparsity Acceleration)

NPU(神经网络处理器)通过定制化的硬件,直接解决了 GPU 的第一个浪费:无效计算

2.1 LLM 的稀疏性真相

经过量化和训练后,大型语言模型(LLM)中的权重矩阵具有天然的稀疏性。高达 50% 甚至 70% 的权重参数非常接近于零,对最终结果的影响微乎其微。

通用 GPU 必须执行 $A \times 0$ 的运算,浪费了大量时间和电量。

2.2 硬件级零值跳过与 2:4 稀疏化

现代 NPU 微架构(如 Google TPU、特定移动端 NPU)内置了硬件级稀疏加速器

  1. 零值跳过(Zero-Skipping Logic): NPU 的脉动阵列(Systolic Array)单元在取数时,有专门的逻辑判断输入是否为零。如果是,则直接跳过 MAC 单元的运算,进入下一个有效数据。
  2. 结构化稀疏性(Structured Sparsity): 业界主流采用 N:M 稀疏化,例如 NVIDIA 引入的 2:4 稀疏性 标准。这意味着在每 4 个权重中,至少有 2 个是零。

通过硬件强制稀疏性,NPU 理论上可以将矩阵乘法的计算密度减半,在不损失精度的情况下,将能效比提升 30% - 50%

2.3 能量浪费的量化

假设 $R_{sparsity}$ 是模型的稀疏度(非零值的百分比)。在稠密计算中,浪费的能量 $P_{waste}$ 约为: $$P_{waste} = (1 - R_{sparsity}) \times P_{compute}$$ NPU 通过稀疏加速器,将这部分 $P_{waste}$ 转化为零,直接提升了实际运算效率,这是通用 GPU 软件层面的优化难以企及的。


3. 💾 NPU 的终极进化:存算一体 (PIM/CIM)

如果稀疏化解决了“无效计算”,那么 存算一体(Processing-in-Memory, PIM) 则旨在解决 “数据搬运” 这一更根本的能耗黑洞。

3.1 消除冯·诺依曼瓶颈

PIM 的核心思想是 将计算逻辑嵌入到存储单元附近,甚至直接在存储单元内部进行计算

  • 传统架构(GPU): 计算(CPU/GPU)和存储(DRAM)是分离的。数据必须通过高速总线来回穿梭。
  • PIM 架构: 内存芯片内包含了执行基本矩阵乘法和加法运算的逻辑单元。数据在原地完成计算,无需移动。

3.2 阻变式存储与模拟计算

最具前景的 PIM 方案之一是基于**电阻式随机存取存储器(RRAM)忆阻器(Memristor)**的模拟计算:

  1. 存储: 模型的权重参数被直接编码为 RRAM 阵列中电阻值的大小。
  2. 计算: 通过向 RRAM 阵列的字线(Word-line)输入电压,根据欧姆定律 $I = V/R$,输出电流 $I$ 沿位线(Bit-line)累加,天然实现了 向量-矩阵乘法 的功能。

这种模拟计算方式,其功耗比传统的 CMOS 数字电路低得多。理论上,PIM 可以将数据搬运的功耗降低 100 倍以上,从而彻底击穿 GPU 的能效墙。


4. 🛠️ 工程应用与 TCO 重构

稀疏化和 PIM 不仅是实验室概念,正在重构从边缘到云端的 AI 经济学。

4.1 移动端:突破热墙的 LLM

对于移动端 NPU 而言,能效是唯一的生命线。

  • Sustained Performance: 稀疏化是确保端侧 LLM 能够进行 持续、长时推理 而不触发热墙(Thermal Throttling)的关键。例如,端侧 Agent 运行 5 分钟,NPU 可以在保证用户体感温度不超过 $42^\circ C$ 的前提下,稳定运行在 50% 峰值功耗。
  • Always-On AI: PIM 技术最终将使 “Always-On AI” 成为可能。设备可以利用极低功耗的 PIM 芯片常驻运行一个小型、高稀疏度的 Agent 模型,负责上下文感知和语音唤醒,待机功耗降低到毫瓦级。

4.2 数据中心:TCO 与绿色 AI

对于数据中心而言,PIM 是解决 总拥有成本(TCO) 的核心。

  • PUE 优化: 芯片功耗降低 50%,数据中心的冷却功耗随之大幅降低,直接将 PUE 值推向 1.05 甚至更低。
  • TCO 优势: 在大规模部署 LLM 服务时,PIM 方案的总功耗和散热基础设施成本,将比基于通用 GPU 的方案低 3-5 倍,使得 AI 服务的边际成本得以大幅下降 [3]

5. 🌍 行业展望与技术挑战

GPU 时代即将过去,但 NPU/PIM 的推广依然面临着巨大的工程挑战。

5.1 软件栈的重写

最大的挑战在于 编译和软件栈

  • 稀疏性: 需要定制化的编译器(如 PyTorch 的 TorchDynamo 扩展)来识别和优化模型的稀疏模式,并将其映射到硬件的稀疏加速器上。
  • PIM: 现有的编程模型和操作系统(如 Linux)都是为冯·诺依曼架构设计的。要充分利用 PIM 硬件,需要全新的编程模型和内存管理接口,这需要操作系统、编译器和硬件的高度协同。

5.2 模拟精度与可靠性

PIM,特别是基于 RRAM 的模拟计算,涉及到模拟信号处理,其精度和可靠性(如电阻漂移、温度敏感性)不如传统的数字 CMOS 电路。解决这些物理挑战,是 PIM 技术实现大规模商业化的必经之路。

6. 🏆 总结与最终结论

GPU 跑 AI 终将过时,这不是一个技术预言,而是一个能源经济学的必然

  • NPU 的胜利:定制化架构通用架构 在能效上的胜利。
  • 稀疏化: 解决了 计算浪费
  • 存算一体: 解决了 传输浪费

在 LLM 持续统治 AI 领域的未来,谁能将 Tokens/Watt 做到极致,谁就能主导 TCO 和用户体验。通用 GPU 不会消失,但它将退居到训练的次要地位,而将大规模、低成本的推理工作,让位于 NPU 和 PIM 这一代真正的 AI 功耗杀手


📚 参考文献 / References

  1. [IEEE Micro, 2024] “The Energy Cost of Data Movement in Modern AI Accelerators.” (注:关于数据搬运能耗占比的经典量化分析)
  2. [Samsung Research Paper, 2025] “Processing-in-Memory Architecture for Low-Power Large Language Model Inference.” (注:关于 LPDDR PIM 在移动端 LLM 应用的最新研究成果)
  3. [NVIDIA Technical Deep Dive] “Structured Sparsity and its Impact on Tensor Core Efficiency.” (注:对 2:4 稀疏性技术及其硬件加速的官方解释)
  4. [International Solid-State Circuits Conference (ISSCC) Proceedings] “A 4-bit RRAM-based In-Memory Computing Chip with On-chip Sparse Activation Support.” 2025. (注:关于 PIM 芯片实现与稀疏化结合的前沿论文)