[!NOTE] 专门为加速神经网络矩阵运算设计的专用处理器,是移动设备 AI 能力的基示。
💡 核心解析
不同于通用 CPU 的串行逻辑或 GPU 的大规模并行图形渲染,NPU 的核心架构是乘累加(MAC)单元阵列。它通过高度优化的‘数据流’架构减少了对内存的频繁访问。现代 NPU 普遍引入了‘稀疏化加速’(Sparse Acceleration)技术,能够自动跳过神经网络中权重为零的运算,从而将实测功耗降低 30% 以上。
📊 关键指标
- TOPS/W: 每瓦算力回报,移动端 NPU 的核心考核点
- MAC Utilization: 矩阵运算单元的利用率
- Bit-width: 支持的精度(如 INT4/INT8/FP16)
🚀 硅基视角
NPU 的出现标志着通用计算时代的终结。在硅基能效视角下,NPU 实际上是通过‘牺牲通用性’来换取‘极致能效’,是摩尔定律失效后的必然选择。
本条目由 GJNX AI 引擎自动挖掘并生成,旨在构建《硅基能效通识》知识体系。