【硅基反常识】AI 为什么说到一半会“忘记”?揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出
12/15/2025📄 Abstract > 摘要: > 你是否遇到过这样的场景:与 AI 聊得正开心,它突然“失忆”了,甚至开始胡言乱语?这并非模型变笨了,而是它的大脑(显存)被塞满了。在端侧 LLM 推理中, KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时,调度器会触发 Paged...
📄 Abstract > 摘要: > 你是否遇到过这样的场景:与 AI 聊得正开心,它突然“失忆”了,甚至开始胡言乱语?这并非模型变笨了,而是它的大脑(显存)被塞满了。在端侧 LLM 推理中, KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时,调度器会触发 Paged...
📄 Abstract > 摘要: > 为什么搭载了顶级一英寸大底和 3nm AI 芯片的旗舰机,在抓拍或夜景时依然会出现“过曝”、“鬼影”甚至“白平衡漂移”?营销号归咎于厂商“负优化”,但电子工程师深知:这是 能耗预算(Energy Budget) 的崩塌。本文将揭秘按下快门的瞬间,ISP...
📄 Abstract > 摘要: > 随着 LLM 模型规模的爆炸性增长,通用 GPU 因其 计算密度 和 访存密集 的架构特点,已成为 AI 时代能效比的瓶颈。GPU 的功耗墙正在被两个核心技术击穿:一是 计算稀疏化(Sparsity Acceleration) ,通过...
(专注移动端 SoC 能效架构与 AI 落地) 一、 摘要 (Abstract) 当 ChatGPT 在云端数据中心拥有数万张 H100 显卡、消耗着相当于一个小镇的电力时,移动端 AI 工程师正面临着截然不同的物理挑战。 我们没有无限的电网,只有一块容量受限的锂电池;我们没有强力的水冷...