#显存管理 | 硅基能效

【硅基反常识】AI 为什么说到一半会“忘记”？揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出

📄 Abstract > 摘要： > 你是否遇到过这样的场景：与 AI 聊得正开心，它突然“失忆”了，甚至开始胡言乱语？这并非模型变笨了，而是它的大脑（显存）被塞满了。在端侧 LLM 推理中， KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时，调度器会触发 Paged...