【硅基反常识】AI 为什么说到一半会“忘记”?揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出 12/15/2025 📄 Abstract > 摘要: > 你是否遇到过这样的场景:与 AI 聊得正开心,它突然“失忆”了,甚至开始胡言乱语?这并非模型变笨了,而是它的大脑(显存)被塞满了。在端侧 LLM 推理中, KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时,调度器会触发 Paged... #LLM推理#NPU#显存管理#上下文窗口 →