/// FILTER MODE ACTIVE

【硅基反常识】AI 为什么说到一半会“忘记”?揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出

12/15/2025

📄 Abstract > 摘要: > 你是否遇到过这样的场景:与 AI 聊得正开心,它突然“失忆”了,甚至开始胡言乱语?这并非模型变笨了,而是它的大脑(显存)被塞满了。在端侧 LLM 推理中, KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时,调度器会触发 Paged...

#LLM推理#NPU#显存管理#上下文窗口

【硬核工程】要在 10mW 内跑 AI?端侧模型的“瘦身”战争:量化、剪枝与 NPU 异构

11/27/2025

(专注移动端 SoC 能效架构与 AI 落地) 一、 摘要 (Abstract) 当 ChatGPT 在云端数据中心拥有数万张 H100 显卡、消耗着相当于一个小镇的电力时,移动端 AI 工程师正面临着截然不同的物理挑战。 我们没有无限的电网,只有一块容量受限的锂电池;我们没有强力的水冷...

#端侧模型#模型量化#剪枝#NPU