/// FILTER MODE ACTIVE

#NPU

【硅基反常识】AI 为什么说到一半会“忘记”？揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出

📄 Abstract > 摘要： > 你是否遇到过这样的场景：与 AI 聊得正开心，它突然“失忆”了，甚至开始胡言乱语？这并非模型变笨了，而是它的大脑（显存）被塞满了。在端侧 LLM 推理中， KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时，调度器会触发 Paged...

📄 Abstract > 摘要： > 为什么搭载了顶级一英寸大底和 3nm AI 芯片的旗舰机，在抓拍或夜景时依然会出现“过曝”、“鬼影”甚至“白平衡漂移”？营销号归咎于厂商“负优化”，但电子工程师深知：这是能耗预算（Energy Budget）的崩塌。本文将揭秘按下快门的瞬间，ISP...

📄 Abstract > 摘要： > 随着 LLM 模型规模的爆炸性增长，通用 GPU 因其计算密度和访存密集的架构特点，已成为 AI 时代能效比的瓶颈。GPU 的功耗墙正在被两个核心技术击穿：一是计算稀疏化（Sparsity Acceleration），通过...

(专注移动端 SoC 能效架构与 AI 落地) 一、摘要 (Abstract) 当 ChatGPT 在云端数据中心拥有数万张 H100 显卡、消耗着相当于一个小镇的电力时，移动端 AI 工程师正面临着截然不同的物理挑战。我们没有无限的电网，只有一块容量受限的锂电池；我们没有强力的水冷...