【硅基反常识】AI 为什么说到一半会“忘记”？揭秘 LLM 推理中的 NPU 内存抢占与上下文溢出

📄 Abstract

摘要： 你是否遇到过这样的场景：与 AI 聊得正开心，它突然“失忆”了，甚至开始胡言乱语？这并非模型变笨了，而是它的大脑（显存）被塞满了。在端侧 LLM 推理中，KV Cache 的增长速度远超想象。当 NPU 的显存池耗尽时，调度器会触发 PagedAttention 的“页面置换” 或强制 Token 丢弃。本文将揭示这种物理层面的“记忆清洗”如何导致了逻辑层面的“上下文溢出”。

1. 🤯 困境：为什么聊久了，AI 就变成了“金鱼记忆”？

2025 年，端侧大模型（如 Gemini Nano 3.0, Llama 4-Mobile）已经标配了 128K 甚至 1M 的上下文窗口。理论上，它应该记得你三天前说的每一句话。但现实是，当你连续对话超过 20 轮，或者让它阅读一份 50MB 的 PDF 后，它往往会忘记开头设定的规则，甚至在生成长文本时突然中断。

虽然模型支持 128K 上下文，但这只是算法上限。物理上限由你的**手机内存（RAM）**决定。一个 7B 模型，每生成一个 Token，都需要消耗显存来存储 KV Cache。当对话变长，KV Cache 会像滚雪球一样指数级吞噬内存。一旦达到系统设定的 Memory Limit（内存红线），OS 会毫不留情地介入，强制回收内存。AI 的“失忆”，其实是系统为了防止手机死机而执行的 OOM (Out of Memory) 保护机制。

2. 🌡️ 核心原理：KV Cache 的爆炸与显存抢占

要理解 AI 的记忆，必须理解 Transformer 的推理机制。AI 不是把看过的书背下来，而是把当前的对话转化为 Key-Value (KV) 矩阵 存起来。

2.1 KV Cache：昂贵的短期记忆

对于每一个输入的 Token，模型都会计算出一组 Key 和 Value 向量。 $$Memory_{KV} = 2 \times \text{Layers} \times \text{Heads} \times \text{Dimension} \times \text{Precision} \times \text{Context Length}$$

以一个标准的 7B 模型（FP16精度）为例：

1k Context: 占用约 0.5GB 显存。
32k Context: 占用飙升至 16GB。
128k Context: 需要 64GB 显存！

在手机只有 12GB 或 16GB 统一内存（Unified Memory）的情况下，留给 KV Cache 的空间极其有限（通常只有 2GB - 4GB）。

2.2 投机采样 (Speculative Decoding) 的代价

为了让 AI 说话更快，NPU 通常开启 投机采样：一个小模型先快速猜出后面 5 个词，大模型再来验证。但这需要同时维护两个模型的 KV Cache，瞬间内存压力加倍。当系统检测到内存吃紧，它会立刻杀掉“投机”线程，导致 AI 生成速度突然变慢（卡顿），甚至因为状态同步失败而导致逻辑断层（幻觉）。

3. ⚙️ 核心架构：PagedAttention 与“滑动窗口”的妥协

为了在有限内存里塞进更多对话，工程师们引入了类似操作系统的 虚拟内存管理技术。

3.1 PagedAttention：把记忆切碎

传统的 KV Cache 必须占用连续的显存块，容易造成内存碎片（明明有空余内存，但塞不进去）。 PagedAttention 技术将 KV Cache 切分成一个个小的 Block（页面），分散存储在物理内存的各个角落。

优势： 内存利用率接近 100%。
风险： 当所有 Block 都用完时，必须进行 Swap (换页)。如果手机的闪存（Swap 分区）读写速度跟不上 NPU 的计算速度，AI 就会像断电一样突然卡住。

3.2 滑动窗口 (Sliding Window) 与驱逐策略

当显存彻底耗尽时，系统必须执行 驱逐（Eviction） 策略：

FIFO (先进先出): 扔掉最早的对话。这就是为什么 AI 记得你刚才说的话，却忘了开头设定的“你是一个物理学家”。
Attention Sink (注意力汇聚点): 这是一个反直觉的发现。只要保留开头的前几个 Token（通常是 Prompt）和最近的 Token，AI 就能保持基本的逻辑连贯性。系统会“手术刀式”地切除中间的对话记录。

当中间的关键信息（比如“我不吃香菜”）被驱逐后，AI 在检索记忆时发现这部分是空的，于是它开始基于概率进行 “脑补”。这就是用户看到的“一本正经胡说八道”。

4. 🌍 行业展望：端侧 AI 的“记忆革命”

为了解决“金鱼记忆”，行业正在探索新的方向。

无限上下文架构 (Infini-attention): Google 和 DeepMind 正在研究将长期记忆压缩成一种 “神经存储向量”，而不是原始的 KV Cache。这样，几本书的内容可以被压缩到几 MB 的空间里。
混合存储 (Tiered Memory): 利用 CXL 技术或超高速 SSD，构建 DRAM-Flash 混合寻址。允许 KV Cache 溢出到闪存中，虽然速度稍慢，但容量几乎无限。

5. 🏆 总结与互动：物理空间决定思维广度

5.1 最终结论 (Final Thesis)

AI 的“遗忘”不是软件 Bug，而是 物理内存空间的刚性约束。只要 DRAM 的容量和带宽没有质的飞跃，端侧大模型的长窗口体验永远是在“丢包”和“压缩”中寻找平衡。内存的大小，决定了 AI 灵魂的厚度。

5.2 【硅基问答】

你愿意为“不遗忘的 AI”付出什么代价？

请在评论区投票：

A. 加钱党： 下台手机我一定买 24GB 甚至 32GB 内存版本，哪怕贵 1000 块，也要让 AI 满血记忆。

B. 云端党： 手机存不下就传到云端算吧，我不在乎隐私，只在乎它别忘了我说过啥。

📚 参考文献 / References

[vLLM Team Research] “PagedAttention: Efficient Memory Management for Large Language Model Serving with KV Cache Sharing.” (注：关于 PagedAttention 技术的开山之作)
[Qualcomm AI Research] “Quantizing KV Cache for Efficient LLM Inference on Mobile Devices.” (注：关于移动端 KV Cache 量化压缩的工程实践)
[MIT CSAIL] “StreamingLLM: Efficient Streaming Language Models with Attention Sinks.” (注：关于滑动窗口和注意力汇聚点的理论基础)