WeChat Share Icon

LLM (大语言模型)

2026年1月14日

[!NOTE] 基于 Transformer 架构的超大规模深度学习模型,推动了认知智能的质变。

💡 核心解析

LLM 在边缘侧(手机/端侧)的挑战主要在于‘内存墙’。一个 7B 参数的模型即使经过 INT4 量化,也需要占用近 4GB 的显存带宽。推理过程中的 KV Cache 增长更是会导致内存占用呈平方级上升。因此,端侧 LLM 的性能往往不取决于 NPU 算力,而取决于 LPDDR 内存的带宽和延迟。

📊 关键指标

  • Tokens/s: 每一秒模型能生成的词数
  • Prefill Latency: 首次响应时间
  • Context Window: 上下文窗口容量

🚀 硅基视角

2026 年的趋势是驱动‘模型蒸馏’与‘硬件协同’。当模型知道 NPU 的底层 Cache 长度时,生成的代码效率会提高一个量级。这正是苹果 A 系列芯片保持霸主地位的阳谋。


本条目由 GJNX AI 引擎自动挖掘并生成,旨在构建《硅基能效通识》知识体系。