WeChat Share Icon

【深度观察】2025 终局之战:高通 Gen 5 vs 天玑 9500,谁真正跑通了“AI Agent”的最后一公里?

2025年11月28日

(专注移动端 SoC 能效架构与 AI 落地)

一、 摘要 (Abstract)

时间拨回到两年前,我们还在讨论“手机能不能跑通 Llama”。而站在 2025 年 11 月的今天,随着骁龙 8 Gen 5天玑 9500 的正式发布,移动端 AI 终于跨过了“能用”的门槛,进入了**“好用”**的深水区。

如果说 2024 年是“生成式 AI (AIGC)”的元年,那么 2025 年无疑是**“行动式 AI (Actionable AI)”**的分水岭。两家芯片巨头不约而同地将 NPU 算力推向了 120 TOPS 的恐怖量级,但算力的堆砌已不再是胜负手。

现在的核心冲突在于:AI Agent(智能体) 带来的 MoE 架构碎片化访存长上下文 KV Cache 爆炸,正在击穿传统 SoC 的功耗防线。本文将立足当下的全新视角,深度拆解两大巨头如何通过架构重构软硬协同,争夺下一个五年的移动计算定义权。


二、 困境:从“会说话”到“会做事”的能效塌方 (The Dilemma)

在 2024 年,用户对 AI 的期待还是“帮我写个周报”或“画个头像”。对于 SoC 来说,这只是一个单次推理 (Single Turn Inference) 任务,跑完即停,散热压力可控。

但到了 2025 年底,用户的胃口被 GPT-5o 养刁了。我们要的是一个能“全天候待命、记住我所有习惯、并帮我自动操作 App”的 Personal Agent。这种需求的变化,给底层硬件带来了两个灾难性的挑战:

1. MoE 架构带来的“访存噩梦”

为了在端侧实现媲美云端的智商,端侧大模型已全面转向 MoE (Mixture of Experts,混合专家) 架构。

  • 以前 (Dense模型): 就像一支整齐划一的军队,数据整块读取,计算连续,DRAM 效率极高。
  • 现在 (MoE模型): 就像一支特种小分队。处理一个请求,只需要激活 10% 的参数(专家)。但问题在于,这 10% 是随机分布的

    数据支撑: 在运行 20B 参数的 MoE 模型时,DRAM 的随机读取 (Random Read) 频率比 Dense 模型高出 5 倍。这导致 DDR5 的有效带宽利用率从 85% 暴跌至 40%,功耗却没降。

2. 长上下文引发的“KV Cache 爆炸”

要让 Agent 记住你上个月的聊天记录并订今天的餐厅,Context Window (上下文窗口) 必须从 8k 扩展到 32k 甚至 128k。

  • 物理瓶颈: 在 Transformer 架构中,KV Cache(键值缓存)的大小与上下文长度成线性正比。处理 32k 上下文,仅 KV Cache 就需要占用 4GB - 6GB 的显存。
  • 后果: 加上系统占用和 App 占用,手机标配的 16GB 内存瞬间捉襟见肘。一旦发生内存交换 (Swap),AI 响应速度就会从“毫秒级”掉到“秒级”。

结论: 2025 年的能效战争,本质上是一场**“内存保卫战”**。

三、 核心架构:殊途同归的“大模型瘦身” (The Core Architecture)

面对 MoE 和 KV Cache 的双重夹击,高通和联发科在 2025 年交出了截然不同的答卷。

1. 高通 (Qualcomm):Oryon CPU 的“救火”与 UDC 架构

在骁龙 8 Gen 5 上,我们惊讶地发现,CPU 重新回到了 AI 舞台的中心。高通不再执着于把所有任务都塞给 NPU,而是走了一条混合异构的路线。

  • CPU 负责“调度”,NPU 负责“计算”: 高通利用第二代 Oryon CPU 的超强单核性能,专门负责 MoE 模型的Gating Network (门控网络) —— 即决定“派哪个专家干活”。CPU 算得快,就能更快地预取数据,掩盖 NPU 的等待时间。

  • UDC (Universal Data Center) 统一内存架构: 这是 Gen 5 最大的杀手锏。高通彻底打通了 CPU、GPU 和 NPU 的虚拟地址空间,实现了物理层面的 Zero-Copy (零拷贝)

    技术细节: 以前 CPU 处理完数据传给 NPU,需要拷贝一份到 NPU 专用内存。现在,三者共享同一块物理 KV Cache。这使得 32k 长上下文的显存占用硬生生减少了 40%,让 12GB 内存的“乞丐版”手机也能跑大模型。

2. 联发科 (MediaTek):SRAM 堆料狂魔

天玑 9500 则展现了“堆料狂魔”的暴力美学。既然 DRAM 慢,那我就不用 DRAM

  • 64MB 系统级缓存 (SLC): 传闻已久的 64MB 超大 SRAM 终于落地。联发科的策略非常直接:MoE 模型虽然总参数大,但**常用的“专家”**其实很集中。天玑 9500 利用一套全新的预测算法,将最热的 20% 专家常驻在片上 SRAM 中。

    效果: 这种“SRAM 豪宅”策略,使得 80% 的 AI 推理请求根本不需要访问外部内存,能效比提升了惊人的 300%

  • 硬件级 Speculative Decoding (投机采样): 天玑 9500 的 APU 790 固化了投机采样算法。它用一个小模型“猜”接下来的 5 个词,大模型只负责“验”。如果猜对了,生成速度直接翻 5 倍。这种软硬结合的设计,让天玑在 Token 生成速度上略胜一筹。

四、 落地实战:生态的“护城河” (Engineering Challenges)

硬件只是基础,2025 年的决胜点在于:谁能搞定第三方 App?

用户的需求是:“帮我把微信里的会议纪要整理发邮件”。这涉及到跨 App 的Function Calling (函数调用)

  • 高通的“Agent SDK”: 高通延续了其 PC 端的优势,联合微软推出了标准的 Agent Interface。只要 App 开发者接入这个 SDK,高通的 NPU 就能理解该 App 的 UI 结构和按钮功能。目前,Meta (Instagram/WhatsApp) 和 Adobe 都已深度适配。高通正在试图建立 Android 世界的“AI 统一语言”。

  • 联发科的“LoRA 商店”: 联发科则走了一条更亲民的路线——On-Device LoRA。 他们认为,让每个 App 重写代码太难了。于是他们提供工具,让开发者只需训练一个几 MB 的 LoRA 插件(比如“大众点评 LoRA”、“美团 LoRA”),挂载到天玑底座大模型上。这种“插件化”的方案,对中小型开发者极度友好,生态铺开速度极快。


  • 端侧训练 (On-Device Training) 初露端倪: 既然是 Personal Agent,就需要越用越懂你。骁龙 8 Gen 5 已经开放了轻量级训练 API,允许手机在夜间充电时,利用闲置算力微调 (Fine-tune) 那个属于你自己的 LoRA。这标志着手机从此不再只是推理机,而是变成了训练机。

  • PC 与手机的边界消融: 2025 年,搭载高通 X Elite Gen 2 的笔记本和搭载天玑 9500 的平板,在 AI 算力上已经完全拉平。未来的竞争是**“个人算力中枢”**的争夺。你的手机,就是你的眼镜、手表、甚至汽车的“云端”。


六、 结语 (Conclusion)

站在 2025 年的尾巴上回望,我们会发现,单纯堆砌 TOPS 的时代已经彻底结束。

骁龙 8 Gen 5天玑 9500 的对决,不再是跑分软件上的数字游戏,而是看谁能更优雅地处理长记忆稀疏计算跨应用生态

高通选择了**“做架构”,用统一内存和 SDK 试图一统天下;联发科选择了“做工程”**,用大缓存和 LoRA 插件解决实际痛点。

对于我们电子工程师而言,这意味着我们的工作重心从“把模型塞进去”,变成了“让模型动起来”。AI Agent 时代,能效依然是王道,但这个“效”,从计算效率升维到了交互效率

互动话题: 2025 年了,你的手机 AI Agent 现在能帮你做的最复杂的一件事是什么?是自动帮你抢票,还是自动帮你回复老板的消息?


七、 参考文献 (References)

  1. [Qualcomm Summit] “Snapdragon 8 Gen 5 Technical Brief: Unified Memory & Agentic AI.” (October 2025).
  2. [MediaTek Whitepaper] “Dimensity 9500 Architecture Deep Dive: Hardware Acceleration for MoE and Speculative Decoding.” (November 2025).
  3. [Google DeepMind] “Mixture-of-Depths: Dynamically allocating compute in transformer-based language models.” (Tech foundation for 2025 stacks).
  4. [IDC Forecast] “AI Smartphone Market Share & Agent Adoption Rates 2025-2028.”