[!NOTE] 全称:Block,中文释义:页面。
💡 核心解析
该术语自动提取自深度专栏文章。
🚀 硅基视角
…不进去)。 PagedAttention 技术将 KV Cache 切分成一个个小的 Block(页面),分散存储在物理内存的各个角落。 优势: 内存利用率接近 100%。 风险: 当所有 Block 都用完时,必须进行 Swap (换页)。如果…
本条目由 GJNX AI 引擎自动挖掘并生成,旨在构建《硅基能效通识》知识体系。
[!NOTE] 全称:Block,中文释义:页面。
该术语自动提取自深度专栏文章。
…不进去)。 PagedAttention 技术将 KV Cache 切分成一个个小的 Block(页面),分散存储在物理内存的各个角落。 优势: 内存利用率接近 100%。 风险: 当所有 Block 都用完时,必须进行 Swap (换页)。如果…
本条目由 GJNX AI 引擎自动挖掘并生成,旨在构建《硅基能效通识》知识体系。