博客快捷键

Shift

K

关闭快捷菜单

Shift

A

打开控制台

Shift

M

播放/暂停音乐

Shift

L

打开友链

Shift

R

申请友链

Transformer LLM

Transformer—KVCache详解

2025-08-13T04:16:10.000Z2025-08-13T04:16:10.000Z4391 分钟

sequenceDiagram
    participant Generate as 生成循环
    participant Model as 模型主体
    participant Decoder as 解码层
    participant Attention as 注意力层
    participant Cache as KVCache

    Generate->>Model: 输入token+缓存
    Model->>Decoder: 传递缓存
    loop 每层处理
        Decoder->>Attention: 传递缓存+层索引
        alt 使用缓存
            Attention->>Cache: 获取历史K/V
            Cache-->>Attention: 返回历史K/V
            Attention->>Attention: 拼接当前K/V
            Attention->>Cache: 追加当前K/V
        else 无缓存
            Attention->>Attention: 全量计算
        end
        Attention-->>Decoder: 输出+更新标志
    end
    Decoder-->>Model: 层输出
    Model-->>Generate: 输出logits+更新缓存

结语

思维的碰撞，往往诞生于一场积极的交流；智慧的火花，常在热烈的讨论中闪耀。如果您在这片文字的海洋里，找到了共鸣或产生了独特的见解，不妨在评论区留下您的声音。我珍视每一位读者的思考，期待与您一同构建一个充满活力的思想社区。
同时，为了不错过更多精彩内容和深度交流的机会，也欢迎大家加入我：

📣 微信公众号 ‘ByteWyrm’
📡 RSS订阅

⚠️ 引用站外地址，不保证站点的可用性和安全性，慎重点

RSS订阅

ByteWyrm's Blog的RSS订阅
🐙 GitHub

⚠️ 引用站外地址，不保证站点的可用性和安全性，慎重点

Github世界

ByteWyrm's Github
🤝 友链申请

⚠️ 引用站外地址，不保证站点的可用性和安全性，慎重点

友链申请

ByteWyrm's Blog友链申请

无论是评论区的畅所欲言，还是在各个平台上与我们并肩同行，都将是推动我不断前行的动力。ByteWyrm，因您的参与而更加精彩！

ByteWyrm

零基础入门KVCache，深入浅出讲解Transformer核心模块的工作原理，包括KVCache的原理、实现和优化等。

赞赏作者

Thanks for your appreciation. / 感谢您的赞赏

微信
支付宝

Because of your support, I realize the value of writing articles. / 由于您的支持，我才能够实现写作的价值。

本文是原创文章，采用CC BY-NC-SA 4.0协议，完整转载请注明来自ByteWyrm's Blog

Transformer7 LLM7

喜欢这篇的人也看了

随便逛逛

Transformer—嵌入层详解

Transformer—多头自注意力机制详解

Transformer—门控多层感知机详解

Transformer架构介绍

评论评论协议

全部分类

全部标签

申请友链

音乐已暂停