sequenceDiagram
    participant Generate as 生成循环
    participant Model as 模型主体
    participant Decoder as 解码层
    participant Attention as 注意力层
    participant Cache as KVCache

    Generate->>Model: 输入token+缓存
    Model->>Decoder: 传递缓存
    loop 每层处理
        Decoder->>Attention: 传递缓存+层索引
        alt 使用缓存
            Attention->>Cache: 获取历史K/V
            Cache-->>Attention: 返回历史K/V
            Attention->>Attention: 拼接当前K/V
            Attention->>Cache: 追加当前K/V
        else 无缓存
            Attention->>Attention: 全量计算
        end
        Attention-->>Decoder: 输出+更新标志
    end
    Decoder-->>Model: 层输出
    Model-->>Generate: 输出logits+更新缓存

结语

思维的碰撞,往往诞生于一场积极的交流;智慧的火花,常在热烈的讨论中闪耀。如果您在这片文字的海洋里,找到了共鸣或产生了独特的见解,不妨在评论区留下您的声音。我珍视每一位读者的思考,期待与您一同构建一个充满活力的思想社区。
同时,为了不错过更多精彩内容和深度交流的机会,也欢迎大家加入我:

无论是评论区的畅所欲言,还是在各个平台上与我们并肩同行,都将是推动我不断前行的动力。ByteWyrm,因您的参与而更加精彩!