LLM Attention Kernels and GPU Primitives on k4i's blog

LLM Attention Kernels and GPU Primitives：Attention Kernel 与 GPU 基元路线

sky_io@outlook.com (K4i) — Fri, 05 Jun 2026 11:10:00 +0800

这个系列专门放 kernel 和 GPU 基元。它和推理引擎机制系列的区别是：机制系列解释“系统为什么需要这个优化”，这里解释“这个优化在 kernel 和内存访问层面如何实现”。

sky_io@outlook.com (K4i) — Tue, 21 Apr 2026 10:00:00 +0800

在融合 softmax 一文中，我们展示了将整行保持在 GPU SRAM 中可以消除冗余全局内存流量——将 softmax 的内存操作从 \(8MN\) 降至 \(2MN\)。这背后有一个关键假设：大小为 \(N\) 的每一行能放入 SRAM。

sky_io@outlook.com (K4i) — Mon, 20 Apr 2026 10:00:00 +0800

softmax 是深度学习中最常见的运算之一，出现在注意力机制、分类头，以及任何需要将向量归一化为概率分布的场景中。

对于长度为 \(N\) 的向量 \(x\)，softmax 函数定义为：