LLM Attention Kernels and GPU Primitives:Attention Kernel 与 GPU 基元路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM attention kernel 与 GPU 基元系列索引:fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。
Online Softmax:为任意大行设计的分块算法📅 2026年04月21日 · 📝 2026年06月05日 · ☕ 5 分钟 · ✍️ k4ionline softmax 如何将融合 kernel 扩展到超过 SRAM 容量的行,使用数值稳定的两遍分块算法。
Triton 中的融合 Softmax📅 2026年04月20日 · 📝 2026年06月05日 · ☕ 5 分钟 · ✍️ k4i如何在 Triton 中编写融合 softmax kernel,消除冗余内存访问,性能超越 PyTorch 原生实现。