Attention

LLM attention kernel 与 GPU 基元系列索引：fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。

从 Transformer 的绝对位置编码讲起，逐步推导相对位置、复数旋转、欧拉公式与 RoPE 的关系。