LLM Attention Kernels and GPU Primitives:Attention Kernel 与 GPU 基元路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM attention kernel 与 GPU 基元系列索引:fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。
从绝对位置编码到 RoPE:位置为什么可以被旋转表示📅 2026年05月28日 · ☕ 10 分钟 · ✍️ k4i从 Transformer 的绝对位置编码讲起,逐步推导相对位置、复数旋转、欧拉公式与 RoPE 的关系。