从绝对位置编码到 RoPE:位置为什么可以被旋转表示📅 2026年05月28日 · ☕ 10 分钟 · ✍️ k4i从 Transformer 的绝对位置编码讲起,逐步推导相对位置、复数旋转、欧拉公式与 RoPE 的关系。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · ☕ 14 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。