Gpu
Triton 中的融合 Softmax
· ☕ 5 分钟 · ✍️ k4i
如何在 Triton 中编写融合 softmax kernel,消除冗余内存访问,性能超越 PyTorch 原生实现。
Triton 中的融合 Softmax