Chunked Prefill:把 Prefill 切片,保护 Decode 延迟
· ☕ 7 分钟 · ✍️ k4i
把长 prompt 的 prefill 拆成多个调度迭代,可以避免 decode 请求被长时间阻塞,同时不增加 FLOPs,IO 开销也几乎可以忽略。
用Vscode和Cmake创建一个简单的qt应用,以后可以当成qt应用的模板使用
模板代码放在github.com/sky-bro/Qt-Cmake-Example
准备用qt写一个简单的fq/代理软件,叫做SocksAB,分为服务端Socks-Bob和客户端Socks-Alice两个部分。
程序源代码托管在github.com/sky-bro/SocksAB
本教程展示如何搭建clusterfuzz进行本地测试,教程使用的clusterfuzz版本为v2.0.1 (推荐总是使用最新的release版本)。
我的clusterfuzz将搭建在ubuntu18.04 docker容器中。最后提供一个dockerfile作为参考,下面内容基本是将dockerfile中的步骤一步步展开