如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?

如果你使用商用大模型,或者使用开源大模型本地化部署,除了生成的质量之外,另外一个关键的指标就是生成token的速度。而且并不是简单的每秒生成多少个token,而是拆成了两个阶段:1.prefill:预填充,...