关于如何评判大模型的输出速度？首Token延迟和其余Token延迟有什么不同？的资讯_如何评判大模型的输出速度？首Token延迟和其余Token延迟有什么不同？相关的资讯

2024-08-26 11:01:02

如果你使用商用大模型，或者使用开源大模型本地化部署，除了生成的质量之外，另外一个关键的指标就是生成token的速度。而且并不是简单的每秒生成多少个token，而是拆成了两个阶段：1.prefill：预填充，...