本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用

本文记录了多卡部署72B通义千问过程,将推理速度提到10token/s水平。_千问72b部署...