主流的大模型都是基于Transformer架构,其核心是注意力(Attention)机制,简单说就是计算softmax(qk^T)*v推理会分成prefill和decoding两个阶段。_基于大模型推理游...
浏览 91 次 标签: AI大模型推理过程和优化技术