在这个阶段的标注中,openai在训练chatGPT时,针对相同的query(在大模型背景下即是prompt)会生成4-9个不同的答案,任意抽取两个答案交由标注人员评估相对优劣,这样根据排列组合原理,相同query根...
浏览 85 次 标签: 啥是RLFH标注、SFT标注、RM标注?一篇文章让你系统了解大模型标注