关于啥是RLFH标注、SFT标注、RM标注？一篇文章让你系统了解大模型标注的资讯_啥是RLFH标注、SFT标注、RM标注？一篇文章让你系统了解大模型标注相关的资讯

2024-09-11 12:31:01

在这个阶段的标注中，openai在训练chatGPT时，针对相同的query(在大模型背景下即是prompt)会生成4-9个不同的答案，任意抽取两个答案交由标注人员评估相对优劣，这样根据排列组合原理，相同query根...