强化学习阶段的数据服务，今年有何进展或者变化？_留香岁月

个人资料

微博

正文字体大小：大中小

强化学习阶段的数据服务，今年有何进展或者变化？

(2024-10-20 09:30:05)

分类：行业主题

目前来看，随着各大模型的陆续上线，强化学习环节的整体数据需求在逐渐攀升，并在具体标注任务上呈现如下趋势：

（1）逐渐向更多垂类拓展（例如，法律、金融、医疗）；

（2）强化学习标注的评价/评分指标变得更为丰富，会要求标注人员从更多维度对模型的问答进行评判和打分；

（3）由单模态向多模态转变：23年主要的标注需求集中在文本类标注，今年开始逐步向多模态拓展（例如，文本-视频、文本-图像等）。

大模型领域的数据标注是否用到了自动化的方式？

目前来看，大模型领域的标注任务主要集中在SFT（有监督微调）、以及RLHF（强化学习）等环节，具体标注方式包括分类、改写、评分、创作等，以上标注类型均主要依赖人工进行标注，需要标注人员对问题或答案的质量、类型等进行逐一判断或拟写，目前部分项目已经引入了算法自动化预标注策略来提升人工标注与校对的效

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report