昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜
09-14 14:03 来源:csdn 阅读(328)

昆仑万维宣布发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。


奖励模型在大语言模型(Large Language Model,LLM)的训练中尤为重要,可以帮助模型更好地理解和生成符合人类偏好的内容。据悉,在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行榜上的第一和第三位。