最常见的奖励模型类型是 Bradley-Terry 模型,它的输出是一个分值,遵循以下公式: