目前的RM偏好训练教程(examples/train/pairwise/run_pairwise.sh)中采用的是 GRPO + PPO 结合的训练方法,是否支持更直接快速的训练方法,例如直接基于偏好对比损失来优化? 如基于Bradley-Terry loss