R1-Reward - a yifanzhang114 Collection

yifanzhang114 's Collections

MM-RLHF

SliME

R1-Reward

updated May 6, 2025

Training Multimodal Reward Model Through Stable Reinforcement Learning

yifanzhang114/R1-Reward-RL

Viewer • Updated Jun 9, 2025 • 17.3k • 115 • 6
yifanzhang114/R1-Reward

8B • Updated May 9, 2025 • 10 • 6
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Paper • 2505.02835 • Published May 5, 2025 • 28