Baidu paper improves open-ended reasoning with RL via multiple-choice reformulation

⟳

Loading news item...

Baidu paper improves open-ended reasoning with RL via multiple-choice reformulation - Gloria Terminal