Wang, C., Li, Z., Bai, J., Deng, H., Lan, G., & Wang, Y. (2025). SCOPE-RL: Stable and Quantitative Control of Policy Entropy in RL Post-Training.
Chicago-Zitierstil (17. Ausg.)Wang, Chen, Zhaochun Li, Jionghao Bai, Hexuan Deng, Ge Lan, und Yue Wang. SCOPE-RL: Stable and Quantitative Control of Policy Entropy in RL Post-Training. 2025.
MLA-Zitierstil (9. Ausg.)Wang, Chen, et al. SCOPE-RL: Stable and Quantitative Control of Policy Entropy in RL Post-Training. 2025.
Achtung: Diese Zitate sind unter Umständen nicht zu 100% korrekt.