Ye, C., Xiong, W., Zhang, Y., Dong, H., Jiang, N., & Zhang, T. (2024). Online Iterative Reinforcement Learning from Human Feedback with General Preference Model.
Chicago-Zitierstil (17. Ausg.)Ye, Chenlu, Wei Xiong, Yuheng Zhang, Hanze Dong, Nan Jiang, und Tong Zhang. Online Iterative Reinforcement Learning from Human Feedback with General Preference Model. 2024.
MLA-Zitierstil (9. Ausg.)Ye, Chenlu, et al. Online Iterative Reinforcement Learning from Human Feedback with General Preference Model. 2024.
Achtung: Diese Zitate sind unter Umständen nicht zu 100% korrekt.