APA-Zitierstil (7. Ausg.)

Ye, C., Xiong, W., Zhang, Y., Dong, H., Jiang, N., & Zhang, T. (2024). Online Iterative Reinforcement Learning from Human Feedback with General Preference Model.

Chicago-Zitierstil (17. Ausg.)

Ye, Chenlu, Wei Xiong, Yuheng Zhang, Hanze Dong, Nan Jiang, und Tong Zhang. Online Iterative Reinforcement Learning from Human Feedback with General Preference Model. 2024.

MLA-Zitierstil (9. Ausg.)

Ye, Chenlu, et al. Online Iterative Reinforcement Learning from Human Feedback with General Preference Model. 2024.

Achtung: Diese Zitate sind unter Umständen nicht zu 100% korrekt.