Gespeichert in:
| Hauptverfasser: | Shi, Ruizhe, Song, Minhak, Zhou, Runlong, Zhang, Zihan, Fazel, Maryam, Du, Simon S. |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2505.19770 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
The Crucial Role of Samplers in Online Direct Preference Optimization
von: Shi, Ruizhe, et al.
Veröffentlicht: (2024)
von: Shi, Ruizhe, et al.
Veröffentlicht: (2024)
Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)
Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback
von: Chen, Shulun, et al.
Veröffentlicht: (2025)
von: Chen, Shulun, et al.
Veröffentlicht: (2025)
Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs
von: Chen, Shulun, et al.
Veröffentlicht: (2025)
von: Chen, Shulun, et al.
Veröffentlicht: (2025)
Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
von: Zhou, Runlong, et al.
Veröffentlicht: (2024)
von: Zhou, Runlong, et al.
Veröffentlicht: (2024)
DPO Meets PPO: Reinforced Token Optimization for RLHF
von: Zhong, Han, et al.
Veröffentlicht: (2024)
von: Zhong, Han, et al.
Veröffentlicht: (2024)
WPO: Enhancing RLHF with Weighted Preference Optimization
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)
Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap
von: Qi, Xuan, et al.
Veröffentlicht: (2025)
von: Qi, Xuan, et al.
Veröffentlicht: (2025)
CASCADE Your Datasets for Cross-Mode Knowledge Retrieval of Language Models
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)
Robust Multi-Objective Preference Alignment with Online DPO
von: Gupta, Raghav, et al.
Veröffentlicht: (2025)
von: Gupta, Raghav, et al.
Veröffentlicht: (2025)
UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function
von: Wang, Zhichao, et al.
Veröffentlicht: (2024)
von: Wang, Zhichao, et al.
Veröffentlicht: (2024)
Adaptive Margin RLHF via Preference over Preferences
von: Chittepu, Yaswanth, et al.
Veröffentlicht: (2025)
von: Chittepu, Yaswanth, et al.
Veröffentlicht: (2025)
Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
von: Qi, Biqing, et al.
Veröffentlicht: (2024)
von: Qi, Biqing, et al.
Veröffentlicht: (2024)
Group Robust Preference Optimization in Reward-free RLHF
von: Ramesh, Shyam Sundhar, et al.
Veröffentlicht: (2024)
von: Ramesh, Shyam Sundhar, et al.
Veröffentlicht: (2024)
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
von: Zhou, Zhenglin, et al.
Veröffentlicht: (2025)
von: Zhou, Zhenglin, et al.
Veröffentlicht: (2025)
LoRe: Personalizing LLMs via Low-Rank Reward Modeling
von: Bose, Avinandan, et al.
Veröffentlicht: (2025)
von: Bose, Avinandan, et al.
Veröffentlicht: (2025)
Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
von: Pattnaik, Pulkit, et al.
Veröffentlicht: (2024)
von: Pattnaik, Pulkit, et al.
Veröffentlicht: (2024)
Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution
von: Xu, Nuo, et al.
Veröffentlicht: (2024)
von: Xu, Nuo, et al.
Veröffentlicht: (2024)
Active Preference Optimization for Sample Efficient RLHF
von: Das, Nirjhar, et al.
Veröffentlicht: (2024)
von: Das, Nirjhar, et al.
Veröffentlicht: (2024)
Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
von: Li, Yingcong, et al.
Veröffentlicht: (2025)
von: Li, Yingcong, et al.
Veröffentlicht: (2025)
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
von: Xiao, Teng, et al.
Veröffentlicht: (2024)
von: Xiao, Teng, et al.
Veröffentlicht: (2024)
InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization
von: Wang, Yunan, et al.
Veröffentlicht: (2025)
von: Wang, Yunan, et al.
Veröffentlicht: (2025)
MixDPO: Modeling Preference Strength for Pluralistic Alignment
von: Imai, Saki, et al.
Veröffentlicht: (2026)
von: Imai, Saki, et al.
Veröffentlicht: (2026)
VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
von: Liu, Weixin, et al.
Veröffentlicht: (2026)
von: Liu, Weixin, et al.
Veröffentlicht: (2026)
Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts
von: Gupta, Taneesh, et al.
Veröffentlicht: (2024)
von: Gupta, Taneesh, et al.
Veröffentlicht: (2024)
AdaDPO: Self-Adaptive Direct Preference Optimization with Balanced Gradient Updates
von: Chen, Shaolong, et al.
Veröffentlicht: (2026)
von: Chen, Shaolong, et al.
Veröffentlicht: (2026)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
von: Wang, Fei, et al.
Veröffentlicht: (2024)
von: Wang, Fei, et al.
Veröffentlicht: (2024)
Towards Federated RLHF with Aggregated Client Preference for LLMs
von: Wu, Feijie, et al.
Veröffentlicht: (2024)
von: Wu, Feijie, et al.
Veröffentlicht: (2024)
Self-Consistency Preference Optimization
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)
AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization
von: Wu, Junkang, et al.
Veröffentlicht: (2024)
von: Wu, Junkang, et al.
Veröffentlicht: (2024)
Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
von: Pal, Arka, et al.
Veröffentlicht: (2024)
von: Pal, Arka, et al.
Veröffentlicht: (2024)
RLHF Workflow: From Reward Modeling to Online RLHF
von: Dong, Hanze, et al.
Veröffentlicht: (2024)
von: Dong, Hanze, et al.
Veröffentlicht: (2024)
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
von: Peng, Shangpin, et al.
Veröffentlicht: (2025)
von: Peng, Shangpin, et al.
Veröffentlicht: (2025)
MaxMin-RLHF: Alignment with Diverse Human Preferences
von: Chakraborty, Souradip, et al.
Veröffentlicht: (2024)
von: Chakraborty, Souradip, et al.
Veröffentlicht: (2024)
Understanding the Effects of RLHF on LLM Generalisation and Diversity
von: Kirk, Robert, et al.
Veröffentlicht: (2023)
von: Kirk, Robert, et al.
Veröffentlicht: (2023)
Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care
von: Fan, Junyi, et al.
Veröffentlicht: (2025)
von: Fan, Junyi, et al.
Veröffentlicht: (2025)
Bootstrapping Language Models with DPO Implicit Rewards
von: Chen, Changyu, et al.
Veröffentlicht: (2024)
von: Chen, Changyu, et al.
Veröffentlicht: (2024)
Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering
von: Mohamed, Anas, et al.
Veröffentlicht: (2025)
von: Mohamed, Anas, et al.
Veröffentlicht: (2025)
Learning Optimal Tax Design in Nonatomic Congestion Games
von: Cui, Qiwen, et al.
Veröffentlicht: (2024)
von: Cui, Qiwen, et al.
Veröffentlicht: (2024)
Bridging the Gap Between Preference Alignment and Machine Unlearning
von: Feng, Xiaohua, et al.
Veröffentlicht: (2025)
von: Feng, Xiaohua, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
The Crucial Role of Samplers in Online Direct Preference Optimization
von: Shi, Ruizhe, et al.
Veröffentlicht: (2024) -
Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback
von: Zhou, Runlong, et al.
Veröffentlicht: (2025) -
Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback
von: Chen, Shulun, et al.
Veröffentlicht: (2025) -
Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs
von: Chen, Shulun, et al.
Veröffentlicht: (2025) -
Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
von: Zhou, Runlong, et al.
Veröffentlicht: (2024)