:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Shi, Ruizhe, Song, Minhak, Zhou, Runlong, Zhang, Zihan, Fazel, Maryam, Du, Simon S.
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Machine Learning Computation and Language
Online-Zugang:	https://arxiv.org/abs/2505.19770
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

The Crucial Role of Samplers in Online Direct Preference Optimization
von: Shi, Ruizhe, et al.
Veröffentlicht: (2024)

Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)

Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback
von: Chen, Shulun, et al.
Veröffentlicht: (2025)

Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs
von: Chen, Shulun, et al.
Veröffentlicht: (2025)

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs
von: Zhou, Runlong, et al.
Veröffentlicht: (2024)

DPO Meets PPO: Reinforced Token Optimization for RLHF
von: Zhong, Han, et al.
Veröffentlicht: (2024)

WPO: Enhancing RLHF with Weighted Preference Optimization
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap
von: Qi, Xuan, et al.
Veröffentlicht: (2025)

CASCADE Your Datasets for Cross-Mode Knowledge Retrieval of Language Models
von: Zhou, Runlong, et al.
Veröffentlicht: (2025)

Robust Multi-Objective Preference Alignment with Online DPO
von: Gupta, Raghav, et al.
Veröffentlicht: (2025)

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function
von: Wang, Zhichao, et al.
Veröffentlicht: (2024)

Adaptive Margin RLHF via Preference over Preferences
von: Chittepu, Yaswanth, et al.
Veröffentlicht: (2025)

Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
von: Qi, Biqing, et al.
Veröffentlicht: (2024)

Group Robust Preference Optimization in Reward-free RLHF
von: Ramesh, Shyam Sundhar, et al.
Veröffentlicht: (2024)

DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
von: Zhou, Zhenglin, et al.
Veröffentlicht: (2025)

LoRe: Personalizing LLMs via Low-Rank Reward Modeling
von: Bose, Avinandan, et al.
Veröffentlicht: (2025)

Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
von: Pattnaik, Pulkit, et al.
Veröffentlicht: (2024)

Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution
von: Xu, Nuo, et al.
Veröffentlicht: (2024)

Active Preference Optimization for Sample Efficient RLHF
von: Das, Nirjhar, et al.
Veröffentlicht: (2024)

Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
von: Li, Yingcong, et al.
Veröffentlicht: (2025)

Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
von: Xiao, Teng, et al.
Veröffentlicht: (2024)

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization
von: Wang, Yunan, et al.
Veröffentlicht: (2025)

MixDPO: Modeling Preference Strength for Pluralistic Alignment
von: Imai, Saki, et al.
Veröffentlicht: (2026)

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
von: Liu, Weixin, et al.
Veröffentlicht: (2026)

Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts
von: Gupta, Taneesh, et al.
Veröffentlicht: (2024)

AdaDPO: Self-Adaptive Direct Preference Optimization with Balanced Gradient Updates
von: Chen, Shaolong, et al.
Veröffentlicht: (2026)

mDPO: Conditional Preference Optimization for Multimodal Large Language Models
von: Wang, Fei, et al.
Veröffentlicht: (2024)

Towards Federated RLHF with Aggregated Client Preference for LLMs
von: Wu, Feijie, et al.
Veröffentlicht: (2024)

Self-Consistency Preference Optimization
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)

AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization
von: Wu, Junkang, et al.
Veröffentlicht: (2024)

Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive
von: Pal, Arka, et al.
Veröffentlicht: (2024)

RLHF Workflow: From Reward Modeling to Online RLHF
von: Dong, Hanze, et al.
Veröffentlicht: (2024)

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
von: Peng, Shangpin, et al.
Veröffentlicht: (2025)

MaxMin-RLHF: Alignment with Diverse Human Preferences
von: Chakraborty, Souradip, et al.
Veröffentlicht: (2024)

Understanding the Effects of RLHF on LLM Generalisation and Diversity
von: Kirk, Robert, et al.
Veröffentlicht: (2023)

Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care
von: Fan, Junyi, et al.
Veröffentlicht: (2025)

Bootstrapping Language Models with DPO Implicit Rewards
von: Chen, Changyu, et al.
Veröffentlicht: (2024)

Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering
von: Mohamed, Anas, et al.
Veröffentlicht: (2025)

Learning Optimal Tax Design in Nonatomic Congestion Games
von: Cui, Qiwen, et al.
Veröffentlicht: (2024)

Bridging the Gap Between Preference Alignment and Machine Unlearning
von: Feng, Xiaohua, et al.
Veröffentlicht: (2025)