Gespeichert in:
| Hauptverfasser: | Deng, Mengyi, Li, Zhiwei, Li, Xin, Zhu, Tingyu, Yuan, Yulan, Guo, Zhijiang, Wang, Wei |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.10863 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
von: Deng, Mengyi, et al.
Veröffentlicht: (2025)
von: Deng, Mengyi, et al.
Veröffentlicht: (2025)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization
von: Jiang, Yuxin, et al.
Veröffentlicht: (2024)
von: Jiang, Yuxin, et al.
Veröffentlicht: (2024)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)
Length-Controlled Margin-Based Preference Optimization without Reference Model
von: Li, Gengxu, et al.
Veröffentlicht: (2025)
von: Li, Gengxu, et al.
Veröffentlicht: (2025)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
von: Lu, Junru, et al.
Veröffentlicht: (2024)
von: Lu, Junru, et al.
Veröffentlicht: (2024)
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)
PrefPO: Pairwise Preference Prompt Optimization
von: Singhal, Rahul, et al.
Veröffentlicht: (2026)
von: Singhal, Rahul, et al.
Veröffentlicht: (2026)
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
von: Cai, Yuanhao, et al.
Veröffentlicht: (2025)
von: Cai, Yuanhao, et al.
Veröffentlicht: (2025)
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
von: Wang, Tianduo, et al.
Veröffentlicht: (2024)
von: Wang, Tianduo, et al.
Veröffentlicht: (2024)
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
von: Xu, Minrui, et al.
Veröffentlicht: (2026)
von: Xu, Minrui, et al.
Veröffentlicht: (2026)
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
von: Xiao, Teng, et al.
Veröffentlicht: (2024)
von: Xiao, Teng, et al.
Veröffentlicht: (2024)
BPO: Revisiting Preference Modeling in Direct Preference Optimization
von: Sun, Lin, et al.
Veröffentlicht: (2025)
von: Sun, Lin, et al.
Veröffentlicht: (2025)
Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
von: Yang, Yunqiao, et al.
Veröffentlicht: (2025)
von: Yang, Yunqiao, et al.
Veröffentlicht: (2025)
Self-Consistency Preference Optimization
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)
Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model
von: Zhu, Wenhong, et al.
Veröffentlicht: (2024)
von: Zhu, Wenhong, et al.
Veröffentlicht: (2024)
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2023)
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2023)
Direct Judgement Preference Optimization
von: Wang, Peifeng, et al.
Veröffentlicht: (2024)
von: Wang, Peifeng, et al.
Veröffentlicht: (2024)
Token-weighted Direct Preference Optimization with Attention
von: Huang, Chengyu, et al.
Veröffentlicht: (2026)
von: Huang, Chengyu, et al.
Veröffentlicht: (2026)
TSO: Self-Training with Scaled Preference Optimization
von: Chen, Kaihui, et al.
Veröffentlicht: (2024)
von: Chen, Kaihui, et al.
Veröffentlicht: (2024)
Length Desensitization in Direct Preference Optimization
von: Liu, Wei, et al.
Veröffentlicht: (2024)
von: Liu, Wei, et al.
Veröffentlicht: (2024)
Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
von: Li, Jiazheng, et al.
Veröffentlicht: (2024)
von: Li, Jiazheng, et al.
Veröffentlicht: (2024)
Direct Multi-Turn Preference Optimization for Language Agents
von: Shi, Wentao, et al.
Veröffentlicht: (2024)
von: Shi, Wentao, et al.
Veröffentlicht: (2024)
Less is More: Resource-Efficient Low-Rank Adaptation
von: Tian, Chunlin, et al.
Veröffentlicht: (2025)
von: Tian, Chunlin, et al.
Veröffentlicht: (2025)
Direct Preference Knowledge Distillation for Large Language Models
von: Li, Yixing, et al.
Veröffentlicht: (2024)
von: Li, Yixing, et al.
Veröffentlicht: (2024)
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
von: Yang, Xiliang, et al.
Veröffentlicht: (2025)
von: Yang, Xiliang, et al.
Veröffentlicht: (2025)
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR
von: Liang, Xiao, et al.
Veröffentlicht: (2025)
von: Liang, Xiao, et al.
Veröffentlicht: (2025)
Ambiguity Awareness Optimization: Towards Semantic Disambiguation for Direct Preference Optimization
von: Li, Jian, et al.
Veröffentlicht: (2025)
von: Li, Jian, et al.
Veröffentlicht: (2025)
On the Role of Preference Variance in Preference Optimization
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)
Atomic Consistency Preference Optimization for Long-Form Question Answering
von: Chen, Jingfeng, et al.
Veröffentlicht: (2025)
von: Chen, Jingfeng, et al.
Veröffentlicht: (2025)
SDPO: Segment-Level Direct Preference Optimization for Social Agents
von: Kong, Aobo, et al.
Veröffentlicht: (2025)
von: Kong, Aobo, et al.
Veröffentlicht: (2025)
LLM Optimization Unlocks Real-Time Pairwise Reranking
von: Wu, Jingyu, et al.
Veröffentlicht: (2025)
von: Wu, Jingyu, et al.
Veröffentlicht: (2025)
Token-level Direct Preference Optimization
von: Zeng, Yongcheng, et al.
Veröffentlicht: (2024)
von: Zeng, Yongcheng, et al.
Veröffentlicht: (2024)
New Desiderata for Direct Preference Optimization
von: Hu, Xiangkun, et al.
Veröffentlicht: (2024)
von: Hu, Xiangkun, et al.
Veröffentlicht: (2024)
2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
von: Li, Shilong, et al.
Veröffentlicht: (2024)
von: Li, Shilong, et al.
Veröffentlicht: (2024)
Are LLMs Rigorous Logical Reasoners? Empowering Natural Language Proof Generation by Stepwise Decoding with Contrastive Learning
von: Su, Ying, et al.
Veröffentlicht: (2023)
von: Su, Ying, et al.
Veröffentlicht: (2023)
Do We Need Language-Specific Fact-Checking Models? The Case of Chinese
von: Zhang, Caiqi, et al.
Veröffentlicht: (2024)
von: Zhang, Caiqi, et al.
Veröffentlicht: (2024)
Improving Factual Consistency of News Summarization by Contrastive Preference Optimization
von: Feng, Huawen, et al.
Veröffentlicht: (2023)
von: Feng, Huawen, et al.
Veröffentlicht: (2023)
When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
von: Zhou, Xinyu, et al.
Veröffentlicht: (2026)
von: Zhou, Xinyu, et al.
Veröffentlicht: (2026)
Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss
von: Xu, Jing, et al.
Veröffentlicht: (2023)
von: Xu, Jing, et al.
Veröffentlicht: (2023)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema
von: Lu, Junru, et al.
Veröffentlicht: (2024)
von: Lu, Junru, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
von: Deng, Mengyi, et al.
Veröffentlicht: (2025) -
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization
von: Jiang, Yuxin, et al.
Veröffentlicht: (2024) -
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
von: Liu, Yinhong, et al.
Veröffentlicht: (2024) -
Length-Controlled Margin-Based Preference Optimization without Reference Model
von: Li, Gengxu, et al.
Veröffentlicht: (2025) -
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
von: Lu, Junru, et al.
Veröffentlicht: (2024)