:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Deng, Mengyi, Li, Zhiwei, Li, Xin, Zhu, Tingyu, Yuan, Yulan, Guo, Zhijiang, Wang, Wei
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2605.10863
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
von: Deng, Mengyi, et al.
Veröffentlicht: (2025)

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization
von: Jiang, Yuxin, et al.
Veröffentlicht: (2024)

Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)

Length-Controlled Margin-Based Preference Optimization without Reference Model
von: Li, Gengxu, et al.
Veröffentlicht: (2025)

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
von: Lu, Junru, et al.
Veröffentlicht: (2024)

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models
von: Liu, Yinhong, et al.
Veröffentlicht: (2024)

PrefPO: Pairwise Preference Prompt Optimization
von: Singhal, Rahul, et al.
Veröffentlicht: (2026)

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
von: Cai, Yuanhao, et al.
Veröffentlicht: (2025)

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
von: Wang, Tianduo, et al.
Veröffentlicht: (2024)

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
von: Xu, Minrui, et al.
Veröffentlicht: (2026)

Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
von: Xiao, Teng, et al.
Veröffentlicht: (2024)

BPO: Revisiting Preference Modeling in Direct Preference Optimization
von: Sun, Lin, et al.
Veröffentlicht: (2025)

Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
von: Yang, Yunqiao, et al.
Veröffentlicht: (2025)

Self-Consistency Preference Optimization
von: Prasad, Archiki, et al.
Veröffentlicht: (2024)

Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model
von: Zhu, Wenhong, et al.
Veröffentlicht: (2024)

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
von: Zhao, Zhiyuan, et al.
Veröffentlicht: (2023)

Direct Judgement Preference Optimization
von: Wang, Peifeng, et al.
Veröffentlicht: (2024)

Token-weighted Direct Preference Optimization with Attention
von: Huang, Chengyu, et al.
Veröffentlicht: (2026)

TSO: Self-Training with Scaled Preference Optimization
von: Chen, Kaihui, et al.
Veröffentlicht: (2024)

Length Desensitization in Direct Preference Optimization
von: Liu, Wei, et al.
Veröffentlicht: (2024)

Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
von: Li, Jiazheng, et al.
Veröffentlicht: (2024)

Direct Multi-Turn Preference Optimization for Language Agents
von: Shi, Wentao, et al.
Veröffentlicht: (2024)

Less is More: Resource-Efficient Low-Rank Adaptation
von: Tian, Chunlin, et al.
Veröffentlicht: (2025)

Direct Preference Knowledge Distillation for Large Language Models
von: Li, Yixing, et al.
Veröffentlicht: (2024)

DPO-Shift: Shifting the Distribution of Direct Preference Optimization
von: Yang, Xiliang, et al.
Veröffentlicht: (2025)

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR
von: Liang, Xiao, et al.
Veröffentlicht: (2025)

Ambiguity Awareness Optimization: Towards Semantic Disambiguation for Direct Preference Optimization
von: Li, Jian, et al.
Veröffentlicht: (2025)

On the Role of Preference Variance in Preference Optimization
von: Guo, Jiacheng, et al.
Veröffentlicht: (2025)

Atomic Consistency Preference Optimization for Long-Form Question Answering
von: Chen, Jingfeng, et al.
Veröffentlicht: (2025)

SDPO: Segment-Level Direct Preference Optimization for Social Agents
von: Kong, Aobo, et al.
Veröffentlicht: (2025)

LLM Optimization Unlocks Real-Time Pairwise Reranking
von: Wu, Jingyu, et al.
Veröffentlicht: (2025)

Token-level Direct Preference Optimization
von: Zeng, Yongcheng, et al.
Veröffentlicht: (2024)

New Desiderata for Direct Preference Optimization
von: Hu, Xiangkun, et al.
Veröffentlicht: (2024)

2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
von: Li, Shilong, et al.
Veröffentlicht: (2024)

Are LLMs Rigorous Logical Reasoners? Empowering Natural Language Proof Generation by Stepwise Decoding with Contrastive Learning
von: Su, Ying, et al.
Veröffentlicht: (2023)

Do We Need Language-Specific Fact-Checking Models? The Case of Chinese
von: Zhang, Caiqi, et al.
Veröffentlicht: (2024)

Improving Factual Consistency of News Summarization by Contrastive Preference Optimization
von: Feng, Huawen, et al.
Veröffentlicht: (2023)

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?
von: Zhou, Xinyu, et al.
Veröffentlicht: (2026)

Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss
von: Xu, Jing, et al.
Veröffentlicht: (2023)

FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema
von: Lu, Junru, et al.
Veröffentlicht: (2024)