:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Gao, Yang, Alon, Dana, Metzler, Donald
Format:	Preprint
Published:	2024
Subjects:	Computation and Language
Online Access:	https://arxiv.org/abs/2404.09824
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data
by: Baumgärtner, Tim, et al.
Published: (2024)

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
by: Levy, Mosh, et al.
Published: (2024)

Advantage-Guided Distillation for Preference Alignment in Small Language Models
by: Gao, Shiping, et al.
Published: (2025)

Dynamic Noise Preference Optimization: Self-Improvement of Large Language Models with Self-Synthetic Data
by: Yang, Haoyan, et al.
Published: (2025)

Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention
by: Rozental, Alon
Published: (2026)

Fair-GPTQ: Bias-Aware Quantization for Large Language Models
by: Proskurina, Irina, et al.
Published: (2025)

Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment
by: Wang, Mingzhi, et al.
Published: (2024)

Tomato, Tomahto, Tomate: Do Multilingual Language Models Understand Based on Subword-Level Semantic Concepts?
by: Zhang, Crystina, et al.
Published: (2024)

Self-Play Preference Optimization for Language Model Alignment
by: Wu, Yue, et al.
Published: (2024)

POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization
by: Karaman, Batuhan K., et al.
Published: (2024)

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization
by: Wu, Junkang, et al.
Published: (2024)

Preference Alignment Improves Language Model-Based TTS
by: Tian, Jinchuan, et al.
Published: (2024)

Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation
by: Balog, Krisztian, et al.
Published: (2025)

Noise Contrastive Alignment of Language Models with Explicit Rewards
by: Chen, Huayu, et al.
Published: (2024)

InstructGraph: Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment
by: Wang, Jianing, et al.
Published: (2024)

Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models
by: Liu, Biao, et al.
Published: (2025)

Human Preferences for Constructive Interactions in Language Model Alignment
by: Kyrychenko, Yara, et al.
Published: (2025)

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
by: Zhang, Yifan, et al.
Published: (2024)

StoicLLM: Preference Optimization for Philosophical Alignment in Small Language Models
by: Khan, Ishmam, et al.
Published: (2026)

A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
by: Xie, Zhouhang, et al.
Published: (2025)

Accelerated Preference Optimization for Large Language Model Alignment
by: He, Jiafan, et al.
Published: (2024)

ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions
by: Zhang, Xu, et al.
Published: (2024)

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
by: Deng, Ruibo, et al.
Published: (2025)

ProSocialAlign: Preference Conditioned Test Time Alignment in Language Models
by: Banerjee, Somnath, et al.
Published: (2025)

Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization
by: Zhang, Zefeng, et al.
Published: (2025)

When Quantization Affects Confidence of Large Language Models?
by: Proskurina, Irina, et al.
Published: (2024)

Disentangling Preference Representation and Text Generation for Efficient Individual Preference Alignment
by: Zhang, Jianfei, et al.
Published: (2024)

DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models
by: Chen, Ruizhe, et al.
Published: (2025)

Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
by: Wang, Yilong, et al.
Published: (2026)

Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
by: Xiao, Teng, et al.
Published: (2024)

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness
by: Li, Aaron J., et al.
Published: (2024)

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model
by: Zhang, Yongting, et al.
Published: (2024)

Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment
by: Lee, Janghwan, et al.
Published: (2024)

Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model
by: Hong, Yuzhong, et al.
Published: (2024)

Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations
by: Mondal, Ishani, et al.
Published: (2025)

Maximizing Signal in Human-Model Preference Alignment
by: Kraus, Kelsey, et al.
Published: (2025)

Panacea: Pareto Alignment via Preference Adaptation for LLMs
by: Zhong, Yifan, et al.
Published: (2024)

Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment
by: Yin, Yueqin, et al.
Published: (2024)

CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models
by: Nguyen, Son The, et al.
Published: (2024)

ULMA: Unified Language Model Alignment with Human Demonstration and Point-wise Preference
by: Cai, Tianchi, et al.
Published: (2023)