:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Cai, Tianchi, Song, Xierui, Jiang, Jiyan, Teng, Fei, Gu, Jinjie, Zhang, Guannan
Format:	Preprint
Publié:	2023
Sujets:	Machine Learning Computation and Language
Accès en ligne:	https://arxiv.org/abs/2312.02554
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese
par: Xu, Yunqi, et autres
Publié: (2024)

FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering
par: Cai, Tianchi, et autres
Publié: (2024)

Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
par: Xiao, Teng, et autres
Publié: (2024)

Accelerated Preference Optimization for Large Language Model Alignment
par: He, Jiafan, et autres
Publié: (2024)

Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model
par: Hong, Yuzhong, et autres
Publié: (2024)

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
par: Zhang, Yifan, et autres
Publié: (2024)

Self-Play Preference Optimization for Language Model Alignment
par: Wu, Yue, et autres
Publié: (2024)

How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective
par: Xiao, Teng, et autres
Publié: (2024)

Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
par: Sun, Shengyang, et autres
Publié: (2025)

Unified Hallucination Detection for Multimodal Large Language Models
par: Chen, Xiang, et autres
Publié: (2024)

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
par: Wang, Haowen, et autres
Publié: (2025)

InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
par: Gu, Yanggan, et autres
Publié: (2025)

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment
par: Lu, Yunhong, et autres
Publié: (2025)

ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations
par: Gu, Alex, et autres
Publié: (2025)

Course-Correction: Safety Alignment Using Synthetic Preferences
par: Xu, Rongwu, et autres
Publié: (2024)

CharED: Character-wise Ensemble Decoding for Large Language Models
par: Gu, Kevin, et autres
Publié: (2024)

Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data
par: Zhao, Shuai, et autres
Publié: (2025)

RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment
par: Wang, Xiaohan, et autres
Publié: (2024)

SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters
par: Xiao, Teng, et autres
Publié: (2025)

Preference Ranking Optimization for Human Alignment
par: Song, Feifan, et autres
Publié: (2023)

Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment
par: Yin, Yueqin, et autres
Publié: (2024)

Beyond Preferences: Learning Alignment Principles Grounded in Human Reasons and Values
par: Bell, Henry, et autres
Publié: (2026)

Towards Unified Alignment Between Agents, Humans, and Environment
par: Yang, Zonghan, et autres
Publié: (2024)

Improving LLM General Preference Alignment via Optimistic Online Mirror Descent
par: Zhang, Yuheng, et autres
Publié: (2025)

MaxMin-RLHF: Alignment with Diverse Human Preferences
par: Chakraborty, Souradip, et autres
Publié: (2024)

Group Preference Optimization: Few-Shot Alignment of Large Language Models
par: Zhao, Siyan, et autres
Publié: (2023)

SeMe: Training-Free Language Model Merging via Semantic Alignment
par: Gu, Jian, et autres
Publié: (2025)

FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
par: Zhu, Kewen, et autres
Publié: (2026)

Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization
par: Wu, Junkang, et autres
Publié: (2024)

Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference
par: Gao, Mingqi, et autres
Publié: (2024)

Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration
par: Guan, Yanchu, et autres
Publié: (2024)

Beyond Neural Incompatibility: Cross-Scale Knowledge Transfer in Language Models through Latent Semantic Alignment
par: Gu, Jian, et autres
Publié: (2025)

Optimizing Language Models for Human Preferences is a Causal Inference Problem
par: Lin, Victoria, et autres
Publié: (2024)

Learning to Select In-Context Demonstration Preferred by Large Language Model
par: Zhang, Zheng, et autres
Publié: (2025)

Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
par: Zhang, Qingru, et autres
Publié: (2025)

Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
par: Gu, Xiaojie, et autres
Publié: (2026)

Teaching Your Models to Understand Code via Focal Preference Alignment
par: Wu, Jie, et autres
Publié: (2025)

Reducing Hallucination in Vision-Language Models via Stage-wise Preference Optimization under Distribution Shift
par: Xu, Qinwu
Publié: (2026)

Editing Conceptual Knowledge for Large Language Models
par: Wang, Xiaohan, et autres
Publié: (2024)

MixDPO: Modeling Preference Strength for Pluralistic Alignment
par: Imai, Saki, et autres
Publié: (2026)