Enregistré dans:
| Auteurs principaux: | Cai, Tianchi, Song, Xierui, Jiang, Jiyan, Teng, Fei, Gu, Jinjie, Zhang, Guannan |
|---|---|
| Format: | Preprint |
| Publié: |
2023
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2312.02554 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese
par: Xu, Yunqi, et autres
Publié: (2024)
par: Xu, Yunqi, et autres
Publié: (2024)
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering
par: Cai, Tianchi, et autres
Publié: (2024)
par: Cai, Tianchi, et autres
Publié: (2024)
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
par: Xiao, Teng, et autres
Publié: (2024)
par: Xiao, Teng, et autres
Publié: (2024)
Accelerated Preference Optimization for Large Language Model Alignment
par: He, Jiafan, et autres
Publié: (2024)
par: He, Jiafan, et autres
Publié: (2024)
Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model
par: Hong, Yuzhong, et autres
Publié: (2024)
par: Hong, Yuzhong, et autres
Publié: (2024)
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
par: Zhang, Yifan, et autres
Publié: (2024)
par: Zhang, Yifan, et autres
Publié: (2024)
Self-Play Preference Optimization for Language Model Alignment
par: Wu, Yue, et autres
Publié: (2024)
par: Wu, Yue, et autres
Publié: (2024)
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective
par: Xiao, Teng, et autres
Publié: (2024)
par: Xiao, Teng, et autres
Publié: (2024)
Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
par: Sun, Shengyang, et autres
Publié: (2025)
par: Sun, Shengyang, et autres
Publié: (2025)
Unified Hallucination Detection for Multimodal Large Language Models
par: Chen, Xiang, et autres
Publié: (2024)
par: Chen, Xiang, et autres
Publié: (2024)
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
par: Wang, Haowen, et autres
Publié: (2025)
par: Wang, Haowen, et autres
Publié: (2025)
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
par: Gu, Yanggan, et autres
Publié: (2025)
par: Gu, Yanggan, et autres
Publié: (2025)
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment
par: Lu, Yunhong, et autres
Publié: (2025)
par: Lu, Yunhong, et autres
Publié: (2025)
ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations
par: Gu, Alex, et autres
Publié: (2025)
par: Gu, Alex, et autres
Publié: (2025)
Course-Correction: Safety Alignment Using Synthetic Preferences
par: Xu, Rongwu, et autres
Publié: (2024)
par: Xu, Rongwu, et autres
Publié: (2024)
CharED: Character-wise Ensemble Decoding for Large Language Models
par: Gu, Kevin, et autres
Publié: (2024)
par: Gu, Kevin, et autres
Publié: (2024)
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data
par: Zhao, Shuai, et autres
Publié: (2025)
par: Zhao, Shuai, et autres
Publié: (2025)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment
par: Wang, Xiaohan, et autres
Publié: (2024)
par: Wang, Xiaohan, et autres
Publié: (2024)
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters
par: Xiao, Teng, et autres
Publié: (2025)
par: Xiao, Teng, et autres
Publié: (2025)
Preference Ranking Optimization for Human Alignment
par: Song, Feifan, et autres
Publié: (2023)
par: Song, Feifan, et autres
Publié: (2023)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment
par: Yin, Yueqin, et autres
Publié: (2024)
par: Yin, Yueqin, et autres
Publié: (2024)
Beyond Preferences: Learning Alignment Principles Grounded in Human Reasons and Values
par: Bell, Henry, et autres
Publié: (2026)
par: Bell, Henry, et autres
Publié: (2026)
Towards Unified Alignment Between Agents, Humans, and Environment
par: Yang, Zonghan, et autres
Publié: (2024)
par: Yang, Zonghan, et autres
Publié: (2024)
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent
par: Zhang, Yuheng, et autres
Publié: (2025)
par: Zhang, Yuheng, et autres
Publié: (2025)
MaxMin-RLHF: Alignment with Diverse Human Preferences
par: Chakraborty, Souradip, et autres
Publié: (2024)
par: Chakraborty, Souradip, et autres
Publié: (2024)
Group Preference Optimization: Few-Shot Alignment of Large Language Models
par: Zhao, Siyan, et autres
Publié: (2023)
par: Zhao, Siyan, et autres
Publié: (2023)
SeMe: Training-Free Language Model Merging via Semantic Alignment
par: Gu, Jian, et autres
Publié: (2025)
par: Gu, Jian, et autres
Publié: (2025)
FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
par: Zhu, Kewen, et autres
Publié: (2026)
par: Zhu, Kewen, et autres
Publié: (2026)
Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization
par: Wu, Junkang, et autres
Publié: (2024)
par: Wu, Junkang, et autres
Publié: (2024)
Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference
par: Gao, Mingqi, et autres
Publié: (2024)
par: Gao, Mingqi, et autres
Publié: (2024)
Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration
par: Guan, Yanchu, et autres
Publié: (2024)
par: Guan, Yanchu, et autres
Publié: (2024)
Beyond Neural Incompatibility: Cross-Scale Knowledge Transfer in Language Models through Latent Semantic Alignment
par: Gu, Jian, et autres
Publié: (2025)
par: Gu, Jian, et autres
Publié: (2025)
Optimizing Language Models for Human Preferences is a Causal Inference Problem
par: Lin, Victoria, et autres
Publié: (2024)
par: Lin, Victoria, et autres
Publié: (2024)
Learning to Select In-Context Demonstration Preferred by Large Language Model
par: Zhang, Zheng, et autres
Publié: (2025)
par: Zhang, Zheng, et autres
Publié: (2025)
Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
par: Zhang, Qingru, et autres
Publié: (2025)
par: Zhang, Qingru, et autres
Publié: (2025)
Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
par: Gu, Xiaojie, et autres
Publié: (2026)
par: Gu, Xiaojie, et autres
Publié: (2026)
Teaching Your Models to Understand Code via Focal Preference Alignment
par: Wu, Jie, et autres
Publié: (2025)
par: Wu, Jie, et autres
Publié: (2025)
Reducing Hallucination in Vision-Language Models via Stage-wise Preference Optimization under Distribution Shift
par: Xu, Qinwu
Publié: (2026)
par: Xu, Qinwu
Publié: (2026)
Editing Conceptual Knowledge for Large Language Models
par: Wang, Xiaohan, et autres
Publié: (2024)
par: Wang, Xiaohan, et autres
Publié: (2024)
MixDPO: Modeling Preference Strength for Pluralistic Alignment
par: Imai, Saki, et autres
Publié: (2026)
par: Imai, Saki, et autres
Publié: (2026)
Documents similaires
-
Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese
par: Xu, Yunqi, et autres
Publié: (2024) -
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering
par: Cai, Tianchi, et autres
Publié: (2024) -
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
par: Xiao, Teng, et autres
Publié: (2024) -
Accelerated Preference Optimization for Large Language Model Alignment
par: He, Jiafan, et autres
Publié: (2024) -
Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model
par: Hong, Yuzhong, et autres
Publié: (2024)