:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Cheng, Pengyu, Yang, Yifan, Li, Jian, Dai, Yong, Hu, Tianhao, Cao, Peixin, Du, Nan, Li, Xiaolong
Format:	Preprint
Published:	2023
Subjects:	Computation and Language Artificial Intelligence Machine Learning
Online Access:	https://arxiv.org/abs/2311.08045
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Self-playing Adversarial Language Game Enhances LLM Reasoning
by: Cheng, Pengyu, et al.
Published: (2024)

On Diversified Preferences of Large Language Model Alignment
by: Zeng, Dun, et al.
Published: (2023)

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
by: Li, Yafu, et al.
Published: (2025)

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers
by: Xie, Jiawen, et al.
Published: (2023)

Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness
by: Li, Jian, et al.
Published: (2024)

Teaching Your Models to Understand Code via Focal Preference Alignment
by: Wu, Jie, et al.
Published: (2025)

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
by: Chen, Jiaqi, et al.
Published: (2025)

ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment
by: Wang, Hao, et al.
Published: (2026)

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision
by: Lu, Yifei, et al.
Published: (2025)

MetaRM: Shifted Distributions Alignment via Meta-Learning
by: Dou, Shihan, et al.
Published: (2024)

SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder
by: Liu, Dengcan, et al.
Published: (2025)

Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models
by: Gui, Anchun, et al.
Published: (2024)

Preference Ranking Optimization for Human Alignment
by: Song, Feifan, et al.
Published: (2023)

PACIFIC: Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs
by: Zhao, Tianyu, et al.
Published: (2026)

Your Weak LLM is Secretly a Strong Teacher for Alignment
by: Tao, Leitian, et al.
Published: (2024)

TODO: Enhancing LLM Alignment with Ternary Preferences
by: Guo, Yuxiang, et al.
Published: (2024)

Probability-Consistent Preference Optimization for Enhanced LLM Reasoning
by: Yang, Yunqiao, et al.
Published: (2025)

Improving LLM General Preference Alignment via Optimistic Online Mirror Descent
by: Zhang, Yuheng, et al.
Published: (2025)

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement
by: Yang, Ruihan, et al.
Published: (2025)

Stable Preference Optimization: A Bilevel Approach to Catastrophic Preference Shift
by: Jian, Chengtao, et al.
Published: (2025)

Micro-Act: Mitigating Knowledge Conflict in LLM-based RAG via Actionable Self-Reasoning
by: Huo, Nan, et al.
Published: (2025)

Enhancing LLM Safety via Constrained Direct Preference Optimization
by: Liu, Zixuan, et al.
Published: (2024)

Panacea: Pareto Alignment via Preference Adaptation for LLMs
by: Zhong, Yifan, et al.
Published: (2024)

From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment
by: Li, Jia-Nan, et al.
Published: (2025)

StoicLLM: Preference Optimization for Philosophical Alignment in Small Language Models
by: Khan, Ishmam, et al.
Published: (2026)

Adversarial Preference Learning for Robust LLM Alignment
by: Wang, Yuanfu, et al.
Published: (2025)

GameArena: Evaluating LLM Reasoning through Live Computer Games
by: Hu, Lanxiang, et al.
Published: (2024)

PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization
by: Wu, Jiayi, et al.
Published: (2024)

RM-Distiller: Exploiting Generative LLM for Reward Model Distillation
by: Zhou, Hongli, et al.
Published: (2026)

Bootstrap Your Own Context Length
by: Wang, Liang, et al.
Published: (2024)

Traits Run Deep: Enhancing Personality Assessment via Psychology-Guided LLM Representations and Multimodal Apparent Behaviors
by: Li, Jia, et al.
Published: (2025)

CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
by: Tang, Xiaqiang, et al.
Published: (2025)

Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization
by: Wang, Yilong, et al.
Published: (2026)

CE-RM: A Pointwise Generative Reward Model Optimized via Two-Stage Rollout and Unified Criteria
by: Hu, Xinyu, et al.
Published: (2026)

RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment
by: Du, Yuhao, et al.
Published: (2025)

Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback
by: Kim, Kyuyoung, et al.
Published: (2024)

Is On-Policy Data always the Best Choice for Direct Preference Optimization-based LM Alignment?
by: Sun, Zetian, et al.
Published: (2025)

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment
by: Cheng, Zehua, et al.
Published: (2026)

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
by: Lai, Peng, et al.
Published: (2025)

Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation
by: Shi, Dingyuan, et al.
Published: (2024)