:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Liu, Pangpang, Lu, Junwei, Sun, Will Wei
Format:	Preprint
Published:	2025
Subjects:	Machine Learning
Online Access:	https://arxiv.org/abs/2512.03208
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Dual Active Learning for Reinforcement Learning from Human Feedback
by: Liu, Pangpang, et al.
Published: (2024)

Reinforcement Learning from Human Feedback: A Statistical Perspective
by: Liu, Pangpang, et al.
Published: (2026)

Fairness-aware Contextual Dynamic Pricing with Strategic Buyers
by: Liu, Pangpang, et al.
Published: (2025)

Contextual Online Uncertainty-Aware Preference Learning for Human Feedback
by: Lu, Nan, et al.
Published: (2025)

Uncertainty Quantification for In-Context Learning of Large Language Models
by: Ling, Chen, et al.
Published: (2024)

Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling
by: Cho, Young Hyun, et al.
Published: (2026)

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback
by: Lee, Seong Jin, et al.
Published: (2024)

Model Accuracy and Data Heterogeneity Shape Uncertainty Quantification in Machine Learning Interatomic Potentials
by: Shuang, Fei, et al.
Published: (2025)

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity
by: Nguyen, Quang-Huy, et al.
Published: (2026)

Contextual Dynamic Pricing with Strategic Buyers
by: Liu, Pangpang, et al.
Published: (2023)

A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning
by: Sun, Shengjie, et al.
Published: (2024)

Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models
by: Lin, Zhen, et al.
Published: (2023)

Language Models Can Learn from Verbal Feedback Without Scalar Rewards
by: Luo, Renjie, et al.
Published: (2025)

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification
by: Menendez, Angel Rodrigo Avelar, et al.
Published: (2026)

Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification
by: Huang, Tao, et al.
Published: (2026)

Dense Reward for Free in Reinforcement Learning from Human Feedback
by: Chan, Alex J., et al.
Published: (2024)

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles
by: Zhai, Yuanzhao, et al.
Published: (2023)

Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation
by: Wang, Zebin, et al.
Published: (2024)

Policy Learning from Large Vision-Language Model Feedback without Reward Modeling
by: Luu, Tung M., et al.
Published: (2025)

Robust Uncertainty Quantification for Self-Evolving Large Language Models via Continual Domain Pretraining
by: Zhou, Xiaofan, et al.
Published: (2025)

The Consistency Hypothesis in Uncertainty Quantification for Large Language Models
by: Xiao, Quan, et al.
Published: (2025)

Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble
by: Zhang, Shun, et al.
Published: (2024)

Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis
by: Zhang, Qining, et al.
Published: (2024)

Uncertainty Quantification for Large-Scale Deep Networks via Post-StoNet Modeling
by: Sun, Yan, et al.
Published: (2025)

How Many Human Survey Respondents is a Large Language Model Worth? An Uncertainty Quantification Perspective
by: Huang, Chengpiao, et al.
Published: (2025)

Uncertainty Quantification of Large Language Models using Approximate Bayesian Computation
by: Sharma, Mridul, et al.
Published: (2025)

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
by: Vashurin, Roman, et al.
Published: (2024)

Which Rewards Matter? Reward Selection for Reinforcement Learning under Limited Feedback
by: Chaudhari, Shreyas, et al.
Published: (2025)

Adaptive Querying for Reward Learning from Human Feedback
by: Anand, Yashwanthi, et al.
Published: (2024)

Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models
by: Mao, Zhenjiang, et al.
Published: (2026)

LongReward: Improving Long-context Large Language Models with AI Feedback
by: Zhang, Jiajie, et al.
Published: (2024)

UQLM: A Python Package for Uncertainty Quantification in Large Language Models
by: Bouchard, Dylan, et al.
Published: (2025)

Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models
by: Cao, Qi, et al.
Published: (2026)

Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings
by: Grewal, Yashvir S., et al.
Published: (2024)

Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
by: Lou, Xingzhou, et al.
Published: (2024)

Towards Uncertainty Quantification in Generative Model Learning
by: Morales, Giorgio, et al.
Published: (2025)

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback
by: Ackermann, Johannes, et al.
Published: (2025)

Trustworthy Summarization via Uncertainty Quantification and Risk Awareness in Large Language Models
by: Pan, Shuaidong, et al.
Published: (2025)

IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation
by: Fan, Haozhi, et al.
Published: (2026)

Human-AI Collaborative Uncertainty Quantification
by: Noorani, Sima, et al.
Published: (2025)