:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Xu, Zhenghao, Lu, Qin, Zhang, Qingru, Qiu, Liang, Hong, Ilgee, Yu, Changlong, Yao, Wenlin, Liu, Yao, Jiang, Haoming, Li, Lihong, Yun, Hyokun, Zhao, Tuo
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2510.20369
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
par: Hong, Ilgee, et autres
Publié: (2025)

Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
par: Zhang, Qingru, et autres
Publié: (2025)

Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
par: Guo, Siqi, et autres
Publié: (2025)

Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
par: Zhang, Yuheng, et autres
Publié: (2025)

Robust Reinforcement Learning from Corrupted Human Feedback
par: Bukharin, Alexander, et autres
Publié: (2024)

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
par: Wei, Zhepei, et autres
Publié: (2025)

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training
par: Xu, Zhenghao, et autres
Publié: (2026)

Adaptive Preference Scaling for Reinforcement Learning with Human Feedback
par: Hong, Ilgee, et autres
Publié: (2024)

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
par: Liu, Tianci, et autres
Publié: (2025)

Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs
par: Zhang, Qingru, et autres
Publié: (2023)

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation
par: Li, Zichong, et autres
Publié: (2025)

Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations
par: Liu, Yu Lu, et autres
Publié: (2026)

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training
par: Xu, Ran, et autres
Publié: (2026)

HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows
par: Yao, Wenlin, et autres
Publié: (2024)

Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation
par: Zhang, Yuwei, et autres
Publié: (2026)

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
par: Kang, Hao, et autres
Publié: (2024)

Sherlock Your Queries: Learning to Ask the Right Questions for Dialogue-Based Retrieval
par: Yun, Dong, et autres
Publié: (2025)

Who's Your Judge? On the Detectability of LLM-Generated Judgments
par: Li, Dawei, et autres
Publié: (2025)

Soundness-Aware Level: A Microscopic Signature that Predicts LLM Reasoning Potential
par: Wu, Xuansheng, et autres
Publié: (2025)

When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification
par: Zhao, Jiale, et autres
Publié: (2026)

A Study on Video Conference Fatigue: Moderating Effect of Mindfulness and Mediating Effect of Appearance Dissatisfaction
par: Bilei Zhou, et autres
Publié: (2025)

Match Your Ask to the Donor's Motivation
par: Daniel Lindley
Publié: (2025)

What Language is This? Ask Your Tokenizer
par: Meister, Clara, et autres
Publié: (2026)

Recite Your Ask Out Loud
Publié: (2025)

Need Help?...Ask Your Mentor.
par: Logsdon, Janis
Publié: (1992)

Design of Reward Tiers in Crowdfunding: Eschewing Acknowledgments and Prioritizing Promotion
par: Liangchen Fan, et autres
Publié: (2024)

LLM-as-a-Judge & Reward Model: What They Can and Cannot Do
par: Son, Guijin, et autres
Publié: (2024)

Single-band Triangular Lattice Hubbard Model with Tunable Anisotropy from Twisted Diamond Homobilayers
par: Sun, Wen, et autres
Publié: (2025)

AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling
par: Miao, Yongliang, et autres
Publié: (2026)

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
par: Chen, Zhaorun, et autres
Publié: (2024)

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling
par: Liu, Jiale, et autres
Publié: (2025)

Reward Model Routing in Alignment
par: Wu, Xinle, et autres
Publié: (2025)

Why is Your Language Model a Poor Implicit Reward Model?
par: Razin, Noam, et autres
Publié: (2025)

Probabilistic Uncertain Reward Model
par: Sun, Wangtao, et autres
Publié: (2025)

Fractional quantum anomalous Hall and anyon density-wave halo in a minimal interacting lattice model of twisted bilayer MoTe$_2$
par: Tuo, Chuyi, et autres
Publié: (2025)

RRO: LLM Agent Optimization Through Rising Reward Trajectories
par: Wang, Zilong, et autres
Publié: (2025)

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging
par: Lai, Yanlin, et autres
Publié: (2026)

Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks
par: Shen, William F., et autres
Publié: (2026)

From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
par: Hong, Yihan, et autres
Publié: (2026)

Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment
par: Feng, Qizhang, et autres
Publié: (2024)