Enregistré dans:
| Auteurs principaux: | Xu, Zhenghao, Lu, Qin, Zhang, Qingru, Qiu, Liang, Hong, Ilgee, Yu, Changlong, Yao, Wenlin, Liu, Yao, Jiang, Haoming, Li, Lihong, Yun, Hyokun, Zhao, Tuo |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.20369 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
par: Hong, Ilgee, et autres
Publié: (2025)
par: Hong, Ilgee, et autres
Publié: (2025)
Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
par: Zhang, Qingru, et autres
Publié: (2025)
par: Zhang, Qingru, et autres
Publié: (2025)
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
par: Guo, Siqi, et autres
Publié: (2025)
par: Guo, Siqi, et autres
Publié: (2025)
Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
par: Zhang, Yuheng, et autres
Publié: (2025)
par: Zhang, Yuheng, et autres
Publié: (2025)
Robust Reinforcement Learning from Corrupted Human Feedback
par: Bukharin, Alexander, et autres
Publié: (2024)
par: Bukharin, Alexander, et autres
Publié: (2024)
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
par: Wei, Zhepei, et autres
Publié: (2025)
par: Wei, Zhepei, et autres
Publié: (2025)
Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training
par: Xu, Zhenghao, et autres
Publié: (2026)
par: Xu, Zhenghao, et autres
Publié: (2026)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback
par: Hong, Ilgee, et autres
Publié: (2024)
par: Hong, Ilgee, et autres
Publié: (2024)
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
par: Liu, Tianci, et autres
Publié: (2025)
par: Liu, Tianci, et autres
Publié: (2025)
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs
par: Zhang, Qingru, et autres
Publié: (2023)
par: Zhang, Qingru, et autres
Publié: (2023)
SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation
par: Li, Zichong, et autres
Publié: (2025)
par: Li, Zichong, et autres
Publié: (2025)
Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations
par: Liu, Yu Lu, et autres
Publié: (2026)
par: Liu, Yu Lu, et autres
Publié: (2026)
Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training
par: Xu, Ran, et autres
Publié: (2026)
par: Xu, Ran, et autres
Publié: (2026)
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows
par: Yao, Wenlin, et autres
Publié: (2024)
par: Yao, Wenlin, et autres
Publié: (2024)
Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation
par: Zhang, Yuwei, et autres
Publié: (2026)
par: Zhang, Yuwei, et autres
Publié: (2026)
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
par: Kang, Hao, et autres
Publié: (2024)
par: Kang, Hao, et autres
Publié: (2024)
Sherlock Your Queries: Learning to Ask the Right Questions for Dialogue-Based Retrieval
par: Yun, Dong, et autres
Publié: (2025)
par: Yun, Dong, et autres
Publié: (2025)
Who's Your Judge? On the Detectability of LLM-Generated Judgments
par: Li, Dawei, et autres
Publié: (2025)
par: Li, Dawei, et autres
Publié: (2025)
Soundness-Aware Level: A Microscopic Signature that Predicts LLM Reasoning Potential
par: Wu, Xuansheng, et autres
Publié: (2025)
par: Wu, Xuansheng, et autres
Publié: (2025)
When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification
par: Zhao, Jiale, et autres
Publié: (2026)
par: Zhao, Jiale, et autres
Publié: (2026)
A Study on Video Conference Fatigue: Moderating Effect of Mindfulness and Mediating Effect of Appearance Dissatisfaction
par: Bilei Zhou, et autres
Publié: (2025)
par: Bilei Zhou, et autres
Publié: (2025)
Match Your Ask to the Donor's Motivation
par: Daniel Lindley
Publié: (2025)
par: Daniel Lindley
Publié: (2025)
What Language is This? Ask Your Tokenizer
par: Meister, Clara, et autres
Publié: (2026)
par: Meister, Clara, et autres
Publié: (2026)
Recite Your Ask Out Loud
Publié: (2025)
Publié: (2025)
Need Help?...Ask Your Mentor.
par: Logsdon, Janis
Publié: (1992)
par: Logsdon, Janis
Publié: (1992)
Design of Reward Tiers in Crowdfunding: Eschewing Acknowledgments and Prioritizing Promotion
par: Liangchen Fan, et autres
Publié: (2024)
par: Liangchen Fan, et autres
Publié: (2024)
LLM-as-a-Judge & Reward Model: What They Can and Cannot Do
par: Son, Guijin, et autres
Publié: (2024)
par: Son, Guijin, et autres
Publié: (2024)
Single-band Triangular Lattice Hubbard Model with Tunable Anisotropy from Twisted Diamond Homobilayers
par: Sun, Wen, et autres
Publié: (2025)
par: Sun, Wen, et autres
Publié: (2025)
AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling
par: Miao, Yongliang, et autres
Publié: (2026)
par: Miao, Yongliang, et autres
Publié: (2026)
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
par: Chen, Zhaorun, et autres
Publié: (2024)
par: Chen, Zhaorun, et autres
Publié: (2024)
Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling
par: Liu, Jiale, et autres
Publié: (2025)
par: Liu, Jiale, et autres
Publié: (2025)
Reward Model Routing in Alignment
par: Wu, Xinle, et autres
Publié: (2025)
par: Wu, Xinle, et autres
Publié: (2025)
Why is Your Language Model a Poor Implicit Reward Model?
par: Razin, Noam, et autres
Publié: (2025)
par: Razin, Noam, et autres
Publié: (2025)
Probabilistic Uncertain Reward Model
par: Sun, Wangtao, et autres
Publié: (2025)
par: Sun, Wangtao, et autres
Publié: (2025)
Fractional quantum anomalous Hall and anyon density-wave halo in a minimal interacting lattice model of twisted bilayer MoTe$_2$
par: Tuo, Chuyi, et autres
Publié: (2025)
par: Tuo, Chuyi, et autres
Publié: (2025)
RRO: LLM Agent Optimization Through Rising Reward Trajectories
par: Wang, Zilong, et autres
Publié: (2025)
par: Wang, Zilong, et autres
Publié: (2025)
R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging
par: Lai, Yanlin, et autres
Publié: (2026)
par: Lai, Yanlin, et autres
Publié: (2026)
Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks
par: Shen, William F., et autres
Publié: (2026)
par: Shen, William F., et autres
Publié: (2026)
From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
par: Hong, Yihan, et autres
Publié: (2026)
par: Hong, Yihan, et autres
Publié: (2026)
Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment
par: Feng, Qizhang, et autres
Publié: (2024)
par: Feng, Qizhang, et autres
Publié: (2024)
Documents similaires
-
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
par: Hong, Ilgee, et autres
Publié: (2025) -
Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only
par: Zhang, Qingru, et autres
Publié: (2025) -
Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
par: Guo, Siqi, et autres
Publié: (2025) -
Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
par: Zhang, Yuheng, et autres
Publié: (2025) -
Robust Reinforcement Learning from Corrupted Human Feedback
par: Bukharin, Alexander, et autres
Publié: (2024)