Salvato in:
| Autori principali: | Tian, Juanxi, Liu, Fengyuan, Han, Jiaming, Jiang, Yilei, Wu, Yongliang, Liu, Yesheng, Li, Haodong, Xu, Furong, Li, Wanhua |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.08354 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Auto-Rubric: Learning From Implicit Weights to Explicit Rubrics for Reward Modeling
di: Xie, Lipeng, et al.
Pubblicazione: (2025)
di: Xie, Lipeng, et al.
Pubblicazione: (2025)
AutoRubric: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning
di: Jia, Mengzhao, et al.
Pubblicazione: (2025)
di: Jia, Mengzhao, et al.
Pubblicazione: (2025)
Visual Preference Optimization with Rubric Rewards
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)
Explicit Preference Optimization: No Need for an Implicit Reward Model
di: Hu, Xiangkun, et al.
Pubblicazione: (2025)
di: Hu, Xiangkun, et al.
Pubblicazione: (2025)
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences
di: Zeng, Siliang, et al.
Pubblicazione: (2025)
di: Zeng, Siliang, et al.
Pubblicazione: (2025)
DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
di: Liu, Rui, et al.
Pubblicazione: (2026)
di: Liu, Rui, et al.
Pubblicazione: (2026)
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
di: Tian, Juanxi, et al.
Pubblicazione: (2025)
di: Tian, Juanxi, et al.
Pubblicazione: (2025)
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
di: Liu, Tianci, et al.
Pubblicazione: (2025)
di: Liu, Tianci, et al.
Pubblicazione: (2025)
Sensitive “On‐Off” Fluorescent Sensor From N‐Doped Carbon Dots for Fe3+ Detection and Anticounterfeiting Applications
di: Zherui Wan, et al.
Pubblicazione: (2024)
di: Zherui Wan, et al.
Pubblicazione: (2024)
Reinforcement Learning with Robust Rubric Rewards
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
di: Li, Gaotang, et al.
Pubblicazione: (2026)
di: Li, Gaotang, et al.
Pubblicazione: (2026)
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
di: Tyagi, Utkarsh, et al.
Pubblicazione: (2026)
di: Tyagi, Utkarsh, et al.
Pubblicazione: (2026)
CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling
di: Liu, Dengcan, et al.
Pubblicazione: (2026)
di: Liu, Dengcan, et al.
Pubblicazione: (2026)
Aligning Large Language Models with Implicit Preferences from User-Generated Content
di: Tan, Zhaoxuan, et al.
Pubblicazione: (2025)
di: Tan, Zhaoxuan, et al.
Pubblicazione: (2025)
RubricRL: Simple Generalizable Rewards for Text-to-Image Generation
di: Feng, Xuelu, et al.
Pubblicazione: (2025)
di: Feng, Xuelu, et al.
Pubblicazione: (2025)
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents
di: Jiang, Yilei, et al.
Pubblicazione: (2025)
di: Jiang, Yilei, et al.
Pubblicazione: (2025)
C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
di: Kawabata, Akira, et al.
Pubblicazione: (2026)
di: Kawabata, Akira, et al.
Pubblicazione: (2026)
AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code
di: Li, Shangzhan, et al.
Pubblicazione: (2026)
di: Li, Shangzhan, et al.
Pubblicazione: (2026)
ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment
di: Wang, Hao, et al.
Pubblicazione: (2026)
di: Wang, Hao, et al.
Pubblicazione: (2026)
Reward Hacking in Rubric-Based Reinforcement Learning
di: Mahmoud, Anas, et al.
Pubblicazione: (2026)
di: Mahmoud, Anas, et al.
Pubblicazione: (2026)
Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis
di: Kong, Zicheng, et al.
Pubblicazione: (2026)
di: Kong, Zicheng, et al.
Pubblicazione: (2026)
Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks
di: Xu, Tianze, et al.
Pubblicazione: (2026)
di: Xu, Tianze, et al.
Pubblicazione: (2026)
Step-wise Rubric Rewards for LLM Reasoning
di: Xie, Weichu, et al.
Pubblicazione: (2026)
di: Xie, Weichu, et al.
Pubblicazione: (2026)
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
di: Lv, Changze, et al.
Pubblicazione: (2026)
di: Lv, Changze, et al.
Pubblicazione: (2026)
AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
di: Kao, Kuei-Chun, et al.
Pubblicazione: (2026)
di: Kao, Kuei-Chun, et al.
Pubblicazione: (2026)
LangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images
di: Liu, Yilong, et al.
Pubblicazione: (2026)
di: Liu, Yilong, et al.
Pubblicazione: (2026)
IRIS: Implicit Reward-Guided Internal Sifting for Mitigating Multimodal Hallucination
di: Li, Yuanshuai, et al.
Pubblicazione: (2026)
di: Li, Yuanshuai, et al.
Pubblicazione: (2026)
Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
di: Yang, Wen, et al.
Pubblicazione: (2025)
di: Yang, Wen, et al.
Pubblicazione: (2025)
Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
di: Ye, Zhiling, et al.
Pubblicazione: (2025)
di: Ye, Zhiling, et al.
Pubblicazione: (2025)
Reward Learning From Preference With Ties
di: Liu, Jinsong, et al.
Pubblicazione: (2024)
di: Liu, Jinsong, et al.
Pubblicazione: (2024)
CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
di: Li, Haodong, et al.
Pubblicazione: (2026)
di: Li, Haodong, et al.
Pubblicazione: (2026)
DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning
di: Li, Jianxiong, et al.
Pubblicazione: (2024)
di: Li, Jianxiong, et al.
Pubblicazione: (2024)
SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling
di: Lou, Xingzhou, et al.
Pubblicazione: (2024)
di: Lou, Xingzhou, et al.
Pubblicazione: (2024)
Rubric-Guided Process Reward for Stepwise Model Routing
di: Ye, Shenghao, et al.
Pubblicazione: (2026)
di: Ye, Shenghao, et al.
Pubblicazione: (2026)
Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
di: Gunjal, Anisha, et al.
Pubblicazione: (2025)
di: Gunjal, Anisha, et al.
Pubblicazione: (2025)
A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment
di: Yu, Hao
Pubblicazione: (2026)
di: Yu, Hao
Pubblicazione: (2026)
Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
di: Pathmanathan, Pankayaraj, et al.
Pubblicazione: (2025)
di: Pathmanathan, Pankayaraj, et al.
Pubblicazione: (2025)
Preference-Aware Rubric Learning for Personalized Evaluation
di: Qiu, Yilun, et al.
Pubblicazione: (2026)
di: Qiu, Yilun, et al.
Pubblicazione: (2026)
Synthesis and Applications of Sulfur‐Containing Macrocycles
di: Chunhong Liu, et al.
Pubblicazione: (2026)
di: Chunhong Liu, et al.
Pubblicazione: (2026)
RiGS: Rigid-aware 4D Gaussian Splatting from a Single Monocular Video
di: Wu, Chenyu, et al.
Pubblicazione: (2026)
di: Wu, Chenyu, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Auto-Rubric: Learning From Implicit Weights to Explicit Rubrics for Reward Modeling
di: Xie, Lipeng, et al.
Pubblicazione: (2025) -
AutoRubric: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning
di: Jia, Mengzhao, et al.
Pubblicazione: (2025) -
Visual Preference Optimization with Rubric Rewards
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026) -
Explicit Preference Optimization: No Need for an Implicit Reward Model
di: Hu, Xiangkun, et al.
Pubblicazione: (2025) -
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences
di: Zeng, Siliang, et al.
Pubblicazione: (2025)