:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Tian, Juanxi, Liu, Fengyuan, Han, Jiaming, Jiang, Yilei, Wu, Yongliang, Liu, Yesheng, Li, Haodong, Xu, Furong, Li, Wanhua
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2605.08354
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Auto-Rubric: Learning From Implicit Weights to Explicit Rubrics for Reward Modeling
di: Xie, Lipeng, et al.
Pubblicazione: (2025)

AutoRubric: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning
di: Jia, Mengzhao, et al.
Pubblicazione: (2025)

Visual Preference Optimization with Rubric Rewards
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)

Explicit Preference Optimization: No Need for an Implicit Reward Model
di: Hu, Xiangkun, et al.
Pubblicazione: (2025)

From Demonstrations to Rewards: Alignment Without Explicit Human Preferences
di: Zeng, Siliang, et al.
Pubblicazione: (2025)

DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification
di: Liu, Rui, et al.
Pubblicazione: (2026)

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
di: Tian, Juanxi, et al.
Pubblicazione: (2025)

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
di: Liu, Tianci, et al.
Pubblicazione: (2025)

Sensitive “On‐Off” Fluorescent Sensor From N‐Doped Carbon Dots for Fe3+ Detection and Anticounterfeiting Applications
di: Zherui Wan, et al.
Pubblicazione: (2024)

Reinforcement Learning with Robust Rubric Rewards
di: Yu, Ya-Qi, et al.
Pubblicazione: (2026)

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
di: Li, Gaotang, et al.
Pubblicazione: (2026)

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
di: Tyagi, Utkarsh, et al.
Pubblicazione: (2026)

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling
di: Liu, Dengcan, et al.
Pubblicazione: (2026)

Aligning Large Language Models with Implicit Preferences from User-Generated Content
di: Tan, Zhaoxuan, et al.
Pubblicazione: (2025)

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation
di: Feng, Xuelu, et al.
Pubblicazione: (2025)

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents
di: Jiang, Yilei, et al.
Pubblicazione: (2025)

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
di: Kawabata, Akira, et al.
Pubblicazione: (2026)

AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code
di: Li, Shangzhan, et al.
Pubblicazione: (2026)

ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment
di: Wang, Hao, et al.
Pubblicazione: (2026)

Reward Hacking in Rubric-Based Reinforcement Learning
di: Mahmoud, Anas, et al.
Pubblicazione: (2026)

Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis
di: Kong, Zicheng, et al.
Pubblicazione: (2026)

Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks
di: Xu, Tianze, et al.
Pubblicazione: (2026)

Step-wise Rubric Rewards for LLM Reasoning
di: Xie, Weichu, et al.
Pubblicazione: (2026)

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
di: Lv, Changze, et al.
Pubblicazione: (2026)

AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
di: Kao, Kuei-Chun, et al.
Pubblicazione: (2026)

LangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images
di: Liu, Yilong, et al.
Pubblicazione: (2026)

IRIS: Implicit Reward-Guided Internal Sifting for Mitigating Multimodal Hallucination
di: Li, Yuanshuai, et al.
Pubblicazione: (2026)

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
di: Yang, Wen, et al.
Pubblicazione: (2025)

Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
di: Ye, Zhiling, et al.
Pubblicazione: (2025)

Reward Learning From Preference With Ties
di: Liu, Jinsong, et al.
Pubblicazione: (2024)

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
di: Li, Haodong, et al.
Pubblicazione: (2026)

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning
di: Li, Jianxiong, et al.
Pubblicazione: (2024)

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling
di: Lou, Xingzhou, et al.
Pubblicazione: (2024)

Rubric-Guided Process Reward for Stepwise Model Routing
di: Ye, Shenghao, et al.
Pubblicazione: (2026)

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
di: Gunjal, Anisha, et al.
Pubblicazione: (2025)

A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment
di: Yu, Hao
Pubblicazione: (2026)

Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
di: Pathmanathan, Pankayaraj, et al.
Pubblicazione: (2025)

Preference-Aware Rubric Learning for Personalized Evaluation
di: Qiu, Yilun, et al.
Pubblicazione: (2026)

Synthesis and Applications of Sulfur‐Containing Macrocycles
di: Chunhong Liu, et al.
Pubblicazione: (2026)

RiGS: Rigid-aware 4D Gaussian Splatting from a Single Monocular Video
di: Wu, Chenyu, et al.
Pubblicazione: (2026)