:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Wu, Jie, Gao, Yu, Ye, Zilyu, Li, Ming, Li, Liang, Guo, Hanzhong, Liu, Jie, Xue, Zeyue, Hou, Xiaoxia, Liu, Wei, Zeng, Yan, Huang, Weilin
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2509.08826
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

DanceGRPO: Unleashing GRPO on Visual Generation
par: Xue, Zeyue, et autres
Publié: (2025)

Leveraging Verifier-Based Reinforcement Learning in Image Editing
par: Guo, Hanzhong, et autres
Publié: (2026)

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
par: Liu, Jie, et autres
Publié: (2026)

Reward-Aware Trajectory Shaping for Few-step Visual Generation
par: Li, Rui, et autres
Publié: (2026)

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
par: Wang, Haozhe, et autres
Publié: (2026)

A study on the relationship between online gaming behavior and suicidal ideation among college students
par: Shouting Lu, et autres
Publié: (2026)

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
par: Liu, Chris Yuhao, et autres
Publié: (2024)

Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning
par: Zeng, Runhao, et autres
Publié: (2024)

RewardAnything: Generalizable Principle-Following Reward Models
par: Yu, Zhuohao, et autres
Publié: (2025)

Learning to Generate Secure Code via Token-Level Rewards
par: Quan, Jiazheng, et autres
Publié: (2026)

InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization
par: Li, Ronghui, et autres
Publié: (2026)

On Designing Effective RL Reward at Training Time for LLM Reasoning
par: Gao, Jiaxuan, et autres
Publié: (2024)

InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions
par: Li, Ronghui, et autres
Publié: (2024)

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives
par: Li, Ronghui, et autres
Publié: (2024)

Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks
par: He, Xiaoyang, et autres
Publié: (2024)

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation
par: Su, Yaofeng, et autres
Publié: (2026)

Scaling Law for Quantization-Aware Training
par: Chen, Mengzhao, et autres
Publié: (2025)

Rewarding Creativity: A Human-Aligned Generative Reward Model for Reinforcement Learning in Storytelling
par: Li, Zhaoyan, et autres
Publié: (2026)

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models
par: Deng, Fei, et autres
Publié: (2024)

Inference-time Scaling for Diffusion-based Audio Super-resolution
par: Jin, Yizhu, et autres
Publié: (2025)

Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
par: Yang, Yankai, et autres
Publié: (2026)

Exploring Pass-Rate Reward in Reinforcement Learning for Code Generation
par: Li, Xin-Ye, et autres
Publié: (2026)

Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
par: Ye, Zilyu, et autres
Publié: (2024)

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
par: Liu, Huadai, et autres
Publié: (2025)

Scaling Multiagent Systems with Process Rewards
par: Li, Ed, et autres
Publié: (2026)

Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
par: Ye, Ziyi, et autres
Publié: (2024)

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft
par: Li, Hao, et autres
Publié: (2023)

RRM: Robust Reward Model Training Mitigates Reward Hacking
par: Liu, Tianqi, et autres
Publié: (2024)

Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns
par: Li, Ronghui, et autres
Publié: (2024)

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
par: Zeng, Xia, et autres
Publié: (2025)

Long-form RewardBench: Evaluating Reward Models for Long-form Generation
par: Huang, Hui, et autres
Publié: (2026)

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
par: Li, Lei, et autres
Publié: (2024)

Auxiliary Reward Generation with Transition Distance Representation Learning
par: Li, Siyuan, et autres
Publié: (2024)

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation
par: Zhou, Zhizhen, et autres
Publié: (2024)

SemiReward: A General Reward Model for Semi-supervised Learning
par: Li, Siyuan, et autres
Publié: (2023)

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
par: Huang, Runhui, et autres
Publié: (2026)

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
par: Liu, Chris Yuhao, et autres
Publié: (2025)

Reward Reasoning Model
par: Guo, Jiaxin, et autres
Publié: (2025)

On Truthful Item-Acquiring Mechanisms for Reward Maximization
par: Shan, Liang, et autres
Publié: (2024)

GRAM: A Generative Foundation Reward Model for Reward Generalization
par: Wang, Chenglong, et autres
Publié: (2025)