Enregistré dans:
| Auteurs principaux: | Wu, Jie, Gao, Yu, Ye, Zilyu, Li, Ming, Li, Liang, Guo, Hanzhong, Liu, Jie, Xue, Zeyue, Hou, Xiaoxia, Liu, Wei, Zeng, Yan, Huang, Weilin |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.08826 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
DanceGRPO: Unleashing GRPO on Visual Generation
par: Xue, Zeyue, et autres
Publié: (2025)
par: Xue, Zeyue, et autres
Publié: (2025)
Leveraging Verifier-Based Reinforcement Learning in Image Editing
par: Guo, Hanzhong, et autres
Publié: (2026)
par: Guo, Hanzhong, et autres
Publié: (2026)
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
par: Liu, Jie, et autres
Publié: (2026)
par: Liu, Jie, et autres
Publié: (2026)
Reward-Aware Trajectory Shaping for Few-step Visual Generation
par: Li, Rui, et autres
Publié: (2026)
par: Li, Rui, et autres
Publié: (2026)
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
par: Wang, Haozhe, et autres
Publié: (2026)
par: Wang, Haozhe, et autres
Publié: (2026)
A study on the relationship between online gaming behavior and suicidal ideation among college students
par: Shouting Lu, et autres
Publié: (2026)
par: Shouting Lu, et autres
Publié: (2026)
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
par: Liu, Chris Yuhao, et autres
Publié: (2024)
par: Liu, Chris Yuhao, et autres
Publié: (2024)
Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning
par: Zeng, Runhao, et autres
Publié: (2024)
par: Zeng, Runhao, et autres
Publié: (2024)
RewardAnything: Generalizable Principle-Following Reward Models
par: Yu, Zhuohao, et autres
Publié: (2025)
par: Yu, Zhuohao, et autres
Publié: (2025)
Learning to Generate Secure Code via Token-Level Rewards
par: Quan, Jiazheng, et autres
Publié: (2026)
par: Quan, Jiazheng, et autres
Publié: (2026)
InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization
par: Li, Ronghui, et autres
Publié: (2026)
par: Li, Ronghui, et autres
Publié: (2026)
On Designing Effective RL Reward at Training Time for LLM Reasoning
par: Gao, Jiaxuan, et autres
Publié: (2024)
par: Gao, Jiaxuan, et autres
Publié: (2024)
InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions
par: Li, Ronghui, et autres
Publié: (2024)
par: Li, Ronghui, et autres
Publié: (2024)
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives
par: Li, Ronghui, et autres
Publié: (2024)
par: Li, Ronghui, et autres
Publié: (2024)
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks
par: He, Xiaoyang, et autres
Publié: (2024)
par: He, Xiaoyang, et autres
Publié: (2024)
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation
par: Su, Yaofeng, et autres
Publié: (2026)
par: Su, Yaofeng, et autres
Publié: (2026)
Scaling Law for Quantization-Aware Training
par: Chen, Mengzhao, et autres
Publié: (2025)
par: Chen, Mengzhao, et autres
Publié: (2025)
Rewarding Creativity: A Human-Aligned Generative Reward Model for Reinforcement Learning in Storytelling
par: Li, Zhaoyan, et autres
Publié: (2026)
par: Li, Zhaoyan, et autres
Publié: (2026)
PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models
par: Deng, Fei, et autres
Publié: (2024)
par: Deng, Fei, et autres
Publié: (2024)
Inference-time Scaling for Diffusion-based Audio Super-resolution
par: Jin, Yizhu, et autres
Publié: (2025)
par: Jin, Yizhu, et autres
Publié: (2025)
Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
par: Yang, Yankai, et autres
Publié: (2026)
par: Yang, Yankai, et autres
Publié: (2026)
Exploring Pass-Rate Reward in Reinforcement Learning for Code Generation
par: Li, Xin-Ye, et autres
Publié: (2026)
par: Li, Xin-Ye, et autres
Publié: (2026)
Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
par: Ye, Zilyu, et autres
Publié: (2024)
par: Ye, Zilyu, et autres
Publié: (2024)
PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
par: Liu, Huadai, et autres
Publié: (2025)
par: Liu, Huadai, et autres
Publié: (2025)
Scaling Multiagent Systems with Process Rewards
par: Li, Ed, et autres
Publié: (2026)
par: Li, Ed, et autres
Publié: (2026)
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
par: Ye, Ziyi, et autres
Publié: (2024)
par: Ye, Ziyi, et autres
Publié: (2024)
Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft
par: Li, Hao, et autres
Publié: (2023)
par: Li, Hao, et autres
Publié: (2023)
RRM: Robust Reward Model Training Mitigates Reward Hacking
par: Liu, Tianqi, et autres
Publié: (2024)
par: Liu, Tianqi, et autres
Publié: (2024)
Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns
par: Li, Ronghui, et autres
Publié: (2024)
par: Li, Ronghui, et autres
Publié: (2024)
Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
par: Zeng, Xia, et autres
Publié: (2025)
par: Zeng, Xia, et autres
Publié: (2025)
Long-form RewardBench: Evaluating Reward Models for Long-form Generation
par: Huang, Hui, et autres
Publié: (2026)
par: Huang, Hui, et autres
Publié: (2026)
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
par: Li, Lei, et autres
Publié: (2024)
par: Li, Lei, et autres
Publié: (2024)
Auxiliary Reward Generation with Transition Distance Representation Learning
par: Li, Siyuan, et autres
Publié: (2024)
par: Li, Siyuan, et autres
Publié: (2024)
QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation
par: Zhou, Zhizhen, et autres
Publié: (2024)
par: Zhou, Zhizhen, et autres
Publié: (2024)
SemiReward: A General Reward Model for Semi-supervised Learning
par: Li, Siyuan, et autres
Publié: (2023)
par: Li, Siyuan, et autres
Publié: (2023)
AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
par: Huang, Runhui, et autres
Publié: (2026)
par: Huang, Runhui, et autres
Publié: (2026)
Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
par: Liu, Chris Yuhao, et autres
Publié: (2025)
par: Liu, Chris Yuhao, et autres
Publié: (2025)
Reward Reasoning Model
par: Guo, Jiaxin, et autres
Publié: (2025)
par: Guo, Jiaxin, et autres
Publié: (2025)
On Truthful Item-Acquiring Mechanisms for Reward Maximization
par: Shan, Liang, et autres
Publié: (2024)
par: Shan, Liang, et autres
Publié: (2024)
GRAM: A Generative Foundation Reward Model for Reward Generalization
par: Wang, Chenglong, et autres
Publié: (2025)
par: Wang, Chenglong, et autres
Publié: (2025)
Documents similaires
-
DanceGRPO: Unleashing GRPO on Visual Generation
par: Xue, Zeyue, et autres
Publié: (2025) -
Leveraging Verifier-Based Reinforcement Learning in Image Editing
par: Guo, Hanzhong, et autres
Publié: (2026) -
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
par: Liu, Jie, et autres
Publié: (2026) -
Reward-Aware Trajectory Shaping for Few-step Visual Generation
par: Li, Rui, et autres
Publié: (2026) -
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
par: Wang, Haozhe, et autres
Publié: (2026)