Enregistré dans:
| Auteur principal: | Cao, Wenjun |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2504.18766 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models
par: Nath, Vaskar, et autres
Publié: (2025)
par: Nath, Vaskar, et autres
Publié: (2025)
Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning
par: Malomgré, Elias, et autres
Publié: (2025)
par: Malomgré, Elias, et autres
Publié: (2025)
Unveiling the Role of Expert Guidance: A Comparative Analysis of User-centered Imitation Learning and Traditional Reinforcement Learning
par: Gomaa, Amr, et autres
Publié: (2024)
par: Gomaa, Amr, et autres
Publié: (2024)
SAMG: Offline-to-Online Reinforcement Learning via State-Action-Conditional Offline Model Guidance
par: Zhang, Liyu, et autres
Publié: (2024)
par: Zhang, Liyu, et autres
Publié: (2024)
Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning
par: Yuan, Mingqi, et autres
Publié: (2025)
par: Yuan, Mingqi, et autres
Publié: (2025)
Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning
par: Lu, Jian
Publié: (2025)
par: Lu, Jian
Publié: (2025)
Reinforcement Learning via Implicit Imitation Guidance
par: Dong, Perry, et autres
Publié: (2025)
par: Dong, Perry, et autres
Publié: (2025)
Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization
par: Cao, Wenjun
Publié: (2025)
par: Cao, Wenjun
Publié: (2025)
Beyond Interpolation: Extrapolative Reasoning with Reinforcement Learning and Graph Neural Networks
par: Grillo, Niccolò, et autres
Publié: (2025)
par: Grillo, Niccolò, et autres
Publié: (2025)
Speculating Experts Accelerates Inference for Mixture-of-Experts
par: Madan, Vivan, et autres
Publié: (2026)
par: Madan, Vivan, et autres
Publié: (2026)
Adaptive Action Duration with Contextual Bandits for Deep Reinforcement Learning in Dynamic Environments
par: Verma, Abhishek, et autres
Publié: (2025)
par: Verma, Abhishek, et autres
Publié: (2025)
Adaptive Data Exploitation in Deep Reinforcement Learning
par: Yuan, Mingqi, et autres
Publié: (2025)
par: Yuan, Mingqi, et autres
Publié: (2025)
Mixture-of-Experts Meets In-Context Reinforcement Learning
par: Wu, Wenhao, et autres
Publié: (2025)
par: Wu, Wenhao, et autres
Publié: (2025)
Inverse Reinforcement Learning with Sub-optimal Experts
par: Poiani, Riccardo, et autres
Publié: (2024)
par: Poiani, Riccardo, et autres
Publié: (2024)
GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning
par: Liu, Ziru, et autres
Publié: (2025)
par: Liu, Ziru, et autres
Publié: (2025)
Decoupled Guidance Diffusion for Adaptive Offline Safe Reinforcement Learning
par: Chen, Rufeng, et autres
Publié: (2026)
par: Chen, Rufeng, et autres
Publié: (2026)
GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning
par: Lee, Jaewoo, et autres
Publié: (2024)
par: Lee, Jaewoo, et autres
Publié: (2024)
Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning
par: Mao, Liyuan, et autres
Publié: (2024)
par: Mao, Liyuan, et autres
Publié: (2024)
Reinforcement Learning with Action Chunking
par: Li, Qiyang, et autres
Publié: (2025)
par: Li, Qiyang, et autres
Publié: (2025)
Accelerating Mixture-of-Expert Inference with Adaptive Expert Split Mechanism
par: Yan, Jiaming, et autres
Publié: (2025)
par: Yan, Jiaming, et autres
Publié: (2025)
UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning
par: Ma, Oubo, et autres
Publié: (2025)
par: Ma, Oubo, et autres
Publié: (2025)
Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance
par: Jin, Luozhijie, et autres
Publié: (2025)
par: Jin, Luozhijie, et autres
Publié: (2025)
Efficient Multi-Task Reinforcement Learning with Cross-Task Policy Guidance
par: He, Jinmin, et autres
Publié: (2025)
par: He, Jinmin, et autres
Publié: (2025)
MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance
par: Nourzad, Narjes, et autres
Publié: (2026)
par: Nourzad, Narjes, et autres
Publié: (2026)
Counterfactual Explanations for Continuous Action Reinforcement Learning
par: Dong, Shuyang, et autres
Publié: (2025)
par: Dong, Shuyang, et autres
Publié: (2025)
In-Context Reinforcement Learning for Variable Action Spaces
par: Sinii, Viacheslav, et autres
Publié: (2023)
par: Sinii, Viacheslav, et autres
Publié: (2023)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts
par: Jin, Peng, et autres
Publié: (2024)
par: Jin, Peng, et autres
Publié: (2024)
Adaptive Guidance for Local Training in Heterogeneous Federated Learning
par: Zhang, Jianqing, et autres
Publié: (2024)
par: Zhang, Jianqing, et autres
Publié: (2024)
Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning
par: Han, Xinchen, et autres
Publié: (2026)
par: Han, Xinchen, et autres
Publié: (2026)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning
par: Yuan, Mingqi, et autres
Publié: (2025)
par: Yuan, Mingqi, et autres
Publié: (2025)
The Alignment Bottleneck
par: Cao, Wenjun
Publié: (2025)
par: Cao, Wenjun
Publié: (2025)
Human-Inspired Framework to Accelerate Reinforcement Learning
par: Beikmohammadi, Ali, et autres
Publié: (2023)
par: Beikmohammadi, Ali, et autres
Publié: (2023)
Reinforcement Learning with Curriculum-inspired Adaptive Direct Policy Guidance for Truck Dispatching
par: Meng, Shi, et autres
Publié: (2025)
par: Meng, Shi, et autres
Publié: (2025)
Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples
par: Meng, Li, et autres
Publié: (2021)
par: Meng, Li, et autres
Publié: (2021)
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
par: Hu, Xing, et autres
Publié: (2025)
par: Hu, Xing, et autres
Publié: (2025)
Offline Reinforcement Learning with Penalized Action Noise Injection
par: Oh, JunHyeok, et autres
Publié: (2025)
par: Oh, JunHyeok, et autres
Publié: (2025)
Context-Sensitive Abstractions for Reinforcement Learning with Parameterized Actions
par: Nayyar, Rashmeet Kaur, et autres
Publié: (2025)
par: Nayyar, Rashmeet Kaur, et autres
Publié: (2025)
Model-based Reinforcement Learning for Parameterized Action Spaces
par: Zhang, Renhao, et autres
Publié: (2024)
par: Zhang, Renhao, et autres
Publié: (2024)
On the Geometry of Reinforcement Learning in Continuous State and Action Spaces
par: Tiwari, Saket, et autres
Publié: (2022)
par: Tiwari, Saket, et autres
Publié: (2022)
Neuro-symbolic Action Masking for Deep Reinforcement Learning
par: Han, Shuai, et autres
Publié: (2026)
par: Han, Shuai, et autres
Publié: (2026)
Documents similaires
-
Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models
par: Nath, Vaskar, et autres
Publié: (2025) -
Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning
par: Malomgré, Elias, et autres
Publié: (2025) -
Unveiling the Role of Expert Guidance: A Comparative Analysis of User-centered Imitation Learning and Traditional Reinforcement Learning
par: Gomaa, Amr, et autres
Publié: (2024) -
SAMG: Offline-to-Online Reinforcement Learning via State-Action-Conditional Offline Model Guidance
par: Zhang, Liyu, et autres
Publié: (2024) -
Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning
par: Yuan, Mingqi, et autres
Publié: (2025)