Enregistré dans:
| Auteurs principaux: | Su, Jianhai, Luo, Jinzhu, Zhang, Qi |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.00383 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
par: Mark, Max Sobol, et autres
Publié: (2024)
par: Mark, Max Sobol, et autres
Publié: (2024)
Budgeting Counterfactual for Offline RL
par: Liu, Yao, et autres
Publié: (2023)
par: Liu, Yao, et autres
Publié: (2023)
Action-Free Offline-to-Online RL via Discretised State Policies
par: Neggatu, Natinael Solomon, et autres
Publié: (2026)
par: Neggatu, Natinael Solomon, et autres
Publié: (2026)
Dual Alignment Maximin Optimization for Offline Model-based RL
par: Zhou, Chi, et autres
Publié: (2025)
par: Zhou, Chi, et autres
Publié: (2025)
Selective Uncertainty Propagation in Offline RL
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)
Decoupled Prioritized Resampling for Offline RL
par: Yue, Yang, et autres
Publié: (2023)
par: Yue, Yang, et autres
Publié: (2023)
Augmenting Offline RL with Unlabeled Data
par: Wang, Zhao, et autres
Publié: (2024)
par: Wang, Zhao, et autres
Publié: (2024)
Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption
par: He, Longxiang, et autres
Publié: (2025)
par: He, Longxiang, et autres
Publié: (2025)
SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling
par: Zhang, Yiqi, et autres
Publié: (2026)
par: Zhang, Yiqi, et autres
Publié: (2026)
An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model
par: Kang, Enoch H., et autres
Publié: (2025)
par: Kang, Enoch H., et autres
Publié: (2025)
Design Considerations in Offline Preference-based RL
par: Agarwal, Alekh, et autres
Publié: (2025)
par: Agarwal, Alekh, et autres
Publié: (2025)
A Tractable Inference Perspective of Offline RL
par: Liu, Xuejie, et autres
Publié: (2023)
par: Liu, Xuejie, et autres
Publié: (2023)
Are Expressive Models Truly Necessary for Offline RL?
par: Wang, Guan, et autres
Publié: (2024)
par: Wang, Guan, et autres
Publié: (2024)
OGBench: Benchmarking Offline Goal-Conditioned RL
par: Park, Seohong, et autres
Publié: (2024)
par: Park, Seohong, et autres
Publié: (2024)
Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
par: Xiao, Wei, et autres
Publié: (2025)
par: Xiao, Wei, et autres
Publié: (2025)
Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies
par: Chen, Jiaqi, et autres
Publié: (2025)
par: Chen, Jiaqi, et autres
Publié: (2025)
Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
par: Nakamoto, Mitsuhiko, et autres
Publié: (2023)
par: Nakamoto, Mitsuhiko, et autres
Publié: (2023)
Online Finetuning Decision Transformers with Pure RL Gradients
par: Luo, Junkai, et autres
Publié: (2026)
par: Luo, Junkai, et autres
Publié: (2026)
H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps
par: Niu, Haoyi, et autres
Publié: (2023)
par: Niu, Haoyi, et autres
Publié: (2023)
Yes, Q-learning Helps Offline In-Context RL
par: Tarasov, Denis, et autres
Publié: (2025)
par: Tarasov, Denis, et autres
Publié: (2025)
Scalable Offline Model-Based RL with Action Chunks
par: Park, Kwanyoung, et autres
Publié: (2025)
par: Park, Kwanyoung, et autres
Publié: (2025)
Offline Multi-task Transfer RL with Representational Penalization
par: Bose, Avinandan, et autres
Publié: (2024)
par: Bose, Avinandan, et autres
Publié: (2024)
Is Value Learning Really the Main Bottleneck in Offline RL?
par: Park, Seohong, et autres
Publié: (2024)
par: Park, Seohong, et autres
Publié: (2024)
The Role of Deep Learning Regularizations on Actors in Offline RL
par: Tarasov, Denis, et autres
Publié: (2024)
par: Tarasov, Denis, et autres
Publié: (2024)
Language-Conditioned Offline RL for Multi-Robot Navigation
par: Morad, Steven, et autres
Publié: (2024)
par: Morad, Steven, et autres
Publié: (2024)
Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood
par: Yao, Qingmao, et autres
Publié: (2025)
par: Yao, Qingmao, et autres
Publié: (2025)
Offline RLAIF: Piloting VLM Feedback for RL via SFO
par: Beck, Jacob
Publié: (2025)
par: Beck, Jacob
Publié: (2025)
Integrating Domain Knowledge for handling Limited Data in Offline RL
par: Gangopadhyay, Briti, et autres
Publié: (2024)
par: Gangopadhyay, Briti, et autres
Publié: (2024)
Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
par: Luo, Yu, et autres
Publié: (2024)
par: Luo, Yu, et autres
Publié: (2024)
Reinforcement Learning with Euclidean Data Augmentation for State-Based Continuous Control
par: Luo, Jinzhu, et autres
Publié: (2024)
par: Luo, Jinzhu, et autres
Publié: (2024)
Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation
par: Li, Huanyu, et autres
Publié: (2026)
par: Li, Huanyu, et autres
Publié: (2026)
STO-RL: Offline RL under Sparse Rewards via LLM-Guided Subgoal Temporal Order
par: Gu, Chengyang, et autres
Publié: (2026)
par: Gu, Chengyang, et autres
Publié: (2026)
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
par: Park, Seohong, et autres
Publié: (2023)
par: Park, Seohong, et autres
Publié: (2023)
GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL
par: Liu, Zifan, et autres
Publié: (2026)
par: Liu, Zifan, et autres
Publié: (2026)
Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
par: Chen, Ziru, et autres
Publié: (2026)
par: Chen, Ziru, et autres
Publié: (2026)
Scaling Offline RL via Efficient and Expressive Shortcut Models
par: Espinosa-Dice, Nicolas, et autres
Publié: (2025)
par: Espinosa-Dice, Nicolas, et autres
Publié: (2025)
Toward Explainable Offline RL: Analyzing Representations in Intrinsically Motivated Decision Transformers
par: Guiducci, Leonardo, et autres
Publié: (2025)
par: Guiducci, Leonardo, et autres
Publié: (2025)
ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation
par: Zhang, Songyuan, et autres
Publié: (2026)
par: Zhang, Songyuan, et autres
Publié: (2026)
Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
par: Choi, Jinwoo, et autres
Publié: (2026)
par: Choi, Jinwoo, et autres
Publié: (2026)
OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
par: Lim, Yooseok, et autres
Publié: (2024)
par: Lim, Yooseok, et autres
Publié: (2024)
Documents similaires
-
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
par: Mark, Max Sobol, et autres
Publié: (2024) -
Budgeting Counterfactual for Offline RL
par: Liu, Yao, et autres
Publié: (2023) -
Action-Free Offline-to-Online RL via Discretised State Policies
par: Neggatu, Natinael Solomon, et autres
Publié: (2026) -
Dual Alignment Maximin Optimization for Offline Model-based RL
par: Zhou, Chi, et autres
Publié: (2025) -
Selective Uncertainty Propagation in Offline RL
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)