:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Su, Jianhai, Luo, Jinzhu, Zhang, Qi
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2512.00383
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
par: Mark, Max Sobol, et autres
Publié: (2024)

Budgeting Counterfactual for Offline RL
par: Liu, Yao, et autres
Publié: (2023)

Action-Free Offline-to-Online RL via Discretised State Policies
par: Neggatu, Natinael Solomon, et autres
Publié: (2026)

Dual Alignment Maximin Optimization for Offline Model-based RL
par: Zhou, Chi, et autres
Publié: (2025)

Selective Uncertainty Propagation in Offline RL
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)

Decoupled Prioritized Resampling for Offline RL
par: Yue, Yang, et autres
Publié: (2023)

Augmenting Offline RL with Unlabeled Data
par: Wang, Zhao, et autres
Publié: (2024)

Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption
par: He, Longxiang, et autres
Publié: (2025)

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling
par: Zhang, Yiqi, et autres
Publié: (2026)

An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model
par: Kang, Enoch H., et autres
Publié: (2025)

Design Considerations in Offline Preference-based RL
par: Agarwal, Alekh, et autres
Publié: (2025)

A Tractable Inference Perspective of Offline RL
par: Liu, Xuejie, et autres
Publié: (2023)

Are Expressive Models Truly Necessary for Offline RL?
par: Wang, Guan, et autres
Publié: (2024)

OGBench: Benchmarking Offline Goal-Conditioned RL
par: Park, Seohong, et autres
Publié: (2024)

Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
par: Xiao, Wei, et autres
Publié: (2025)

Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies
par: Chen, Jiaqi, et autres
Publié: (2025)

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
par: Nakamoto, Mitsuhiko, et autres
Publié: (2023)

Online Finetuning Decision Transformers with Pure RL Gradients
par: Luo, Junkai, et autres
Publié: (2026)

H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps
par: Niu, Haoyi, et autres
Publié: (2023)

Yes, Q-learning Helps Offline In-Context RL
par: Tarasov, Denis, et autres
Publié: (2025)

Scalable Offline Model-Based RL with Action Chunks
par: Park, Kwanyoung, et autres
Publié: (2025)

Offline Multi-task Transfer RL with Representational Penalization
par: Bose, Avinandan, et autres
Publié: (2024)

Is Value Learning Really the Main Bottleneck in Offline RL?
par: Park, Seohong, et autres
Publié: (2024)

The Role of Deep Learning Regularizations on Actors in Offline RL
par: Tarasov, Denis, et autres
Publié: (2024)

Language-Conditioned Offline RL for Multi-Robot Navigation
par: Morad, Steven, et autres
Publié: (2024)

Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood
par: Yao, Qingmao, et autres
Publié: (2025)

Offline RLAIF: Piloting VLM Feedback for RL via SFO
par: Beck, Jacob
Publié: (2025)

Integrating Domain Knowledge for handling Limited Data in Offline RL
par: Gangopadhyay, Briti, et autres
Publié: (2024)

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
par: Luo, Yu, et autres
Publié: (2024)

Reinforcement Learning with Euclidean Data Augmentation for State-Based Continuous Control
par: Luo, Jinzhu, et autres
Publié: (2024)

Failure-Aware RL: Reliable Offline-to-Online Reinforcement Learning with Self-Recovery for Real-World Manipulation
par: Li, Huanyu, et autres
Publié: (2026)

STO-RL: Offline RL under Sparse Rewards via LLM-Guided Subgoal Temporal Order
par: Gu, Chengyang, et autres
Publié: (2026)

HIQL: Offline Goal-Conditioned RL with Latent States as Actions
par: Park, Seohong, et autres
Publié: (2023)

GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL
par: Liu, Zifan, et autres
Publié: (2026)

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
par: Chen, Ziru, et autres
Publié: (2026)

Scaling Offline RL via Efficient and Expressive Shortcut Models
par: Espinosa-Dice, Nicolas, et autres
Publié: (2025)

Toward Explainable Offline RL: Analyzing Representations in Intrinsically Motivated Decision Transformers
par: Guiducci, Leonardo, et autres
Publié: (2025)

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation
par: Zhang, Songyuan, et autres
Publié: (2026)

Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL
par: Choi, Jinwoo, et autres
Publié: (2026)

OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
par: Lim, Yooseok, et autres
Publié: (2024)