Salvato in:
| Autori principali: | Fang, Zhirui, Yang, Kai, Tao, Jian, Lyu, Jiafei, Li, Lusong, Shen, Li, Li, Xiu |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2505.11044 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Exploration and Anti-Exploration with Distributional Random Network Distillation
di: Yang, Kai, et al.
Pubblicazione: (2024)
di: Yang, Kai, et al.
Pubblicazione: (2024)
A Two-stage Reinforcement Learning-based Approach for Multi-entity Task Allocation
di: Gong, Aicheng, et al.
Pubblicazione: (2024)
di: Gong, Aicheng, et al.
Pubblicazione: (2024)
Mind the Model, Not the Agent: The Primacy Bias in Model-based RL
di: Qiao, Zhongjian, et al.
Pubblicazione: (2023)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2023)
Novelty-Guided Data Reuse for Efficient and Diversified Multi-Agent Reinforcement Learning
di: Chen, Yangkun, et al.
Pubblicazione: (2024)
di: Chen, Yangkun, et al.
Pubblicazione: (2024)
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
di: Yang, Kai, et al.
Pubblicazione: (2023)
di: Yang, Kai, et al.
Pubblicazione: (2023)
Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
Mildly Conservative Q-Learning for Offline Reinforcement Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2022)
di: Lyu, Jiafei, et al.
Pubblicazione: (2022)
Cross-Domain Policy Adaptation by Capturing Representation Mismatch
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning
di: Qiao, Zhongjian, et al.
Pubblicazione: (2024)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2024)
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation
di: Liu, Runze, et al.
Pubblicazione: (2023)
di: Liu, Runze, et al.
Pubblicazione: (2023)
World Models with Hints of Large Language Models for Goal Achieving
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)
A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning
di: Sun, Shengjie, et al.
Pubblicazione: (2024)
di: Sun, Shengjie, et al.
Pubblicazione: (2024)
Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)
VLP: Vision-Language Preference Learning for Embodied Manipulation
di: Liu, Runze, et al.
Pubblicazione: (2025)
di: Liu, Runze, et al.
Pubblicazione: (2025)
SEABO: A Simple Search-Based Method for Offline Imitation Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)
Temporal Difference Learning with Constrained Initial Representations
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)
Cross-Domain Offline Policy Adaptation via Selective Transition Correction
di: Yan, Mengbei, et al.
Pubblicazione: (2026)
di: Yan, Mengbei, et al.
Pubblicazione: (2026)
ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning
di: Liu, Zeyuan, et al.
Pubblicazione: (2025)
di: Liu, Zeyuan, et al.
Pubblicazione: (2025)
PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning
di: Sun, Shengjie, et al.
Pubblicazione: (2025)
di: Sun, Shengjie, et al.
Pubblicazione: (2025)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)
Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
di: Li, Shangzhe, et al.
Pubblicazione: (2025)
di: Li, Shangzhe, et al.
Pubblicazione: (2025)
A Huber Loss Minimization Approach to Mean Estimation under User-level Differential Privacy
di: Zhao, Puning, et al.
Pubblicazione: (2024)
di: Zhao, Puning, et al.
Pubblicazione: (2024)
Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)
Learning with User-Level Local Differential Privacy
di: Zhao, Puning, et al.
Pubblicazione: (2024)
di: Zhao, Puning, et al.
Pubblicazione: (2024)
Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
di: Kim, Jeonghye, et al.
Pubblicazione: (2026)
di: Kim, Jeonghye, et al.
Pubblicazione: (2026)
EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
di: Yang, Kai, et al.
Pubblicazione: (2025)
di: Yang, Kai, et al.
Pubblicazione: (2025)
Debiased Model-based Representations for Sample-efficient Continuous Control
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)
DR-Encoder: Encode Low-rank Gradients with Random Prior for Large Language Models Differentially Privately
di: Wu, Huiwen, et al.
Pubblicazione: (2024)
di: Wu, Huiwen, et al.
Pubblicazione: (2024)
Constraint-Aware Flow Matching via Randomized Exploration
di: Huan, Zhengyan, et al.
Pubblicazione: (2025)
di: Huan, Zhengyan, et al.
Pubblicazione: (2025)
ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift
di: Zhang, Songming, et al.
Pubblicazione: (2023)
di: Zhang, Songming, et al.
Pubblicazione: (2023)
CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning
di: Huang, Dongchi, et al.
Pubblicazione: (2025)
di: Huang, Dongchi, et al.
Pubblicazione: (2025)
On the Dynamics of Observation and Semantics
di: Li, Xiu
Pubblicazione: (2026)
di: Li, Xiu
Pubblicazione: (2026)
Unifying Value Alignment and Assignment in Cross-Domain Offline Reinforcement Learning with Heterogeneous Datasets
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)
Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
di: Li, Binghui, et al.
Pubblicazione: (2024)
di: Li, Binghui, et al.
Pubblicazione: (2024)
Revisiting Random Weight Perturbation for Efficiently Improving Generalization
di: Li, Tao, et al.
Pubblicazione: (2024)
di: Li, Tao, et al.
Pubblicazione: (2024)
Distributed Graph Embedding with Information-Oriented Random Walks
di: Fang, Peng, et al.
Pubblicazione: (2023)
di: Fang, Peng, et al.
Pubblicazione: (2023)
Visual Language Hypothesis
di: Li, Xiu
Pubblicazione: (2025)
di: Li, Xiu
Pubblicazione: (2025)
Embedding-perturbed Exploration Preference Optimization for Flow Models
di: Hu, Sujie, et al.
Pubblicazione: (2026)
di: Hu, Sujie, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Exploration and Anti-Exploration with Distributional Random Network Distillation
di: Yang, Kai, et al.
Pubblicazione: (2024) -
A Two-stage Reinforcement Learning-based Approach for Multi-entity Task Allocation
di: Gong, Aicheng, et al.
Pubblicazione: (2024) -
Mind the Model, Not the Agent: The Primacy Bias in Model-based RL
di: Qiao, Zhongjian, et al.
Pubblicazione: (2023) -
Novelty-Guided Data Reuse for Efficient and Diversified Multi-Agent Reinforcement Learning
di: Chen, Yangkun, et al.
Pubblicazione: (2024) -
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
di: Yang, Kai, et al.
Pubblicazione: (2023)