:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Fang, Zhirui, Yang, Kai, Tao, Jian, Lyu, Jiafei, Li, Lusong, Shen, Li, Li, Xiu
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2505.11044
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Exploration and Anti-Exploration with Distributional Random Network Distillation
di: Yang, Kai, et al.
Pubblicazione: (2024)

A Two-stage Reinforcement Learning-based Approach for Multi-entity Task Allocation
di: Gong, Aicheng, et al.
Pubblicazione: (2024)

Mind the Model, Not the Agent: The Primacy Bias in Model-based RL
di: Qiao, Zhongjian, et al.
Pubblicazione: (2023)

Novelty-Guided Data Reuse for Efficient and Diversified Multi-Agent Reinforcement Learning
di: Chen, Yangkun, et al.
Pubblicazione: (2024)

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
di: Yang, Kai, et al.
Pubblicazione: (2023)

Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)

Mildly Conservative Q-Learning for Offline Reinforcement Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2022)

Cross-Domain Policy Adaptation by Capturing Representation Mismatch
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)

SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning
di: Qiao, Zhongjian, et al.
Pubblicazione: (2024)

PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation
di: Liu, Runze, et al.
Pubblicazione: (2023)

World Models with Hints of Large Language Models for Goal Achieving
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)

A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning
di: Sun, Shengjie, et al.
Pubblicazione: (2024)

Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)

VLP: Vision-Language Preference Learning for Embodied Manipulation
di: Liu, Runze, et al.
Pubblicazione: (2025)

SEABO: A Simple Search-Based Method for Offline Imitation Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
di: Qiao, Zhongjian, et al.
Pubblicazione: (2025)

Temporal Difference Learning with Constrained Initial Representations
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)

Cross-Domain Offline Policy Adaptation via Selective Transition Correction
di: Yan, Mengbei, et al.
Pubblicazione: (2026)

ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning
di: Liu, Zeyuan, et al.
Pubblicazione: (2025)

PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning
di: Sun, Shengjie, et al.
Pubblicazione: (2025)

ODRL: A Benchmark for Off-Dynamics Reinforcement Learning
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)

CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning
di: Liu, Zeyuan, et al.
Pubblicazione: (2024)

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
di: Li, Shangzhe, et al.
Pubblicazione: (2025)

A Huber Loss Minimization Approach to Mean Estimation under User-level Differential Privacy
di: Zhao, Puning, et al.
Pubblicazione: (2024)

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)

Learning with User-Level Local Differential Privacy
di: Zhao, Puning, et al.
Pubblicazione: (2024)

Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
di: Kim, Jeonghye, et al.
Pubblicazione: (2026)

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control
di: Yang, Kai, et al.
Pubblicazione: (2025)

Debiased Model-based Representations for Sample-efficient Continuous Control
di: Lyu, Jiafei, et al.
Pubblicazione: (2026)

DR-Encoder: Encode Low-rank Gradients with Random Prior for Large Language Models Differentially Privately
di: Wu, Huiwen, et al.
Pubblicazione: (2024)

Constraint-Aware Flow Matching via Randomized Exploration
di: Huan, Zhengyan, et al.
Pubblicazione: (2025)

ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift
di: Zhang, Songming, et al.
Pubblicazione: (2023)

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning
di: Huang, Dongchi, et al.
Pubblicazione: (2025)

On the Dynamics of Observation and Semantics
di: Li, Xiu
Pubblicazione: (2026)

Unifying Value Alignment and Assignment in Cross-Domain Offline Reinforcement Learning with Heterogeneous Datasets
di: Qiao, Zhongjian, et al.
Pubblicazione: (2026)

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
di: Li, Binghui, et al.
Pubblicazione: (2024)

Revisiting Random Weight Perturbation for Efficiently Improving Generalization
di: Li, Tao, et al.
Pubblicazione: (2024)

Distributed Graph Embedding with Information-Oriented Random Walks
di: Fang, Peng, et al.
Pubblicazione: (2023)

Visual Language Hypothesis
di: Li, Xiu
Pubblicazione: (2025)

Embedding-perturbed Exploration Preference Optimization for Flow Models
di: Hu, Sujie, et al.
Pubblicazione: (2026)