Enregistré dans:
| Auteurs principaux: | Li, Shangzhe, Zhang, Xuchao, Bansal, Chetan, Zhang, Weitong |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.01357 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2025)
par: Li, Shangzhe, et autres
Publié: (2025)
Imitation from Observations with Trajectory-Level Generative Embeddings
par: Qu, Yongtao, et autres
Publié: (2026)
par: Qu, Yongtao, et autres
Publié: (2026)
CREAM: Consistency Regularized Self-Rewarding Language Models
par: Wang, Zhaoyang, et autres
Publié: (2024)
par: Wang, Zhaoyang, et autres
Publié: (2024)
Provable and Practical In-Context Policy Optimization for Self-Improvement
par: Yu, Tianrun, et autres
Publié: (2026)
par: Yu, Tianrun, et autres
Publié: (2026)
Reward-free World Models for Online Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2024)
par: Li, Shangzhe, et autres
Publié: (2024)
Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation
par: Li, Shangzhe, et autres
Publié: (2026)
par: Li, Shangzhe, et autres
Publié: (2026)
AMPO: Active Multi-Preference Optimization for Self-play Preference Selection
par: Gupta, Taneesh, et autres
Publié: (2025)
par: Gupta, Taneesh, et autres
Publié: (2025)
Learning Robust Reasoning through Guided Adversarial Self-Play
par: Li, Shuozhe, et autres
Publié: (2026)
par: Li, Shuozhe, et autres
Publié: (2026)
Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2025)
par: Li, Shangzhe, et autres
Publié: (2025)
Auto-Encoding Adversarial Imitation Learning
par: Zhang, Kaifeng, et autres
Publié: (2022)
par: Zhang, Kaifeng, et autres
Publié: (2022)
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
par: Chen, Jiaqi, et autres
Publié: (2025)
par: Chen, Jiaqi, et autres
Publié: (2025)
Multi-Agent Generative Adversarial Interactive Self-Imitation Learning for AUV Formation Control and Obstacle Avoidance
par: Fang, Zheng, et autres
Publié: (2024)
par: Fang, Zheng, et autres
Publié: (2024)
TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
par: Tan, Zhewen, et autres
Publié: (2026)
par: Tan, Zhewen, et autres
Publié: (2026)
XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi
par: Zhou, Chenliang
Publié: (2024)
par: Zhou, Chenliang
Publié: (2024)
FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control
par: Ye, Yutong, et autres
Publié: (2025)
par: Ye, Yutong, et autres
Publié: (2025)
Adversarial Imitation Learning with General Function Approximation: Theoretical Analysis and Practical Algorithms
par: Xu, Tian, et autres
Publié: (2026)
par: Xu, Tian, et autres
Publié: (2026)
R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training
par: Li, Gengsheng, et autres
Publié: (2026)
par: Li, Gengsheng, et autres
Publié: (2026)
Self-Improving AI Agents through Self-Play
par: Chojecki, Przemyslaw
Publié: (2025)
par: Chojecki, Przemyslaw
Publié: (2025)
Latent Wasserstein Adversarial Imitation Learning
par: Yang, Siqi, et autres
Publié: (2026)
par: Yang, Siqi, et autres
Publié: (2026)
Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms
par: Li, Yichen, et autres
Publié: (2023)
par: Li, Yichen, et autres
Publié: (2023)
A Theoretical Framework for Self-Play Theorem Proving Algorithms
par: Chen, Thomas, et autres
Publié: (2026)
par: Chen, Thomas, et autres
Publié: (2026)
REFA: Reference Free Alignment for multi-preference optimization
par: Gupta, Taneesh, et autres
Publié: (2024)
par: Gupta, Taneesh, et autres
Publié: (2024)
Provable Memory Efficient Self-Play Algorithm for Model-free Reinforcement Learning
par: Li, Na, et autres
Publié: (2025)
par: Li, Na, et autres
Publié: (2025)
COIN: Chance-Constrained Imitation Learning for Uncertainty-aware Adaptive Resource Oversubscription Policy
par: Wang, Lu, et autres
Publié: (2024)
par: Wang, Lu, et autres
Publié: (2024)
Scaling Self-Play with Self-Guidance
par: Bailey, Luke, et autres
Publié: (2026)
par: Bailey, Luke, et autres
Publié: (2026)
Self-evolved Imitation Learning in Simulated World
par: Ye, Yifan, et autres
Publié: (2025)
par: Ye, Yifan, et autres
Publié: (2025)
AutoAdapt: An Automated Domain Adaptation Framework for LLMs
par: Sinha, Sidharth, et autres
Publié: (2026)
par: Sinha, Sidharth, et autres
Publié: (2026)
$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data
par: Zhang, Yaocheng, et autres
Publié: (2026)
par: Zhang, Yaocheng, et autres
Publié: (2026)
Adversarial Imitation Learning via Boosting
par: Chang, Jonathan D., et autres
Publié: (2024)
par: Chang, Jonathan D., et autres
Publié: (2024)
Sample-efficient Adversarial Imitation Learning
par: Jung, Dahuin, et autres
Publié: (2023)
par: Jung, Dahuin, et autres
Publié: (2023)
Learning to Drive via Asymmetric Self-Play
par: Zhang, Chris, et autres
Publié: (2024)
par: Zhang, Chris, et autres
Publié: (2024)
Understanding Adversarial Imitation Learning in Small Sample Regime: A Stage-coupled Analysis
par: Xu, Tian, et autres
Publié: (2022)
par: Xu, Tian, et autres
Publié: (2022)
Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning
par: Li, Na, et autres
Publié: (2025)
par: Li, Na, et autres
Publié: (2025)
TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control
par: Zhuang, Zifeng, et autres
Publié: (2025)
par: Zhuang, Zifeng, et autres
Publié: (2025)
Diffusion-Reward Adversarial Imitation Learning
par: Lai, Chun-Mao, et autres
Publié: (2024)
par: Lai, Chun-Mao, et autres
Publié: (2024)
Exploring LLM-based Agents for Root Cause Analysis
par: Roy, Devjeet, et autres
Publié: (2024)
par: Roy, Devjeet, et autres
Publié: (2024)
MILES: Making Imitation Learning Easy with Self-Supervision
par: Papagiannis, Georgios, et autres
Publié: (2024)
par: Papagiannis, Georgios, et autres
Publié: (2024)
Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation
par: Xu, Tian, et autres
Publié: (2024)
par: Xu, Tian, et autres
Publié: (2024)
Dexterous Manipulation through Imitation Learning: A Survey
par: An, Shan, et autres
Publié: (2025)
par: An, Shan, et autres
Publié: (2025)
Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts
par: Gupta, Taneesh, et autres
Publié: (2024)
par: Gupta, Taneesh, et autres
Publié: (2024)
Documents similaires
-
Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2025) -
Imitation from Observations with Trajectory-Level Generative Embeddings
par: Qu, Yongtao, et autres
Publié: (2026) -
CREAM: Consistency Regularized Self-Rewarding Language Models
par: Wang, Zhaoyang, et autres
Publié: (2024) -
Provable and Practical In-Context Policy Optimization for Self-Improvement
par: Yu, Tianrun, et autres
Publié: (2026) -
Reward-free World Models for Online Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2024)