:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Li, Shangzhe, Zhang, Xuchao, Bansal, Chetan, Zhang, Weitong
Format:	Preprint
Publié:	2026
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2602.01357
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2025)

Imitation from Observations with Trajectory-Level Generative Embeddings
par: Qu, Yongtao, et autres
Publié: (2026)

CREAM: Consistency Regularized Self-Rewarding Language Models
par: Wang, Zhaoyang, et autres
Publié: (2024)

Provable and Practical In-Context Policy Optimization for Self-Improvement
par: Yu, Tianrun, et autres
Publié: (2026)

Reward-free World Models for Online Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2024)

Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation
par: Li, Shangzhe, et autres
Publié: (2026)

AMPO: Active Multi-Preference Optimization for Self-play Preference Selection
par: Gupta, Taneesh, et autres
Publié: (2025)

Learning Robust Reasoning through Guided Adversarial Self-Play
par: Li, Shuozhe, et autres
Publié: (2026)

Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
par: Li, Shangzhe, et autres
Publié: (2025)

Auto-Encoding Adversarial Imitation Learning
par: Zhang, Kaifeng, et autres
Publié: (2022)

SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
par: Chen, Jiaqi, et autres
Publié: (2025)

Multi-Agent Generative Adversarial Interactive Self-Imitation Learning for AUV Formation Control and Obstacle Avoidance
par: Fang, Zheng, et autres
Publié: (2024)

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
par: Tan, Zhewen, et autres
Publié: (2026)

XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi
par: Zhou, Chenliang
Publié: (2024)

FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control
par: Ye, Yutong, et autres
Publié: (2025)

Adversarial Imitation Learning with General Function Approximation: Theoretical Analysis and Practical Algorithms
par: Xu, Tian, et autres
Publié: (2026)

R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training
par: Li, Gengsheng, et autres
Publié: (2026)

Self-Improving AI Agents through Self-Play
par: Chojecki, Przemyslaw
Publié: (2025)

Latent Wasserstein Adversarial Imitation Learning
par: Yang, Siqi, et autres
Publié: (2026)

Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms
par: Li, Yichen, et autres
Publié: (2023)

A Theoretical Framework for Self-Play Theorem Proving Algorithms
par: Chen, Thomas, et autres
Publié: (2026)

REFA: Reference Free Alignment for multi-preference optimization
par: Gupta, Taneesh, et autres
Publié: (2024)

Provable Memory Efficient Self-Play Algorithm for Model-free Reinforcement Learning
par: Li, Na, et autres
Publié: (2025)

COIN: Chance-Constrained Imitation Learning for Uncertainty-aware Adaptive Resource Oversubscription Policy
par: Wang, Lu, et autres
Publié: (2024)

Scaling Self-Play with Self-Guidance
par: Bailey, Luke, et autres
Publié: (2026)

Self-evolved Imitation Learning in Simulated World
par: Ye, Yifan, et autres
Publié: (2025)

AutoAdapt: An Automated Domain Adaptation Framework for LLMs
par: Sinha, Sidharth, et autres
Publié: (2026)

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data
par: Zhang, Yaocheng, et autres
Publié: (2026)

Adversarial Imitation Learning via Boosting
par: Chang, Jonathan D., et autres
Publié: (2024)

Sample-efficient Adversarial Imitation Learning
par: Jung, Dahuin, et autres
Publié: (2023)

Learning to Drive via Asymmetric Self-Play
par: Zhang, Chris, et autres
Publié: (2024)

Understanding Adversarial Imitation Learning in Small Sample Regime: A Stage-coupled Analysis
par: Xu, Tian, et autres
Publié: (2022)

Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning
par: Li, Na, et autres
Publié: (2025)

TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control
par: Zhuang, Zifeng, et autres
Publié: (2025)

Diffusion-Reward Adversarial Imitation Learning
par: Lai, Chun-Mao, et autres
Publié: (2024)

Exploring LLM-based Agents for Root Cause Analysis
par: Roy, Devjeet, et autres
Publié: (2024)

MILES: Making Imitation Learning Easy with Self-Supervision
par: Papagiannis, Georgios, et autres
Publié: (2024)

Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation
par: Xu, Tian, et autres
Publié: (2024)

Dexterous Manipulation through Imitation Learning: A Survey
par: An, Shan, et autres
Publié: (2025)

Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts
par: Gupta, Taneesh, et autres
Publié: (2024)