:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Antrobius, David, Zhang, Shangtong
Format:	Preprint
Publié:	2026
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2605.06874
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Revisiting a Design Choice in Gradient Temporal Difference Learning
par: Qian, Xiaochi, et autres
Publié: (2023)

Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
par: Blaser, Ethan, et autres
Publié: (2026)

Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features
par: Wang, Jiuqi, et autres
Publié: (2024)

Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning
par: Wang, Jiuqi, et autres
Publié: (2024)

Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features
par: Xie, Zixuan, et autres
Publié: (2025)

Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set
par: Liu, Xinyu, et autres
Publié: (2025)

Towards Formalizing Reinforcement Learning Theory
par: Zhang, Shangtong
Publié: (2025)

Towards Provable Emergence of In-Context Reinforcement Learning
par: Wang, Jiuqi, et autres
Publié: (2025)

Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design
par: Liu, Shuze, et autres
Publié: (2023)

CRASH: Challenging Reinforcement-Learning Based Adversarial Scenarios For Safety Hardening
par: Kulkarni, Amar, et autres
Publié: (2024)

Doubly Optimal Policy Evaluation for Reinforcement Learning
par: Liu, Shuze Daniel, et autres
Publié: (2024)

Efficient Multi-Policy Evaluation for Reinforcement Learning
par: Liu, Shuze Daniel, et autres
Publié: (2024)

Counterfactual Explanations for Continuous Action Reinforcement Learning
par: Dong, Shuyang, et autres
Publié: (2025)

Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning
par: Chen, Claire, et autres
Publié: (2024)

Extensions of Robbins-Siegmund Theorem with Applications in Reinforcement Learning
par: Liu, Xinyu, et autres
Publié: (2025)

Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift
par: Liu, Xinyu, et autres
Publié: (2026)

Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought
par: Xie, Zixuan, et autres
Publié: (2026)

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise
par: Liu, Shuze Daniel, et autres
Publié: (2024)

Asymptotic and Finite Sample Analysis of Nonexpansive Stochastic Approximations with Markovian Noise
par: Blaser, Ethan, et autres
Publié: (2024)

Experience Replay Addresses Loss of Plasticity in Continual Learning
par: Wang, Jiuqi, et autres
Publié: (2025)

Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch
par: Zhang, Shangtong, et autres
Publié: (2021)

Group Fairness in Multi-Task Reinforcement Learning
par: Song, Kefan, et autres
Publié: (2025)

Convergence of Two-Timescale Markovian Stochastic Approximations with Applications in Reinforcement Learning
par: Mahadevan, Vagul, et autres
Publié: (2026)

On the Statistical Benefits of Temporal Difference Learning
par: Cheikhi, David, et autres
Publié: (2023)

Almost Sure Convergence Rates and Concentration of Stochastic Approximation and Reinforcement Learning with Markovian Noise
par: Qian, Xiaochi, et autres
Publié: (2024)

Learning to Remember: End-to-End Training of Memory Agents for Long-Context Reasoning
par: Zhang, Kehao, et autres
Publié: (2026)

Prompt-Driven Domain Adaptation for End-to-End Autonomous Driving via In-Context RL
par: Khurram, Aleesha, et autres
Publié: (2025)

MathlibPR: Pull Request Merge-Readiness Benchmark for Formal Mathematical Libraries
par: Xie, Zixuan, et autres
Publié: (2026)

Predicting Plasticity in Deep Continual Learning: A Theoretical Perspective
par: Wang, Jiuqi, et autres
Publié: (2026)

Beyond Linear Attention: Softmax Transformers Implement In-Context Reinforcement Learning
par: Xie, Zixuan, et autres
Publié: (2026)

A Survey of In-Context Reinforcement Learning
par: Moeini, Amir, et autres
Publié: (2025)

Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
par: Bozkurt, Alper Kamil, et autres
Publié: (2026)

Simplifying Deep Temporal Difference Learning
par: Gallici, Matteo, et autres
Publié: (2024)

An Analysis of Quantile Temporal-Difference Learning
par: Rowland, Mark, et autres
Publié: (2023)

Safe In-Context Reinforcement Learning
par: Moeini, Amir, et autres
Publié: (2025)

Discerning Temporal Difference Learning
par: Ma, Jianfei
Publié: (2023)

Backstepping Temporal Difference Learning
par: Lim, Han-Dong, et autres
Publié: (2023)

Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
par: Jin, Kaicheng, et autres
Publié: (2025)

Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
par: Wen, Zhuofan, et autres
Publié: (2024)

Extending Differential Temporal Difference Methods for Episodic Problems
par: De Asis, Kris, et autres
Publié: (2026)