Enregistré dans:
| Auteurs principaux: | Antrobius, David, Zhang, Shangtong |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.06874 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Revisiting a Design Choice in Gradient Temporal Difference Learning
par: Qian, Xiaochi, et autres
Publié: (2023)
par: Qian, Xiaochi, et autres
Publié: (2023)
Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
par: Blaser, Ethan, et autres
Publié: (2026)
par: Blaser, Ethan, et autres
Publié: (2026)
Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features
par: Wang, Jiuqi, et autres
Publié: (2024)
par: Wang, Jiuqi, et autres
Publié: (2024)
Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning
par: Wang, Jiuqi, et autres
Publié: (2024)
par: Wang, Jiuqi, et autres
Publié: (2024)
Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features
par: Xie, Zixuan, et autres
Publié: (2025)
par: Xie, Zixuan, et autres
Publié: (2025)
Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set
par: Liu, Xinyu, et autres
Publié: (2025)
par: Liu, Xinyu, et autres
Publié: (2025)
Towards Formalizing Reinforcement Learning Theory
par: Zhang, Shangtong
Publié: (2025)
par: Zhang, Shangtong
Publié: (2025)
Towards Provable Emergence of In-Context Reinforcement Learning
par: Wang, Jiuqi, et autres
Publié: (2025)
par: Wang, Jiuqi, et autres
Publié: (2025)
Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design
par: Liu, Shuze, et autres
Publié: (2023)
par: Liu, Shuze, et autres
Publié: (2023)
CRASH: Challenging Reinforcement-Learning Based Adversarial Scenarios For Safety Hardening
par: Kulkarni, Amar, et autres
Publié: (2024)
par: Kulkarni, Amar, et autres
Publié: (2024)
Doubly Optimal Policy Evaluation for Reinforcement Learning
par: Liu, Shuze Daniel, et autres
Publié: (2024)
par: Liu, Shuze Daniel, et autres
Publié: (2024)
Efficient Multi-Policy Evaluation for Reinforcement Learning
par: Liu, Shuze Daniel, et autres
Publié: (2024)
par: Liu, Shuze Daniel, et autres
Publié: (2024)
Counterfactual Explanations for Continuous Action Reinforcement Learning
par: Dong, Shuyang, et autres
Publié: (2025)
par: Dong, Shuyang, et autres
Publié: (2025)
Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning
par: Chen, Claire, et autres
Publié: (2024)
par: Chen, Claire, et autres
Publié: (2024)
Extensions of Robbins-Siegmund Theorem with Applications in Reinforcement Learning
par: Liu, Xinyu, et autres
Publié: (2025)
par: Liu, Xinyu, et autres
Publié: (2025)
Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift
par: Liu, Xinyu, et autres
Publié: (2026)
par: Liu, Xinyu, et autres
Publié: (2026)
Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought
par: Xie, Zixuan, et autres
Publié: (2026)
par: Xie, Zixuan, et autres
Publié: (2026)
The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise
par: Liu, Shuze Daniel, et autres
Publié: (2024)
par: Liu, Shuze Daniel, et autres
Publié: (2024)
Asymptotic and Finite Sample Analysis of Nonexpansive Stochastic Approximations with Markovian Noise
par: Blaser, Ethan, et autres
Publié: (2024)
par: Blaser, Ethan, et autres
Publié: (2024)
Experience Replay Addresses Loss of Plasticity in Continual Learning
par: Wang, Jiuqi, et autres
Publié: (2025)
par: Wang, Jiuqi, et autres
Publié: (2025)
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch
par: Zhang, Shangtong, et autres
Publié: (2021)
par: Zhang, Shangtong, et autres
Publié: (2021)
Group Fairness in Multi-Task Reinforcement Learning
par: Song, Kefan, et autres
Publié: (2025)
par: Song, Kefan, et autres
Publié: (2025)
Convergence of Two-Timescale Markovian Stochastic Approximations with Applications in Reinforcement Learning
par: Mahadevan, Vagul, et autres
Publié: (2026)
par: Mahadevan, Vagul, et autres
Publié: (2026)
On the Statistical Benefits of Temporal Difference Learning
par: Cheikhi, David, et autres
Publié: (2023)
par: Cheikhi, David, et autres
Publié: (2023)
Almost Sure Convergence Rates and Concentration of Stochastic Approximation and Reinforcement Learning with Markovian Noise
par: Qian, Xiaochi, et autres
Publié: (2024)
par: Qian, Xiaochi, et autres
Publié: (2024)
Learning to Remember: End-to-End Training of Memory Agents for Long-Context Reasoning
par: Zhang, Kehao, et autres
Publié: (2026)
par: Zhang, Kehao, et autres
Publié: (2026)
Prompt-Driven Domain Adaptation for End-to-End Autonomous Driving via In-Context RL
par: Khurram, Aleesha, et autres
Publié: (2025)
par: Khurram, Aleesha, et autres
Publié: (2025)
MathlibPR: Pull Request Merge-Readiness Benchmark for Formal Mathematical Libraries
par: Xie, Zixuan, et autres
Publié: (2026)
par: Xie, Zixuan, et autres
Publié: (2026)
Predicting Plasticity in Deep Continual Learning: A Theoretical Perspective
par: Wang, Jiuqi, et autres
Publié: (2026)
par: Wang, Jiuqi, et autres
Publié: (2026)
Beyond Linear Attention: Softmax Transformers Implement In-Context Reinforcement Learning
par: Xie, Zixuan, et autres
Publié: (2026)
par: Xie, Zixuan, et autres
Publié: (2026)
A Survey of In-Context Reinforcement Learning
par: Moeini, Amir, et autres
Publié: (2025)
par: Moeini, Amir, et autres
Publié: (2025)
Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning
par: Bozkurt, Alper Kamil, et autres
Publié: (2026)
par: Bozkurt, Alper Kamil, et autres
Publié: (2026)
Simplifying Deep Temporal Difference Learning
par: Gallici, Matteo, et autres
Publié: (2024)
par: Gallici, Matteo, et autres
Publié: (2024)
An Analysis of Quantile Temporal-Difference Learning
par: Rowland, Mark, et autres
Publié: (2023)
par: Rowland, Mark, et autres
Publié: (2023)
Safe In-Context Reinforcement Learning
par: Moeini, Amir, et autres
Publié: (2025)
par: Moeini, Amir, et autres
Publié: (2025)
Discerning Temporal Difference Learning
par: Ma, Jianfei
Publié: (2023)
par: Ma, Jianfei
Publié: (2023)
Backstepping Temporal Difference Learning
par: Lim, Han-Dong, et autres
Publié: (2023)
par: Lim, Han-Dong, et autres
Publié: (2023)
Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
par: Jin, Kaicheng, et autres
Publié: (2025)
par: Jin, Kaicheng, et autres
Publié: (2025)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
par: Wen, Zhuofan, et autres
Publié: (2024)
par: Wen, Zhuofan, et autres
Publié: (2024)
Extending Differential Temporal Difference Methods for Episodic Problems
par: De Asis, Kris, et autres
Publié: (2026)
par: De Asis, Kris, et autres
Publié: (2026)
Documents similaires
-
Revisiting a Design Choice in Gradient Temporal Difference Learning
par: Qian, Xiaochi, et autres
Publié: (2023) -
Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
par: Blaser, Ethan, et autres
Publié: (2026) -
Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features
par: Wang, Jiuqi, et autres
Publié: (2024) -
Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning
par: Wang, Jiuqi, et autres
Publié: (2024) -
Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features
par: Xie, Zixuan, et autres
Publié: (2025)