Gespeichert in:
| Hauptverfasser: | Liu, Chang, Li, Yunfan, Yang, Lin F. |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2602.15076 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs
von: Wei, Yukuan, et al.
Veröffentlicht: (2025)
von: Wei, Yukuan, et al.
Veröffentlicht: (2025)
Sample Complexity Bounds for Linear Constrained MDPs with a Generative Model
von: Liu, Xingtu, et al.
Veröffentlicht: (2025)
von: Liu, Xingtu, et al.
Veröffentlicht: (2025)
Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity
von: Zhang, Runyu, et al.
Veröffentlicht: (2023)
von: Zhang, Runyu, et al.
Veröffentlicht: (2023)
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs
von: Li, Long-Fei, et al.
Veröffentlicht: (2024)
von: Li, Long-Fei, et al.
Veröffentlicht: (2024)
Span-Based Optimal Sample Complexity for Average Reward MDPs
von: Zurek, Matthew, et al.
Veröffentlicht: (2023)
von: Zurek, Matthew, et al.
Veröffentlicht: (2023)
Sample Complexity Characterization for Linear Contextual MDPs
von: Deng, Junze, et al.
Veröffentlicht: (2024)
von: Deng, Junze, et al.
Veröffentlicht: (2024)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs
von: Maran, Davide, et al.
Veröffentlicht: (2024)
von: Maran, Davide, et al.
Veröffentlicht: (2024)
Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs
von: Tian, Tian, et al.
Veröffentlicht: (2024)
von: Tian, Tian, et al.
Veröffentlicht: (2024)
Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback
von: Cassel, Asaf, et al.
Veröffentlicht: (2024)
von: Cassel, Asaf, et al.
Veröffentlicht: (2024)
The Plug-in Approach for Average-Reward and Discounted MDPs: Optimal Sample Complexity Analysis
von: Zurek, Matthew, et al.
Veröffentlicht: (2024)
von: Zurek, Matthew, et al.
Veröffentlicht: (2024)
Optimal Strong Regret and Violation in Constrained MDPs via Policy Optimization
von: Stradi, Francesco Emanuele, et al.
Veröffentlicht: (2024)
von: Stradi, Francesco Emanuele, et al.
Veröffentlicht: (2024)
Time-Constrained Robust MDPs
von: Zouitine, Adil, et al.
Veröffentlicht: (2024)
von: Zouitine, Adil, et al.
Veröffentlicht: (2024)
Near Optimal Non-asymptotic Sample Complexity of 1-Identification
von: Li, Zitian, et al.
Veröffentlicht: (2025)
von: Li, Zitian, et al.
Veröffentlicht: (2025)
Private Realizable-to-Agnostic Transformation with Near-Optimal Sample Complexity
von: Li, Bo, et al.
Veröffentlicht: (2025)
von: Li, Bo, et al.
Veröffentlicht: (2025)
Span-Based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs
von: Zurek, Matthew, et al.
Veröffentlicht: (2024)
von: Zurek, Matthew, et al.
Veröffentlicht: (2024)
Near-Optimal Learning and Planning in Separated Latent MDPs
von: Chen, Fan, et al.
Veröffentlicht: (2024)
von: Chen, Fan, et al.
Veröffentlicht: (2024)
Nearly Optimal Sample Complexity for Learning with Label Proportions
von: Busa-Fekete, Robert, et al.
Veröffentlicht: (2025)
von: Busa-Fekete, Robert, et al.
Veröffentlicht: (2025)
Truly No-Regret Learning in Constrained MDPs
von: Müller, Adrian, et al.
Veröffentlicht: (2024)
von: Müller, Adrian, et al.
Veröffentlicht: (2024)
Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback
von: Lancewicki, Tal, et al.
Veröffentlicht: (2025)
von: Lancewicki, Tal, et al.
Veröffentlicht: (2025)
Augmented Lagrangian Method for Last-Iterate Convergence for Constrained MDPs
von: Lu, Michael, et al.
Veröffentlicht: (2026)
von: Lu, Michael, et al.
Veröffentlicht: (2026)
Near-Optimal Regret for Policy Optimization in Contextual MDPs with General Offline Function Approximation
von: Levy, Orin, et al.
Veröffentlicht: (2026)
von: Levy, Orin, et al.
Veröffentlicht: (2026)
On the Model-Misspecification in Reinforcement Learning
von: Li, Yunfan, et al.
Veröffentlicht: (2023)
von: Li, Yunfan, et al.
Veröffentlicht: (2023)
Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees
von: Ganguly, Sourav, et al.
Veröffentlicht: (2025)
von: Ganguly, Sourav, et al.
Veröffentlicht: (2025)
Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning
von: Li, Zhenghao, et al.
Veröffentlicht: (2025)
von: Li, Zhenghao, et al.
Veröffentlicht: (2025)
Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning
von: Jiang, Jiashuo
Veröffentlicht: (2023)
von: Jiang, Jiashuo
Veröffentlicht: (2023)
Data- and Variance-dependent Regret Bounds for Online Tabular MDPs
von: Li, Mingyi, et al.
Veröffentlicht: (2026)
von: Li, Mingyi, et al.
Veröffentlicht: (2026)
Near-Optimal Solutions of Constrained Learning Problems
von: Elenter, Juan, et al.
Veröffentlicht: (2024)
von: Elenter, Juan, et al.
Veröffentlicht: (2024)
Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learning
von: Liu, Junyan, et al.
Veröffentlicht: (2024)
von: Liu, Junyan, et al.
Veröffentlicht: (2024)
Near-Optimal Sample Complexity in Reward-Free Kernel-Based Reinforcement Learning
von: Kayal, Aya, et al.
Veröffentlicht: (2025)
von: Kayal, Aya, et al.
Veröffentlicht: (2025)
Online Learning in MDPs with Partially Adversarial Transitions and Losses
von: Schlisselberg, Ofir, et al.
Veröffentlicht: (2026)
von: Schlisselberg, Ofir, et al.
Veröffentlicht: (2026)
Efficient Exploration in Average-Reward Constrained Reinforcement Learning: Achieving Near-Optimal Regret With Posterior Sampling
von: Provodin, Danil, et al.
Veröffentlicht: (2024)
von: Provodin, Danil, et al.
Veröffentlicht: (2024)
Near-Optimal Online Deployment and Routing for Streaming LLMs
von: Li, Shaoang, et al.
Veröffentlicht: (2025)
von: Li, Shaoang, et al.
Veröffentlicht: (2025)
Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity
von: Shi, Laixi, et al.
Veröffentlicht: (2022)
von: Shi, Laixi, et al.
Veröffentlicht: (2022)
Online Generalized-mean Welfare Maximization: Achieving Near-Optimal Regret from Samples
von: Yang, Zongjun, et al.
Veröffentlicht: (2026)
von: Yang, Zongjun, et al.
Veröffentlicht: (2026)
Regret Analysis of Unichain Average Reward Constrained MDPs with General Parameterization
von: Satheesh, Anirudh, et al.
Veröffentlicht: (2026)
von: Satheesh, Anirudh, et al.
Veröffentlicht: (2026)
Sequential 1-bit Mean Estimation with Near-Optimal Sample Complexity
von: Lau, Ivan, et al.
Veröffentlicht: (2025)
von: Lau, Ivan, et al.
Veröffentlicht: (2025)
Near-Optimal Sample Complexity for Iterated CVaR Reinforcement Learning with a Generative Model
von: Deng, Zilong, et al.
Veröffentlicht: (2025)
von: Deng, Zilong, et al.
Veröffentlicht: (2025)
Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs
von: Mondal, Washim Uddin, et al.
Veröffentlicht: (2024)
von: Mondal, Washim Uddin, et al.
Veröffentlicht: (2024)
Offline-Online Reinforcement Learning for Linear Mixture MDPs
von: Zhang, Zhongjun, et al.
Veröffentlicht: (2026)
von: Zhang, Zhongjun, et al.
Veröffentlicht: (2026)
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation
von: He, Jianliang, et al.
Veröffentlicht: (2024)
von: He, Jianliang, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs
von: Wei, Yukuan, et al.
Veröffentlicht: (2025) -
Sample Complexity Bounds for Linear Constrained MDPs with a Generative Model
von: Liu, Xingtu, et al.
Veröffentlicht: (2025) -
Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity
von: Zhang, Runyu, et al.
Veröffentlicht: (2023) -
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs
von: Li, Long-Fei, et al.
Veröffentlicht: (2024) -
Span-Based Optimal Sample Complexity for Average Reward MDPs
von: Zurek, Matthew, et al.
Veröffentlicht: (2023)