Salvato in:
| Autori principali: | Praharaj, Samya, Chang, Chih-Yu, Khamaru, Koulik, Zhang, Kelly W. |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2606.00913 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability
di: Praharaj, Samya, et al.
Pubblicazione: (2025)
di: Praharaj, Samya, et al.
Pubblicazione: (2025)
On Instability of Minimax Optimal Optimism-Based Bandit Algorithms
di: Praharaj, Samya, et al.
Pubblicazione: (2025)
di: Praharaj, Samya, et al.
Pubblicazione: (2025)
Stochastic Optimization with Constraints: A Non-asymptotic Instance-Dependent Analysis
di: Khamaru, Koulik
Pubblicazione: (2024)
di: Khamaru, Koulik
Pubblicazione: (2024)
Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent
di: Halder, Budhaditya, et al.
Pubblicazione: (2026)
di: Halder, Budhaditya, et al.
Pubblicazione: (2026)
Inference with the Upper Confidence Bound Algorithm
di: Khamaru, Koulik, et al.
Pubblicazione: (2024)
di: Khamaru, Koulik, et al.
Pubblicazione: (2024)
Stable Thompson Sampling: Valid Inference via Variance Inflation
di: Halder, Budhaditya, et al.
Pubblicazione: (2025)
di: Halder, Budhaditya, et al.
Pubblicazione: (2025)
UCB algorithms for multi-armed bandits: Precise regret and adaptive inference
di: Han, Qiyang, et al.
Pubblicazione: (2024)
di: Han, Qiyang, et al.
Pubblicazione: (2024)
Semi-parametric inference based on adaptively collected data
di: Lin, Licong, et al.
Pubblicazione: (2023)
di: Lin, Licong, et al.
Pubblicazione: (2023)
Uncertainty Quantification With Multiple Sources
di: Ying, Mufang, et al.
Pubblicazione: (2024)
di: Ying, Mufang, et al.
Pubblicazione: (2024)
Design Stability in Adaptive Experiments: Implications for Treatment Effect Estimation
di: Sengupta, Saikat, et al.
Pubblicazione: (2025)
di: Sengupta, Saikat, et al.
Pubblicazione: (2025)
Efficient Inference after Directionally Stable Adaptive Experiments
di: Shen, Zikai, et al.
Pubblicazione: (2026)
di: Shen, Zikai, et al.
Pubblicazione: (2026)
Lagrangian Index Policy for Restless Bandits with Average Reward
di: Avrachenkov, Konstantin, et al.
Pubblicazione: (2024)
di: Avrachenkov, Konstantin, et al.
Pubblicazione: (2024)
PICS: A sequential approach to obtain optimal designs for non-linear models leveraging closed-form solutions for faster convergence
di: Ghosh, Suvrojit, et al.
Pubblicazione: (2024)
di: Ghosh, Suvrojit, et al.
Pubblicazione: (2024)
Transductive Reward Inference on Graph
di: Qu, Bohao, et al.
Pubblicazione: (2024)
di: Qu, Bohao, et al.
Pubblicazione: (2024)
BanditQ: Fair Bandits with Guaranteed Rewards
di: Sinha, Abhishek
Pubblicazione: (2023)
di: Sinha, Abhishek
Pubblicazione: (2023)
Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption
di: Hong, Yige, et al.
Pubblicazione: (2023)
di: Hong, Yige, et al.
Pubblicazione: (2023)
Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions
di: Kang, Yue, et al.
Pubblicazione: (2025)
di: Kang, Yue, et al.
Pubblicazione: (2025)
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits
di: Huang, Ziyi, et al.
Pubblicazione: (2024)
di: Huang, Ziyi, et al.
Pubblicazione: (2024)
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards
di: Ye, Chenlu, et al.
Pubblicazione: (2025)
di: Ye, Chenlu, et al.
Pubblicazione: (2025)
Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent
di: Chang, Xiangyu, et al.
Pubblicazione: (2022)
di: Chang, Xiangyu, et al.
Pubblicazione: (2022)
Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards
di: Lu, Xiaodong, et al.
Pubblicazione: (2026)
di: Lu, Xiaodong, et al.
Pubblicazione: (2026)
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards
di: Qin, Hao, et al.
Pubblicazione: (2023)
di: Qin, Hao, et al.
Pubblicazione: (2023)
Provably Sample-Efficient Robust Reinforcement Learning with Average Reward
di: Roch, Zachary, et al.
Pubblicazione: (2025)
di: Roch, Zachary, et al.
Pubblicazione: (2025)
Low-rank Matrix Bandits with Heavy-tailed Rewards
di: Kang, Yue, et al.
Pubblicazione: (2024)
di: Kang, Yue, et al.
Pubblicazione: (2024)
Average-Reward Soft Actor-Critic
di: Adamczyk, Jacob, et al.
Pubblicazione: (2025)
di: Adamczyk, Jacob, et al.
Pubblicazione: (2025)
Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption
di: Hong, Yige, et al.
Pubblicazione: (2024)
di: Hong, Yige, et al.
Pubblicazione: (2024)
Fusing Reward and Dueling Feedback in Stochastic Bandits
di: Wang, Xuchuang, et al.
Pubblicazione: (2025)
di: Wang, Xuchuang, et al.
Pubblicazione: (2025)
Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs
di: Hong, Kihyuk, et al.
Pubblicazione: (2024)
di: Hong, Kihyuk, et al.
Pubblicazione: (2024)
Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
di: Hong, Yige, et al.
Pubblicazione: (2024)
di: Hong, Yige, et al.
Pubblicazione: (2024)
Transfer in Sequential Multi-armed Bandits via Reward Samples
di: R, Rahul N, et al.
Pubblicazione: (2024)
di: R, Rahul N, et al.
Pubblicazione: (2024)
Implicit Updates for Average-Reward Temporal Difference Learning
di: Kim, Hwanwoo, et al.
Pubblicazione: (2025)
di: Kim, Hwanwoo, et al.
Pubblicazione: (2025)
Supervised Reward Inference
di: Schwarzer, Will, et al.
Pubblicazione: (2025)
di: Schwarzer, Will, et al.
Pubblicazione: (2025)
Impatient Bandits: Optimizing for the Long-Term Without Delay
di: Zhang, Kelly W., et al.
Pubblicazione: (2025)
di: Zhang, Kelly W., et al.
Pubblicazione: (2025)
WARP: On the Benefits of Weight Averaged Rewarded Policies
di: Ramé, Alexandre, et al.
Pubblicazione: (2024)
di: Ramé, Alexandre, et al.
Pubblicazione: (2024)
Global Rewards in Restless Multi-Armed Bandits
di: Raman, Naveen, et al.
Pubblicazione: (2024)
di: Raman, Naveen, et al.
Pubblicazione: (2024)
A Modularized Framework for Piecewise-Stationary Restless Bandits
di: Li, Kuan-Ta, et al.
Pubblicazione: (2026)
di: Li, Kuan-Ta, et al.
Pubblicazione: (2026)
Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits
di: Li, Kuan-Ta, et al.
Pubblicazione: (2024)
di: Li, Kuan-Ta, et al.
Pubblicazione: (2024)
Learning Weakly Communicating Average-Reward CMDPs: Strong Duality and Improved Regret
di: Yu, Kihyun, et al.
Pubblicazione: (2026)
di: Yu, Kihyun, et al.
Pubblicazione: (2026)
On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes
di: Wan, Yi, et al.
Pubblicazione: (2024)
di: Wan, Yi, et al.
Pubblicazione: (2024)
Finite-Time Bounds for Average-Reward Fitted Q-Iteration
di: Lee, Jongmin, et al.
Pubblicazione: (2025)
di: Lee, Jongmin, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability
di: Praharaj, Samya, et al.
Pubblicazione: (2025) -
On Instability of Minimax Optimal Optimism-Based Bandit Algorithms
di: Praharaj, Samya, et al.
Pubblicazione: (2025) -
Stochastic Optimization with Constraints: A Non-asymptotic Instance-Dependent Analysis
di: Khamaru, Koulik
Pubblicazione: (2024) -
Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent
di: Halder, Budhaditya, et al.
Pubblicazione: (2026) -
Inference with the Upper Confidence Bound Algorithm
di: Khamaru, Koulik, et al.
Pubblicazione: (2024)