:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Praharaj, Samya, Chang, Chih-Yu, Khamaru, Koulik, Zhang, Kelly W.
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2606.00913
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability
di: Praharaj, Samya, et al.
Pubblicazione: (2025)

On Instability of Minimax Optimal Optimism-Based Bandit Algorithms
di: Praharaj, Samya, et al.
Pubblicazione: (2025)

Stochastic Optimization with Constraints: A Non-asymptotic Instance-Dependent Analysis
di: Khamaru, Koulik
Pubblicazione: (2024)

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent
di: Halder, Budhaditya, et al.
Pubblicazione: (2026)

Inference with the Upper Confidence Bound Algorithm
di: Khamaru, Koulik, et al.
Pubblicazione: (2024)

Stable Thompson Sampling: Valid Inference via Variance Inflation
di: Halder, Budhaditya, et al.
Pubblicazione: (2025)

UCB algorithms for multi-armed bandits: Precise regret and adaptive inference
di: Han, Qiyang, et al.
Pubblicazione: (2024)

Semi-parametric inference based on adaptively collected data
di: Lin, Licong, et al.
Pubblicazione: (2023)

Uncertainty Quantification With Multiple Sources
di: Ying, Mufang, et al.
Pubblicazione: (2024)

Design Stability in Adaptive Experiments: Implications for Treatment Effect Estimation
di: Sengupta, Saikat, et al.
Pubblicazione: (2025)

Efficient Inference after Directionally Stable Adaptive Experiments
di: Shen, Zikai, et al.
Pubblicazione: (2026)

Lagrangian Index Policy for Restless Bandits with Average Reward
di: Avrachenkov, Konstantin, et al.
Pubblicazione: (2024)

PICS: A sequential approach to obtain optimal designs for non-linear models leveraging closed-form solutions for faster convergence
di: Ghosh, Suvrojit, et al.
Pubblicazione: (2024)

Transductive Reward Inference on Graph
di: Qu, Bohao, et al.
Pubblicazione: (2024)

BanditQ: Fair Bandits with Guaranteed Rewards
di: Sinha, Abhishek
Pubblicazione: (2023)

Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption
di: Hong, Yige, et al.
Pubblicazione: (2023)

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions
di: Kang, Yue, et al.
Pubblicazione: (2025)

Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits
di: Huang, Ziyi, et al.
Pubblicazione: (2024)

Catoni Contextual Bandits are Robust to Heavy-tailed Rewards
di: Ye, Chenlu, et al.
Pubblicazione: (2025)

Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent
di: Chang, Xiangyu, et al.
Pubblicazione: (2022)

Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards
di: Lu, Xiaodong, et al.
Pubblicazione: (2026)

Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards
di: Qin, Hao, et al.
Pubblicazione: (2023)

Provably Sample-Efficient Robust Reinforcement Learning with Average Reward
di: Roch, Zachary, et al.
Pubblicazione: (2025)

Low-rank Matrix Bandits with Heavy-tailed Rewards
di: Kang, Yue, et al.
Pubblicazione: (2024)

Average-Reward Soft Actor-Critic
di: Adamczyk, Jacob, et al.
Pubblicazione: (2025)

Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption
di: Hong, Yige, et al.
Pubblicazione: (2024)

Fusing Reward and Dueling Feedback in Stochastic Bandits
di: Wang, Xuchuang, et al.
Pubblicazione: (2025)

Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs
di: Hong, Kihyuk, et al.
Pubblicazione: (2024)

Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits
di: Hong, Yige, et al.
Pubblicazione: (2024)

Transfer in Sequential Multi-armed Bandits via Reward Samples
di: R, Rahul N, et al.
Pubblicazione: (2024)

Implicit Updates for Average-Reward Temporal Difference Learning
di: Kim, Hwanwoo, et al.
Pubblicazione: (2025)

Supervised Reward Inference
di: Schwarzer, Will, et al.
Pubblicazione: (2025)

Impatient Bandits: Optimizing for the Long-Term Without Delay
di: Zhang, Kelly W., et al.
Pubblicazione: (2025)

WARP: On the Benefits of Weight Averaged Rewarded Policies
di: Ramé, Alexandre, et al.
Pubblicazione: (2024)

Global Rewards in Restless Multi-Armed Bandits
di: Raman, Naveen, et al.
Pubblicazione: (2024)

A Modularized Framework for Piecewise-Stationary Restless Bandits
di: Li, Kuan-Ta, et al.
Pubblicazione: (2026)

Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits
di: Li, Kuan-Ta, et al.
Pubblicazione: (2024)

Learning Weakly Communicating Average-Reward CMDPs: Strong Duality and Improved Regret
di: Yu, Kihyun, et al.
Pubblicazione: (2026)

On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes
di: Wan, Yi, et al.
Pubblicazione: (2024)

Finite-Time Bounds for Average-Reward Fitted Q-Iteration
di: Lee, Jongmin, et al.
Pubblicazione: (2025)