Enregistré dans:
| Auteurs principaux: | Jonckheere, Matthieu, Mignacco, Chiara, Stoltz, Gilles |
|---|---|
| Format: | Preprint |
| Publié: |
2023
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2310.16473 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Online Matching via Reinforcement Learning: An Expert Policy Orchestration Strategy
par: Mignacco, Chiara, et autres
Publié: (2025)
par: Mignacco, Chiara, et autres
Publié: (2025)
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization
par: Tiapkin, Daniil, et autres
Publié: (2024)
par: Tiapkin, Daniil, et autres
Publié: (2024)
Optimization Trade-offs in Asynchronous Federated Learning: A Stochastic Networks Approach
par: Alahyane, Abdelkrim, et autres
Publié: (2026)
par: Alahyane, Abdelkrim, et autres
Publié: (2026)
Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency
par: Alahyane, Abdelkrim, et autres
Publié: (2025)
par: Alahyane, Abdelkrim, et autres
Publié: (2025)
Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability
par: Comte, Céline, et autres
Publié: (2023)
par: Comte, Céline, et autres
Publié: (2023)
Blackwell's Approachability for Sequential Conformal Inference
par: Principato, Guillaume, et autres
Publié: (2025)
par: Principato, Guillaume, et autres
Publié: (2025)
Queuing dynamics of asynchronous Federated Learning
par: Leconte, Louis, et autres
Publié: (2024)
par: Leconte, Louis, et autres
Publié: (2024)
Smooth Gate Functions for Soft Advantage Policy Optimization
par: Denisov, Egor, et autres
Publié: (2026)
par: Denisov, Egor, et autres
Publié: (2026)
Efficiency of Parallel and Restart Exploration Strategies in Model Free Stochastic Simulations
par: Garcia, Ernesto, et autres
Publié: (2025)
par: Garcia, Ernesto, et autres
Publié: (2025)
Parametrized Power-Iteration Clustering for Directed Graphs
par: Debaussart-Joniec, Gwendal, et autres
Publié: (2022)
par: Debaussart-Joniec, Gwendal, et autres
Publié: (2022)
Optimal Protocols for Continual Learning via Statistical Physics and Control Theory
par: Mori, Francesco, et autres
Publié: (2024)
par: Mori, Francesco, et autres
Publié: (2024)
Analytic theory of dropout regularization
par: Mori, Francesco, et autres
Publié: (2025)
par: Mori, Francesco, et autres
Publié: (2025)
Diversity-Preserving K-Armed Bandits, Revisited
par: Hadiji, Hédi, et autres
Publié: (2020)
par: Hadiji, Hédi, et autres
Publié: (2020)
Towards Flash Thinking via Decoupled Advantage Policy Optimization
par: Tan, Zezhong, et autres
Publié: (2025)
par: Tan, Zezhong, et autres
Publié: (2025)
Generalized Dirichlet Energy and Graph Laplacians for Clustering Directed and Undirected Graphs
par: Sevi, Harry, et autres
Publié: (2022)
par: Sevi, Harry, et autres
Publié: (2022)
A statistical physics framework for optimal learning
par: Mignacco, Francesca, et autres
Publié: (2025)
par: Mignacco, Francesca, et autres
Publié: (2025)
Skip-Connected Policy Optimization for Implicit Advantage
par: Teng, Fengwei, et autres
Publié: (2026)
par: Teng, Fengwei, et autres
Publié: (2026)
GAGPO: Generalized Advantage Grouped Policy Optimization
par: Zhu, Siyuan, et autres
Publié: (2026)
par: Zhu, Siyuan, et autres
Publié: (2026)
Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation
par: He, Xixiang, et autres
Publié: (2026)
par: He, Xixiang, et autres
Publié: (2026)
Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
par: Nie, Buqing, et autres
Publié: (2025)
par: Nie, Buqing, et autres
Publié: (2025)
Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning
par: Huang, Bingning, et autres
Publié: (2025)
par: Huang, Bingning, et autres
Publié: (2025)
CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization
par: Hu, Ranting
Publié: (2025)
par: Hu, Ranting
Publié: (2025)
$K-$means with learned metrics
par: Groisman, Pablo, et autres
Publié: (2026)
par: Groisman, Pablo, et autres
Publié: (2026)
How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization
par: Fang, Yangyi, et autres
Publié: (2026)
par: Fang, Yangyi, et autres
Publié: (2026)
Skill or Luck? Return Decomposition via Advantage Functions
par: Pan, Hsiao-Ru, et autres
Publié: (2024)
par: Pan, Hsiao-Ru, et autres
Publié: (2024)
Forward Learning with Top-Down Feedback: Empirical and Analytical Characterization
par: Srinivasan, Ravi, et autres
Publié: (2023)
par: Srinivasan, Ravi, et autres
Publié: (2023)
REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization
par: Hu, Jian, et autres
Publié: (2025)
par: Hu, Jian, et autres
Publié: (2025)
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
par: Kang, Hyungkyu, et autres
Publié: (2025)
par: Kang, Hyungkyu, et autres
Publié: (2025)
AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization
par: Sane, Soham
Publié: (2025)
par: Sane, Soham
Publié: (2025)
Dissecting the Interplay of Attention Paths in a Statistical Mechanics Theory of Transformers
par: Tiberi, Lorenzo, et autres
Publié: (2024)
par: Tiberi, Lorenzo, et autres
Publié: (2024)
Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation
par: Choe, Jean Seong Bjorn, et autres
Publié: (2024)
par: Choe, Jean Seong Bjorn, et autres
Publié: (2024)
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning
par: Liu, Tenglong, et autres
Publié: (2024)
par: Liu, Tenglong, et autres
Publié: (2024)
On the Tension Between Optimality and Adversarial Robustness in Policy Optimization
par: Li, Haoran, et autres
Publié: (2025)
par: Li, Haoran, et autres
Publié: (2025)
Generalized Advantage Estimation for Distributional Policy Gradients
par: Shaik, Shahil, et autres
Publié: (2025)
par: Shaik, Shahil, et autres
Publié: (2025)
Provable Privacy Advantages of Decentralized Federated Learning via Distributed Optimization
par: Yu, Wenrui, et autres
Publié: (2024)
par: Yu, Wenrui, et autres
Publié: (2024)
Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation
par: Zhang, Xiaoying, et autres
Publié: (2024)
par: Zhang, Xiaoying, et autres
Publié: (2024)
Prompt Optimization via Adversarial In-Context Learning
par: Do, Xuan Long, et autres
Publié: (2023)
par: Do, Xuan Long, et autres
Publié: (2023)
OPD+: Rethinking the Advantage Design for On-Policy Distillation
par: Zhao, Hanyang, et autres
Publié: (2026)
par: Zhao, Hanyang, et autres
Publié: (2026)
Robust Adversarial Policy Optimization Under Dynamics Uncertainty
par: Kim, Mintae, et autres
Publié: (2026)
par: Kim, Mintae, et autres
Publié: (2026)
Rigorous dynamical mean field theory for stochastic gradient descent methods
par: Gerbelot, Cedric, et autres
Publié: (2022)
par: Gerbelot, Cedric, et autres
Publié: (2022)
Documents similaires
-
Online Matching via Reinforcement Learning: An Expert Policy Orchestration Strategy
par: Mignacco, Chiara, et autres
Publié: (2025) -
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization
par: Tiapkin, Daniil, et autres
Publié: (2024) -
Optimization Trade-offs in Asynchronous Federated Learning: A Stochastic Networks Approach
par: Alahyane, Abdelkrim, et autres
Publié: (2026) -
Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency
par: Alahyane, Abdelkrim, et autres
Publié: (2025) -
Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability
par: Comte, Céline, et autres
Publié: (2023)