:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Jonckheere, Matthieu, Mignacco, Chiara, Stoltz, Gilles
Format:	Preprint
Publié:	2023
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2310.16473
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Online Matching via Reinforcement Learning: An Expert Policy Orchestration Strategy
par: Mignacco, Chiara, et autres
Publié: (2025)

Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization
par: Tiapkin, Daniil, et autres
Publié: (2024)

Optimization Trade-offs in Asynchronous Federated Learning: A Stochastic Networks Approach
par: Alahyane, Abdelkrim, et autres
Publié: (2026)

Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency
par: Alahyane, Abdelkrim, et autres
Publié: (2025)

Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability
par: Comte, Céline, et autres
Publié: (2023)

Blackwell's Approachability for Sequential Conformal Inference
par: Principato, Guillaume, et autres
Publié: (2025)

Queuing dynamics of asynchronous Federated Learning
par: Leconte, Louis, et autres
Publié: (2024)

Smooth Gate Functions for Soft Advantage Policy Optimization
par: Denisov, Egor, et autres
Publié: (2026)

Efficiency of Parallel and Restart Exploration Strategies in Model Free Stochastic Simulations
par: Garcia, Ernesto, et autres
Publié: (2025)

Parametrized Power-Iteration Clustering for Directed Graphs
par: Debaussart-Joniec, Gwendal, et autres
Publié: (2022)

Optimal Protocols for Continual Learning via Statistical Physics and Control Theory
par: Mori, Francesco, et autres
Publié: (2024)

Analytic theory of dropout regularization
par: Mori, Francesco, et autres
Publié: (2025)

Diversity-Preserving K-Armed Bandits, Revisited
par: Hadiji, Hédi, et autres
Publié: (2020)

Towards Flash Thinking via Decoupled Advantage Policy Optimization
par: Tan, Zezhong, et autres
Publié: (2025)

Generalized Dirichlet Energy and Graph Laplacians for Clustering Directed and Undirected Graphs
par: Sevi, Harry, et autres
Publié: (2022)

A statistical physics framework for optimal learning
par: Mignacco, Francesca, et autres
Publié: (2025)

Skip-Connected Policy Optimization for Implicit Advantage
par: Teng, Fengwei, et autres
Publié: (2026)

GAGPO: Generalized Advantage Grouped Policy Optimization
par: Zhu, Siyuan, et autres
Publié: (2026)

Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation
par: He, Xixiang, et autres
Publié: (2026)

Action Robust Reinforcement Learning via Optimal Adversary Aware Policy Optimization
par: Nie, Buqing, et autres
Publié: (2025)

Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning
par: Huang, Bingning, et autres
Publié: (2025)

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization
par: Hu, Ranting
Publié: (2025)

$K-$means with learned metrics
par: Groisman, Pablo, et autres
Publié: (2026)

How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization
par: Fang, Yangyi, et autres
Publié: (2026)

Skill or Luck? Return Decomposition via Advantage Functions
par: Pan, Hsiao-Ru, et autres
Publié: (2024)

Forward Learning with Top-Down Feedback: Empirical and Analytical Characterization
par: Srinivasan, Ravi, et autres
Publié: (2023)

REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization
par: Hu, Jian, et autres
Publié: (2025)

Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
par: Kang, Hyungkyu, et autres
Publié: (2025)

AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization
par: Sane, Soham
Publié: (2025)

Dissecting the Interplay of Attention Paths in a Statistical Mechanics Theory of Transformers
par: Tiberi, Lorenzo, et autres
Publié: (2024)

Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation
par: Choe, Jean Seong Bjorn, et autres
Publié: (2024)

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning
par: Liu, Tenglong, et autres
Publié: (2024)

On the Tension Between Optimality and Adversarial Robustness in Policy Optimization
par: Li, Haoran, et autres
Publié: (2025)

Generalized Advantage Estimation for Distributional Policy Gradients
par: Shaik, Shahil, et autres
Publié: (2025)

Provable Privacy Advantages of Decentralized Federated Learning via Distributed Optimization
par: Yu, Wenrui, et autres
Publié: (2024)

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation
par: Zhang, Xiaoying, et autres
Publié: (2024)

Prompt Optimization via Adversarial In-Context Learning
par: Do, Xuan Long, et autres
Publié: (2023)

OPD+: Rethinking the Advantage Design for On-Policy Distillation
par: Zhao, Hanyang, et autres
Publié: (2026)

Robust Adversarial Policy Optimization Under Dynamics Uncertainty
par: Kim, Mintae, et autres
Publié: (2026)

Rigorous dynamical mean field theory for stochastic gradient descent methods
par: Gerbelot, Cedric, et autres
Publié: (2022)