:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Lu, Runyu, Shi, Ruochuan, Zhu, Yuanheng, Zhao, Dongbin
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2511.17367
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

ARAC: Adaptive Regularized Multi-Agent Soft Actor-Critic in Graph-Structured Adversarial Games
di: Shi, Ruochuan, et al.
Pubblicazione: (2025)

Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games
di: Lu, Runyu, et al.
Pubblicazione: (2025)

Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning
di: Zhu, Yuanyang, et al.
Pubblicazione: (2024)

Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
di: Wang, Zhi, et al.
Pubblicazione: (2024)

Streaming Reinforcement Learning under Partial Observability with Real-Time Recurrent Learning
di: Farr, Noah, et al.
Pubblicazione: (2026)

DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
di: Xu, Kaixuan, et al.
Pubblicazione: (2025)

Guided Policy Optimization under Partial Observability
di: Li, Yueheng, et al.
Pubblicazione: (2025)

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs
di: Fu, Yuqian, et al.
Pubblicazione: (2025)

Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
di: Fu, Yuqian, et al.
Pubblicazione: (2026)

Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation
di: Simon, Raphael, et al.
Pubblicazione: (2025)

Belief-State RWKV for Reinforcement Learning under Partial Observability
di: Xiao, Liu
Pubblicazione: (2026)

Towards the Worst-case Robustness of Large Language Models
di: Chen, Huanran, et al.
Pubblicazione: (2025)

Distributionally Robust Safety Verification of Neural Networks via Worst-Case CVaR
di: Kishida, Masako
Pubblicazione: (2025)

Near-Optimal Partially Observable Reinforcement Learning with Partial Online State Information
di: Shi, Ming, et al.
Pubblicazione: (2023)

How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness
di: Rossolini, Giulio
Pubblicazione: (2026)

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data
di: Zhang, Yaocheng, et al.
Pubblicazione: (2026)

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
di: Ahuja, Angad Singh
Pubblicazione: (2026)

Linear Bandits with Partially Observable Features
di: Kim, Wonyoung, et al.
Pubblicazione: (2025)

Recurrent Deep Reinforcement Learning for Chemotherapy Control under Partial Observability
di: Kiram, Firas Mohamed Elamine, et al.
Pubblicazione: (2026)

Adversarial Training for Robust Coverage Network under Worst-case Facility Losses
di: Miao, Changhao, et al.
Pubblicazione: (2026)

Explainable Clustering Beyond Worst-Case Guarantees
di: Fleissner, Maximilian, et al.
Pubblicazione: (2024)

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning
di: Fu, Yuqian, et al.
Pubblicazione: (2025)

TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios
di: Xu, Wentao, et al.
Pubblicazione: (2026)

Infra-Bayesian Reinforcement Learning Agents Outperform Classical RL For Worst-Case Robustness
di: Aryal, Manish, et al.
Pubblicazione: (2026)

Belief States for Cooperative Multi-Agent Reinforcement Learning under Partial Observability
di: Pritz, Paul J., et al.
Pubblicazione: (2025)

A Convolution and Attention Based Encoder for Reinforcement Learning under Partial Observability
di: Wang, Wuhao, et al.
Pubblicazione: (2025)

Partially Observable Reinforcement Learning with Memory Traces
di: Eberhard, Onno, et al.
Pubblicazione: (2025)

Thompson Sampling in Partially Observable Contextual Bandits
di: Park, Hongju, et al.
Pubblicazione: (2024)

Beyond Optimism: Exploration With Partially Observable Rewards
di: Parisi, Simone, et al.
Pubblicazione: (2024)

Partially Observable Contextual Bandits with Linear Payoffs
di: Zeng, Sihan, et al.
Pubblicazione: (2024)

Contextual Decision-Making with Knapsacks Beyond the Worst Case
di: Chen, Zhaohua, et al.
Pubblicazione: (2022)

Decision-Focused Evaluation of Worst-Case Distribution Shift
di: Ren, Kevin, et al.
Pubblicazione: (2024)

Distribution Learning with Valid Outputs Beyond the Worst-Case
di: Rittler, Nick, et al.
Pubblicazione: (2024)

Short-Term-to-Long-Term Memory Transfer for Knowledge Graphs under Partial Observability
di: Kim, Taewoon, et al.
Pubblicazione: (2026)

Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability
di: Luis, Carlos E., et al.
Pubblicazione: (2024)

Robust Gaussian Processes via Relevance Pursuit
di: Ament, Sebastian, et al.
Pubblicazione: (2024)

FieldSeer I: Physics-Guided World Models for Long-Horizon Electromagnetic Dynamics under Partial Observability
di: Guo, Ziheng, et al.
Pubblicazione: (2025)

Improving the Worst-Case Bidirectional Communication Complexity for Nonconvex Distributed Optimization under Function Similarity
di: Gruntkowska, Kaja, et al.
Pubblicazione: (2024)

Learning Causal States Under Partial Observability and Perturbation
di: Li, Na, et al.
Pubblicazione: (2025)

Provable Partially Observable Reinforcement Learning with Privileged Information
di: Cai, Yang, et al.
Pubblicazione: (2024)