Enregistré dans:
| Auteurs principaux: | Lee, Donghwan, Yang, Hyukjun, Park, Bum Geun |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.19800 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Periodic Regularized Q-Learning
par: Yang, Hyukjun, et autres
Publié: (2026)
par: Yang, Hyukjun, et autres
Publié: (2026)
Understanding the theoretical properties of projected Bellman equation, linear Q-learning, and approximate value iteration
par: Lim, Han-Dong, et autres
Publié: (2025)
par: Lim, Han-Dong, et autres
Publié: (2025)
Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem
par: Yang, Hyukjun, et autres
Publié: (2026)
par: Yang, Hyukjun, et autres
Publié: (2026)
Bellman Residual Minimization for Control: Geometry, Stationarity, and Convergence
par: Lee, Donghwan, et autres
Publié: (2026)
par: Lee, Donghwan, et autres
Publié: (2026)
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance
par: Lee, Taehan, et autres
Publié: (2025)
par: Lee, Taehan, et autres
Publié: (2025)
Sign-Separated Finite-Time Error Analysis of Q-Learning
par: Lee, Donghwan
Publié: (2026)
par: Lee, Donghwan
Publié: (2026)
Deep Q-Learning with Gradient Target Tracking
par: Park, Bum Geun, et autres
Publié: (2025)
par: Park, Bum Geun, et autres
Publié: (2025)
Switching-Geometry Analysis of Deflated Q-Value Iteration
par: Lee, Donghwan
Publié: (2026)
par: Lee, Donghwan
Publié: (2026)
Adaptive Policy Backbone via Shared Network
par: Park, Bumgeun, et autres
Publié: (2025)
par: Park, Bumgeun, et autres
Publié: (2025)
Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning
par: Park, Jongchan, et autres
Publié: (2025)
par: Park, Jongchan, et autres
Publié: (2025)
Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes
par: Lee, Donghwan, et autres
Publié: (2023)
par: Lee, Donghwan, et autres
Publié: (2023)
R-GTD: A Geometric Analysis of Gradient Temporal-Difference Learning in Singular Regimes
par: Na, Hyunjun, et autres
Publié: (2026)
par: Na, Hyunjun, et autres
Publié: (2026)
Toward a Unified Lyapunov-Certified ODE Convergence Analysis of Smooth Q-Learning with p-Norms
par: Lee, Donghwan, et autres
Publié: (2024)
par: Lee, Donghwan, et autres
Publié: (2024)
Finite-Time Analysis of Temporal Difference Learning with Experience Replay
par: Lim, Han-Dong, et autres
Publié: (2023)
par: Lim, Han-Dong, et autres
Publié: (2023)
Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration
par: Lee, Donghwan
Publié: (2026)
par: Lee, Donghwan
Publié: (2026)
Lyapunov-Certified Direct Switching Theory for Q-Learning
par: Lee, Donghwan
Publié: (2026)
par: Lee, Donghwan
Publié: (2026)
Analysis of Off-Policy $n$-Step TD-Learning with Linear Function Approximation
par: Lim, Han-Dong, et autres
Publié: (2025)
par: Lim, Han-Dong, et autres
Publié: (2025)
Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control
par: Lee, Taeho, et autres
Publié: (2025)
par: Lee, Taeho, et autres
Publié: (2025)
Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
par: Lee, Taeho, et autres
Publié: (2026)
par: Lee, Taeho, et autres
Publié: (2026)
A Discrete-Time Switching System Analysis of Q-learning
par: Lee, Donghwan, et autres
Publié: (2021)
par: Lee, Donghwan, et autres
Publié: (2021)
Soft Deterministic Policy Gradient with Gaussian Smoothing
par: Na, Hyunjun, et autres
Publié: (2026)
par: Na, Hyunjun, et autres
Publié: (2026)
Suppressing Overestimation in Q-Learning through Adversarial Behaviors
par: Lee, HyeAnn, et autres
Publié: (2023)
par: Lee, HyeAnn, et autres
Publié: (2023)
Backstepping Temporal Difference Learning
par: Lim, Han-Dong, et autres
Publié: (2023)
par: Lim, Han-Dong, et autres
Publié: (2023)
Adversarial bandit optimization for approximately linear functions
par: Cheng, Zhuoyu, et autres
Publié: (2025)
par: Cheng, Zhuoyu, et autres
Publié: (2025)
A finite time analysis of distributed Q-learning
par: Lim, Han-Dong, et autres
Publié: (2024)
par: Lim, Han-Dong, et autres
Publié: (2024)
Safe-Support Q-Learning: Learning without Unsafe Exploration
par: Lim, Yeeun, et autres
Publié: (2026)
par: Lim, Yeeun, et autres
Publié: (2026)
LPMLN, Weak Constraints, and P-log
par: Lee, Joohyung, et autres
Publié: (2025)
par: Lee, Joohyung, et autres
Publié: (2025)
Learning the Model While Learning Q: Finite-Time Sample Complexity of Online SyncMBQ
par: Lim, Han-Dong, et autres
Publié: (2024)
par: Lim, Han-Dong, et autres
Publié: (2024)
Self Attention with Temporal Prior: Can We Learn More from Arrow of Time?
par: Kim, Kyung Geun, et autres
Publié: (2023)
par: Kim, Kyung Geun, et autres
Publié: (2023)
MahaVar: OOD Detection via Class-wise Mahalanobis Distance Variance under Neural Collapse
par: Kim, Donghwan, et autres
Publié: (2026)
par: Kim, Donghwan, et autres
Publié: (2026)
Mitigating the Likelihood Paradox in Flow-based OOD Detection via Entropy Manipulation
par: Kim, Donghwan, et autres
Publié: (2026)
par: Kim, Donghwan, et autres
Publié: (2026)
Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs
par: Li, Ziyu, et autres
Publié: (2024)
par: Li, Ziyu, et autres
Publié: (2024)
Analysis of a Memcapacitor-Based for Neural Network Accelerator Framework
par: Singh, Ankur, et autres
Publié: (2025)
par: Singh, Ankur, et autres
Publié: (2025)
A Theoretical Analysis of Why Masked Diffusion Models Mitigate the Reversal Curse
par: Jeon, Moongyu, et autres
Publié: (2026)
par: Jeon, Moongyu, et autres
Publié: (2026)
HyPHEN: A Hybrid Packing Method and Optimizations for Homomorphic Encryption-Based Neural Networks
par: Kim, Donghwan, et autres
Publié: (2023)
par: Kim, Donghwan, et autres
Publié: (2023)
PhysHanDI: Physics-Based Reconstruction of Hand-Deformable Object Interactions
par: Lee, Jihyun, et autres
Publié: (2026)
par: Lee, Jihyun, et autres
Publié: (2026)
Why the Counterintuitive Phenomenon of Likelihood Rarely Appears in Tabular Anomaly Detection with Deep Generative Models?
par: Kim, Donghwan, et autres
Publié: (2026)
par: Kim, Donghwan, et autres
Publié: (2026)
HyperbolicLR: Epoch insensitive learning rate scheduler
par: Kim, Tae-Geun
Publié: (2024)
par: Kim, Tae-Geun
Publié: (2024)
Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation
par: Kim, Donghwan, et autres
Publié: (2026)
par: Kim, Donghwan, et autres
Publié: (2026)
Analysis and Fully Memristor-based Reservoir Computing for Temporal Data Classification
par: Singh, Ankur, et autres
Publié: (2024)
par: Singh, Ankur, et autres
Publié: (2024)
Documents similaires
-
Periodic Regularized Q-Learning
par: Yang, Hyukjun, et autres
Publié: (2026) -
Understanding the theoretical properties of projected Bellman equation, linear Q-learning, and approximate value iteration
par: Lim, Han-Dong, et autres
Publié: (2025) -
Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem
par: Yang, Hyukjun, et autres
Publié: (2026) -
Bellman Residual Minimization for Control: Geometry, Stationarity, and Convergence
par: Lee, Donghwan, et autres
Publié: (2026) -
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance
par: Lee, Taehan, et autres
Publié: (2025)