:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Lee, Donghwan, Yang, Hyukjun, Park, Bum Geun
Format:	Preprint
Publié:	2025
Sujets:	Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2509.19800
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Periodic Regularized Q-Learning
par: Yang, Hyukjun, et autres
Publié: (2026)

Understanding the theoretical properties of projected Bellman equation, linear Q-learning, and approximate value iteration
par: Lim, Han-Dong, et autres
Publié: (2025)

Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem
par: Yang, Hyukjun, et autres
Publié: (2026)

Bellman Residual Minimization for Control: Geometry, Stationarity, and Convergence
par: Lee, Donghwan, et autres
Publié: (2026)

Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance
par: Lee, Taehan, et autres
Publié: (2025)

Sign-Separated Finite-Time Error Analysis of Q-Learning
par: Lee, Donghwan
Publié: (2026)

Deep Q-Learning with Gradient Target Tracking
par: Park, Bum Geun, et autres
Publié: (2025)

Switching-Geometry Analysis of Deflated Q-Value Iteration
par: Lee, Donghwan
Publié: (2026)

Adaptive Policy Backbone via Shared Network
par: Park, Bumgeun, et autres
Publié: (2025)

Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning
par: Park, Jongchan, et autres
Publié: (2025)

Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes
par: Lee, Donghwan, et autres
Publié: (2023)

R-GTD: A Geometric Analysis of Gradient Temporal-Difference Learning in Singular Regimes
par: Na, Hyunjun, et autres
Publié: (2026)

Toward a Unified Lyapunov-Certified ODE Convergence Analysis of Smooth Q-Learning with p-Norms
par: Lee, Donghwan, et autres
Publié: (2024)

Finite-Time Analysis of Temporal Difference Learning with Experience Replay
par: Lim, Han-Dong, et autres
Publié: (2023)

Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration
par: Lee, Donghwan
Publié: (2026)

Lyapunov-Certified Direct Switching Theory for Q-Learning
par: Lee, Donghwan
Publié: (2026)

Analysis of Off-Policy $n$-Step TD-Learning with Linear Function Approximation
par: Lim, Han-Dong, et autres
Publié: (2025)

Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control
par: Lee, Taeho, et autres
Publié: (2025)

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
par: Lee, Taeho, et autres
Publié: (2026)

A Discrete-Time Switching System Analysis of Q-learning
par: Lee, Donghwan, et autres
Publié: (2021)

Soft Deterministic Policy Gradient with Gaussian Smoothing
par: Na, Hyunjun, et autres
Publié: (2026)

Suppressing Overestimation in Q-Learning through Adversarial Behaviors
par: Lee, HyeAnn, et autres
Publié: (2023)

Backstepping Temporal Difference Learning
par: Lim, Han-Dong, et autres
Publié: (2023)

Adversarial bandit optimization for approximately linear functions
par: Cheng, Zhuoyu, et autres
Publié: (2025)

A finite time analysis of distributed Q-learning
par: Lim, Han-Dong, et autres
Publié: (2024)

Safe-Support Q-Learning: Learning without Unsafe Exploration
par: Lim, Yeeun, et autres
Publié: (2026)

LPMLN, Weak Constraints, and P-log
par: Lee, Joohyung, et autres
Publié: (2025)

Learning the Model While Learning Q: Finite-Time Sample Complexity of Online SyncMBQ
par: Lim, Han-Dong, et autres
Publié: (2024)

Self Attention with Temporal Prior: Can We Learn More from Arrow of Time?
par: Kim, Kyung Geun, et autres
Publié: (2023)

MahaVar: OOD Detection via Class-wise Mahalanobis Distance Variance under Neural Collapse
par: Kim, Donghwan, et autres
Publié: (2026)

Mitigating the Likelihood Paradox in Flow-based OOD Detection via Entropy Manipulation
par: Kim, Donghwan, et autres
Publié: (2026)

Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs
par: Li, Ziyu, et autres
Publié: (2024)

Analysis of a Memcapacitor-Based for Neural Network Accelerator Framework
par: Singh, Ankur, et autres
Publié: (2025)

A Theoretical Analysis of Why Masked Diffusion Models Mitigate the Reversal Curse
par: Jeon, Moongyu, et autres
Publié: (2026)

HyPHEN: A Hybrid Packing Method and Optimizations for Homomorphic Encryption-Based Neural Networks
par: Kim, Donghwan, et autres
Publié: (2023)

PhysHanDI: Physics-Based Reconstruction of Hand-Deformable Object Interactions
par: Lee, Jihyun, et autres
Publié: (2026)

Why the Counterintuitive Phenomenon of Likelihood Rarely Appears in Tabular Anomaly Detection with Deep Generative Models?
par: Kim, Donghwan, et autres
Publié: (2026)

HyperbolicLR: Epoch insensitive learning rate scheduler
par: Kim, Tae-Geun
Publié: (2024)

Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation
par: Kim, Donghwan, et autres
Publié: (2026)

Analysis and Fully Memristor-based Reservoir Computing for Temporal Data Classification
par: Singh, Ankur, et autres
Publié: (2024)