:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Kallusky, Dominik, Rao, Vinay, Nandavanam, Vishal, Shi, Hao-Jun Michael
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2510.15830
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

YuriiFormer: A Suite of Nesterov-Accelerated Transformers
di: Zimin, Aleksandr, et al.
Pubblicazione: (2026)

Enhanced NIRMAL Optimizer With Damped Nesterov Acceleration: A Comparative Analysis
di: Gaud, Nirmal, et al.
Pubblicazione: (2025)

Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks
di: Liu, Xin, et al.
Pubblicazione: (2022)

Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning
di: Chen, Yen-Ju, et al.
Pubblicazione: (2023)

EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
di: Yau, Chung-Yiu, et al.
Pubblicazione: (2026)

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models
di: Xie, Xingyu, et al.
Pubblicazione: (2022)

A Concise Lyapunov Analysis of Nesterov's Accelerated Gradient Method
di: Liu, Jun
Pubblicazione: (2025)

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
di: Joo, Taejong, et al.
Pubblicazione: (2026)

Randomized Subspace Nesterov Accelerated Gradient
di: Omiya, Gaku, et al.
Pubblicazione: (2026)

Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization
di: Borodich, Ekaterina, et al.
Pubblicazione: (2025)

Nesterov Method for Asynchronous Pipeline Parallel Optimization
di: Ajanthan, Thalaiyasingam, et al.
Pubblicazione: (2025)

The Surprising Effectiveness of Rankers Trained on Expanded Queries
di: Anand, Abhijit, et al.
Pubblicazione: (2024)

Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU Neural Networks
di: Liao, Fangshuo, et al.
Pubblicazione: (2023)

Muon with Nesterov Momentum: Heavy-Tailed Noise and (Randomized) Inexact Polar Decomposition
di: Choudhury, Sayantan, et al.
Pubblicazione: (2026)

Generalized Continuous-Time Models for Nesterov's Accelerated Gradient Methods
di: Park, Chanwoong, et al.
Pubblicazione: (2024)

The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
di: Ma, Jiajun, et al.
Pubblicazione: (2024)

Revisiting the Initial Steps in Adaptive Gradient Descent Optimization
di: Abuduweili, Abulikemu, et al.
Pubblicazione: (2024)

Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization
di: Pirnay, Jonathan, et al.
Pubblicazione: (2024)

Improving Infinitely Deep Bayesian Neural Networks with Nesterov's Accelerated Gradient Method
di: Yu, Chenxu, et al.
Pubblicazione: (2026)

On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
di: Haas, Moritz, et al.
Pubblicazione: (2025)

Stochastic Gradient Descent with Momentum is Algorithmically Stable
di: Lei, Yunwen, et al.
Pubblicazione: (2026)

Distributed Low-Communication Training with Decoupled Momentum Optimization
di: Nedelkoski, Sasho, et al.
Pubblicazione: (2025)

Nesterov acceleration in benignly non-convex landscapes
di: Gupta, Kanan, et al.
Pubblicazione: (2024)

The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)

Nesterov Acceleration for Ensemble Kalman Inversion and Variants
di: Vernon, Sydney, et al.
Pubblicazione: (2025)

Nesterov acceleration despite very noisy gradients
di: Gupta, Kanan, et al.
Pubblicazione: (2023)

MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training
di: Li, Jiacheng, et al.
Pubblicazione: (2026)

Double Momentum Method for Lower-Level Constrained Bilevel Optimization
di: Shi, Wanli, et al.
Pubblicazione: (2024)

Provable Acceleration of Nesterov's Accelerated Gradient for Rectangular Matrix Factorization and Linear Neural Networks
di: Xu, Zhenghao, et al.
Pubblicazione: (2024)

Distributed Nesterov Flows for Multi-agent Optimization
di: Ren, Zihao, et al.
Pubblicazione: (2026)

Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models
di: Setty, Vinay
Pubblicazione: (2024)

Offline Model-Based Optimization via Policy-Guided Gradient Search
di: Chemingui, Yassine, et al.
Pubblicazione: (2024)

DeMo: Decoupled Momentum Optimization
di: Peng, Bowen, et al.
Pubblicazione: (2024)

On the Limits of Momentum in Decentralized and Federated Optimization
di: Zaccone, Riccardo, et al.
Pubblicazione: (2025)

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
di: Agarwal, Naman, et al.
Pubblicazione: (2025)

On the Surprising Effectiveness of Attention Transfer for Vision Transformers
di: Li, Alexander C., et al.
Pubblicazione: (2024)

Learning Surrogates for Offline Black-Box Optimization via Gradient Matching
di: Hoang, Minh, et al.
Pubblicazione: (2025)

Inference of Online Newton Methods with Nesterov's Accelerated Sketching
di: Wang, Haoxuan, et al.
Pubblicazione: (2026)

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning
di: Yan, Peishen, et al.
Pubblicazione: (2026)

Gradient Correlation Subspace Learning against Catastrophic Forgetting
di: Dubnov, Tammuz, et al.
Pubblicazione: (2024)