Salvato in:
| Autori principali: | Kallusky, Dominik, Rao, Vinay, Nandavanam, Vishal, Shi, Hao-Jun Michael |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.15830 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
YuriiFormer: A Suite of Nesterov-Accelerated Transformers
di: Zimin, Aleksandr, et al.
Pubblicazione: (2026)
di: Zimin, Aleksandr, et al.
Pubblicazione: (2026)
Enhanced NIRMAL Optimizer With Damped Nesterov Acceleration: A Comparative Analysis
di: Gaud, Nirmal, et al.
Pubblicazione: (2025)
di: Gaud, Nirmal, et al.
Pubblicazione: (2025)
Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks
di: Liu, Xin, et al.
Pubblicazione: (2022)
di: Liu, Xin, et al.
Pubblicazione: (2022)
Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning
di: Chen, Yen-Ju, et al.
Pubblicazione: (2023)
di: Chen, Yen-Ju, et al.
Pubblicazione: (2023)
EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
di: Yau, Chung-Yiu, et al.
Pubblicazione: (2026)
di: Yau, Chung-Yiu, et al.
Pubblicazione: (2026)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models
di: Xie, Xingyu, et al.
Pubblicazione: (2022)
di: Xie, Xingyu, et al.
Pubblicazione: (2022)
A Concise Lyapunov Analysis of Nesterov's Accelerated Gradient Method
di: Liu, Jun
Pubblicazione: (2025)
di: Liu, Jun
Pubblicazione: (2025)
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
di: Joo, Taejong, et al.
Pubblicazione: (2026)
di: Joo, Taejong, et al.
Pubblicazione: (2026)
Randomized Subspace Nesterov Accelerated Gradient
di: Omiya, Gaku, et al.
Pubblicazione: (2026)
di: Omiya, Gaku, et al.
Pubblicazione: (2026)
Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization
di: Borodich, Ekaterina, et al.
Pubblicazione: (2025)
di: Borodich, Ekaterina, et al.
Pubblicazione: (2025)
Nesterov Method for Asynchronous Pipeline Parallel Optimization
di: Ajanthan, Thalaiyasingam, et al.
Pubblicazione: (2025)
di: Ajanthan, Thalaiyasingam, et al.
Pubblicazione: (2025)
The Surprising Effectiveness of Rankers Trained on Expanded Queries
di: Anand, Abhijit, et al.
Pubblicazione: (2024)
di: Anand, Abhijit, et al.
Pubblicazione: (2024)
Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU Neural Networks
di: Liao, Fangshuo, et al.
Pubblicazione: (2023)
di: Liao, Fangshuo, et al.
Pubblicazione: (2023)
Muon with Nesterov Momentum: Heavy-Tailed Noise and (Randomized) Inexact Polar Decomposition
di: Choudhury, Sayantan, et al.
Pubblicazione: (2026)
di: Choudhury, Sayantan, et al.
Pubblicazione: (2026)
Generalized Continuous-Time Models for Nesterov's Accelerated Gradient Methods
di: Park, Chanwoong, et al.
Pubblicazione: (2024)
di: Park, Chanwoong, et al.
Pubblicazione: (2024)
The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
di: Ma, Jiajun, et al.
Pubblicazione: (2024)
di: Ma, Jiajun, et al.
Pubblicazione: (2024)
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization
di: Abuduweili, Abulikemu, et al.
Pubblicazione: (2024)
di: Abuduweili, Abulikemu, et al.
Pubblicazione: (2024)
Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization
di: Pirnay, Jonathan, et al.
Pubblicazione: (2024)
di: Pirnay, Jonathan, et al.
Pubblicazione: (2024)
Improving Infinitely Deep Bayesian Neural Networks with Nesterov's Accelerated Gradient Method
di: Yu, Chenxu, et al.
Pubblicazione: (2026)
di: Yu, Chenxu, et al.
Pubblicazione: (2026)
On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
di: Haas, Moritz, et al.
Pubblicazione: (2025)
di: Haas, Moritz, et al.
Pubblicazione: (2025)
Stochastic Gradient Descent with Momentum is Algorithmically Stable
di: Lei, Yunwen, et al.
Pubblicazione: (2026)
di: Lei, Yunwen, et al.
Pubblicazione: (2026)
Distributed Low-Communication Training with Decoupled Momentum Optimization
di: Nedelkoski, Sasho, et al.
Pubblicazione: (2025)
di: Nedelkoski, Sasho, et al.
Pubblicazione: (2025)
Nesterov acceleration in benignly non-convex landscapes
di: Gupta, Kanan, et al.
Pubblicazione: (2024)
di: Gupta, Kanan, et al.
Pubblicazione: (2024)
The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)
di: Akyürek, Ekin, et al.
Pubblicazione: (2024)
Nesterov Acceleration for Ensemble Kalman Inversion and Variants
di: Vernon, Sydney, et al.
Pubblicazione: (2025)
di: Vernon, Sydney, et al.
Pubblicazione: (2025)
Nesterov acceleration despite very noisy gradients
di: Gupta, Kanan, et al.
Pubblicazione: (2023)
di: Gupta, Kanan, et al.
Pubblicazione: (2023)
MONA: Muon Optimizer with Nesterov Acceleration for Scalable Language Model Training
di: Li, Jiacheng, et al.
Pubblicazione: (2026)
di: Li, Jiacheng, et al.
Pubblicazione: (2026)
Double Momentum Method for Lower-Level Constrained Bilevel Optimization
di: Shi, Wanli, et al.
Pubblicazione: (2024)
di: Shi, Wanli, et al.
Pubblicazione: (2024)
Provable Acceleration of Nesterov's Accelerated Gradient for Rectangular Matrix Factorization and Linear Neural Networks
di: Xu, Zhenghao, et al.
Pubblicazione: (2024)
di: Xu, Zhenghao, et al.
Pubblicazione: (2024)
Distributed Nesterov Flows for Multi-agent Optimization
di: Ren, Zihao, et al.
Pubblicazione: (2026)
di: Ren, Zihao, et al.
Pubblicazione: (2026)
Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models
di: Setty, Vinay
Pubblicazione: (2024)
di: Setty, Vinay
Pubblicazione: (2024)
Offline Model-Based Optimization via Policy-Guided Gradient Search
di: Chemingui, Yassine, et al.
Pubblicazione: (2024)
di: Chemingui, Yassine, et al.
Pubblicazione: (2024)
DeMo: Decoupled Momentum Optimization
di: Peng, Bowen, et al.
Pubblicazione: (2024)
di: Peng, Bowen, et al.
Pubblicazione: (2024)
On the Limits of Momentum in Decentralized and Federated Optimization
di: Zaccone, Riccardo, et al.
Pubblicazione: (2025)
di: Zaccone, Riccardo, et al.
Pubblicazione: (2025)
Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
di: Agarwal, Naman, et al.
Pubblicazione: (2025)
di: Agarwal, Naman, et al.
Pubblicazione: (2025)
On the Surprising Effectiveness of Attention Transfer for Vision Transformers
di: Li, Alexander C., et al.
Pubblicazione: (2024)
di: Li, Alexander C., et al.
Pubblicazione: (2024)
Learning Surrogates for Offline Black-Box Optimization via Gradient Matching
di: Hoang, Minh, et al.
Pubblicazione: (2025)
di: Hoang, Minh, et al.
Pubblicazione: (2025)
Inference of Online Newton Methods with Nesterov's Accelerated Sketching
di: Wang, Haoxuan, et al.
Pubblicazione: (2026)
di: Wang, Haoxuan, et al.
Pubblicazione: (2026)
FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning
di: Yan, Peishen, et al.
Pubblicazione: (2026)
di: Yan, Peishen, et al.
Pubblicazione: (2026)
Gradient Correlation Subspace Learning against Catastrophic Forgetting
di: Dubnov, Tammuz, et al.
Pubblicazione: (2024)
di: Dubnov, Tammuz, et al.
Pubblicazione: (2024)
Documenti analoghi
-
YuriiFormer: A Suite of Nesterov-Accelerated Transformers
di: Zimin, Aleksandr, et al.
Pubblicazione: (2026) -
Enhanced NIRMAL Optimizer With Damped Nesterov Acceleration: A Comparative Analysis
di: Gaud, Nirmal, et al.
Pubblicazione: (2025) -
Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks
di: Liu, Xin, et al.
Pubblicazione: (2022) -
Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning
di: Chen, Yen-Ju, et al.
Pubblicazione: (2023) -
EMA-Nesterov: Stabilizing Nesterov's Lookahead for Accelerated Deep Learning Optimization
di: Yau, Chung-Yiu, et al.
Pubblicazione: (2026)