Salvato in:
| Autori principali: | Jin, Long, Nong, Han, Chen, Liangming, Su, Zhenming |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2412.12473 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers
di: Shi, Tao, et al.
Pubblicazione: (2026)
di: Shi, Tao, et al.
Pubblicazione: (2026)
Adam-SHANG: A Convergent Adam-Type Method for Stochastic Smooth Convex Optimization
di: Yu, Yaxin, et al.
Pubblicazione: (2026)
di: Yu, Yaxin, et al.
Pubblicazione: (2026)
Adam-HNAG: A Convergent Reformulation of Adam with Accelerated Rate
di: Yu, Yaxin, et al.
Pubblicazione: (2026)
di: Yu, Yaxin, et al.
Pubblicazione: (2026)
Do Latent-CoT Models Think Step-by-Step? A Mechanistic Study on Sequential Reasoning Tasks
di: Liang, Jia, et al.
Pubblicazione: (2026)
di: Liang, Jia, et al.
Pubblicazione: (2026)
HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization
di: Huang, Feihu, et al.
Pubblicazione: (2026)
di: Huang, Feihu, et al.
Pubblicazione: (2026)
Towards a Mechanistic Understanding of Propositional Logical Reasoning in Large Language Models
di: Chen, Danchun, et al.
Pubblicazione: (2026)
di: Chen, Danchun, et al.
Pubblicazione: (2026)
A Refined Generalization Analysis for Extreme Multi-class Supervised Contrastive Representation Learning
di: Hieu, Nong Minh, et al.
Pubblicazione: (2026)
di: Hieu, Nong Minh, et al.
Pubblicazione: (2026)
Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
di: Chen, Jianhui, et al.
Pubblicazione: (2026)
di: Chen, Jianhui, et al.
Pubblicazione: (2026)
Generalization Analysis for Supervised Contrastive Representation Learning under Non-IID Settings
di: Hieu, Nong Minh, et al.
Pubblicazione: (2025)
di: Hieu, Nong Minh, et al.
Pubblicazione: (2025)
MEMS Gyroscope Multi-Feature Calibration Using Machine Learning Technique
di: Long, Yaoyao, et al.
Pubblicazione: (2024)
di: Long, Yaoyao, et al.
Pubblicazione: (2024)
Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks
di: Tang, Xuan, et al.
Pubblicazione: (2025)
di: Tang, Xuan, et al.
Pubblicazione: (2025)
AdamZ: An Enhanced Optimisation Method for Neural Network Training
di: Zaznov, Ilia, et al.
Pubblicazione: (2024)
di: Zaznov, Ilia, et al.
Pubblicazione: (2024)
On Median of Incomplete U-Statistics
di: Hieu, Nong Minh
Pubblicazione: (2026)
di: Hieu, Nong Minh
Pubblicazione: (2026)
Adam-family Methods for Nonsmooth Optimization with Convergence Guarantees
di: Xiao, Nachuan, et al.
Pubblicazione: (2023)
di: Xiao, Nachuan, et al.
Pubblicazione: (2023)
WarpAdam: A new Adam optimizer based on Meta-Learning approach
di: Pan, Chengxi, et al.
Pubblicazione: (2024)
di: Pan, Chengxi, et al.
Pubblicazione: (2024)
CaAdam: Improving Adam optimizer using connection aware methods
di: Genet, Remi, et al.
Pubblicazione: (2024)
di: Genet, Remi, et al.
Pubblicazione: (2024)
Neural Dynamical Operator: Continuous Spatial-Temporal Model with Gradient-Based and Derivative-Free Optimization Methods
di: Chen, Chuanqi, et al.
Pubblicazione: (2023)
di: Chen, Chuanqi, et al.
Pubblicazione: (2023)
Generalization Bounds for Semi-supervised Matrix Completion with Distributional Side Information
di: Ledent, Antoine, et al.
Pubblicazione: (2025)
di: Ledent, Antoine, et al.
Pubblicazione: (2025)
A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD
di: Jin, Ruinan, et al.
Pubblicazione: (2024)
di: Jin, Ruinan, et al.
Pubblicazione: (2024)
FedAdamW: A Communication-Efficient Optimizer with Convergence and Generalization Guarantees for Federated Large Models
di: Liu, Junkang, et al.
Pubblicazione: (2025)
di: Liu, Junkang, et al.
Pubblicazione: (2025)
Generalization Analysis for Deep Contrastive Representation Learning
di: Hieu, Nong Minh, et al.
Pubblicazione: (2024)
di: Hieu, Nong Minh, et al.
Pubblicazione: (2024)
Deep Learning Approach for Knee Point Detection on Noisy Data
di: Fok, Ting Yan, et al.
Pubblicazione: (2024)
di: Fok, Ting Yan, et al.
Pubblicazione: (2024)
Batch size invariant Adam
di: Wang, Xi, et al.
Pubblicazione: (2024)
di: Wang, Xi, et al.
Pubblicazione: (2024)
Tune My Adam, Please!
di: Athanasiadis, Theodoros, et al.
Pubblicazione: (2025)
di: Athanasiadis, Theodoros, et al.
Pubblicazione: (2025)
In Search of Adam's Secret Sauce
di: Orvieto, Antonio, et al.
Pubblicazione: (2025)
di: Orvieto, Antonio, et al.
Pubblicazione: (2025)
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps
di: Ellis, Benjamin, et al.
Pubblicazione: (2024)
di: Ellis, Benjamin, et al.
Pubblicazione: (2024)
SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models
di: Deng, Jiangyi, et al.
Pubblicazione: (2024)
di: Deng, Jiangyi, et al.
Pubblicazione: (2024)
ODE approximation for the Adam algorithm: General and overparametrized setting
di: Dereich, Steffen, et al.
Pubblicazione: (2025)
di: Dereich, Steffen, et al.
Pubblicazione: (2025)
Why Transformers Need Adam: A Hessian Perspective
di: Zhang, Yushun, et al.
Pubblicazione: (2024)
di: Zhang, Yushun, et al.
Pubblicazione: (2024)
Understanding Adam Optimizer via Online Learning of Updates: Adam is FTRL in Disguise
di: Ahn, Kwangjun, et al.
Pubblicazione: (2024)
di: Ahn, Kwangjun, et al.
Pubblicazione: (2024)
Generalizing Fair Clustering to Multiple Groups: Algorithms and Applications
di: Chakraborty, Diptarka, et al.
Pubblicazione: (2025)
di: Chakraborty, Diptarka, et al.
Pubblicazione: (2025)
The Implicit Bias of Adam on Separable Data
di: Zhang, Chenyang, et al.
Pubblicazione: (2024)
di: Zhang, Chenyang, et al.
Pubblicazione: (2024)
Adam Simplified: Bias Correction Debunked
di: Laing, Sam, et al.
Pubblicazione: (2025)
di: Laing, Sam, et al.
Pubblicazione: (2025)
Refresh-Scaling the Memory of Balanced Adam
di: Fernández-Hernández, Alberto, et al.
Pubblicazione: (2026)
di: Fernández-Hernández, Alberto, et al.
Pubblicazione: (2026)
Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures
di: Gao, Yutong, et al.
Pubblicazione: (2026)
di: Gao, Yutong, et al.
Pubblicazione: (2026)
Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
di: Jin, Ruinan, et al.
Pubblicazione: (2026)
di: Jin, Ruinan, et al.
Pubblicazione: (2026)
MCL-GAN: Generative Adversarial Networks with Multiple Specialized Discriminators
di: Choi, Jinyoung, et al.
Pubblicazione: (2021)
di: Choi, Jinyoung, et al.
Pubblicazione: (2021)
Investigating the Transferability of Code Repair for Low-Resource Programming Languages
di: Wong, Kyle, et al.
Pubblicazione: (2024)
di: Wong, Kyle, et al.
Pubblicazione: (2024)
Enhancing EEG Signal Generation through a Hybrid Approach Integrating Reinforcement Learning and Diffusion Models
di: An, Yang, et al.
Pubblicazione: (2024)
di: An, Yang, et al.
Pubblicazione: (2024)
DP-FedAdamW: An Efficient Optimizer for Differentially Private Federated Large Models
di: Liu, Jin, et al.
Pubblicazione: (2026)
di: Liu, Jin, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers
di: Shi, Tao, et al.
Pubblicazione: (2026) -
Adam-SHANG: A Convergent Adam-Type Method for Stochastic Smooth Convex Optimization
di: Yu, Yaxin, et al.
Pubblicazione: (2026) -
Adam-HNAG: A Convergent Reformulation of Adam with Accelerated Rate
di: Yu, Yaxin, et al.
Pubblicazione: (2026) -
Do Latent-CoT Models Think Step-by-Step? A Mechanistic Study on Sequential Reasoning Tasks
di: Liang, Jia, et al.
Pubblicazione: (2026) -
HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization
di: Huang, Feihu, et al.
Pubblicazione: (2026)