Enregistré dans:
| Auteurs principaux: | Xie, Shuo, Wang, Tianhao, Wu, Beining, Li, Zhiyuan |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.20584 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Provable Benefit of Sign Descent: A Minimal Model Under Heavy-Tailed Class Imbalance
par: Yadav, Robin, et autres
Publié: (2025)
par: Yadav, Robin, et autres
Publié: (2025)
Structured Preconditioners in Adaptive Optimization: A Unified Analysis
par: Xie, Shuo, et autres
Publié: (2025)
par: Xie, Shuo, et autres
Publié: (2025)
Implicit Bias of AdamW: $\ell_\infty$ Norm Constrained Optimization
par: Xie, Shuo, et autres
Publié: (2024)
par: Xie, Shuo, et autres
Publié: (2024)
Gradient Descent, Stochastic Optimization, and Other Tales
par: Lu, Jun
Publié: (2022)
par: Lu, Jun
Publié: (2022)
Non-Euclidean Gradient Descent Operates at the Edge of Stability
par: Islamov, Rustem, et autres
Publié: (2026)
par: Islamov, Rustem, et autres
Publié: (2026)
Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity
par: Xie, Shuo, et autres
Publié: (2024)
par: Xie, Shuo, et autres
Publié: (2024)
An Exploration of Non-Euclidean Gradient Descent: Muon and its Many Variants
par: Crawshaw, Michael, et autres
Publié: (2025)
par: Crawshaw, Michael, et autres
Publié: (2025)
Non-Euclidean Broximal Point Method: A Blueprint for Geometry-Aware Optimization
par: Gruntkowska, Kaja, et autres
Publié: (2025)
par: Gruntkowska, Kaja, et autres
Publié: (2025)
Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent
par: Naganuma, Hiroki, et autres
Publié: (2026)
par: Naganuma, Hiroki, et autres
Publié: (2026)
Sample-Efficient Geometry Reconstruction from Euclidean Distances using Non-Convex Optimization
par: Ghosh, Ipsita, et autres
Publié: (2024)
par: Ghosh, Ipsita, et autres
Publié: (2024)
Riemannian Optimization for Non-convex Euclidean Distance Geometry with Global Recovery Guarantees
par: Smith, Chandler, et autres
Publié: (2024)
par: Smith, Chandler, et autres
Publié: (2024)
Position: Beyond Euclidean -- Foundation Models Should Embrace Non-Euclidean Geometries
par: He, Neil, et autres
Publié: (2025)
par: He, Neil, et autres
Publié: (2025)
A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent
par: Wang, Mingze, et autres
Publié: (2023)
par: Wang, Mingze, et autres
Publié: (2023)
Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation
par: Mohamadi, Mohamad Amin, et autres
Publié: (2025)
par: Mohamadi, Mohamad Amin, et autres
Publié: (2025)
A Tale of Two Symmetries: Exploring the Loss Landscape of Equivariant Models
par: Xie, YuQing, et autres
Publié: (2025)
par: Xie, YuQing, et autres
Publié: (2025)
Autoformalizing Euclidean Geometry
par: Murphy, Logan, et autres
Publié: (2024)
par: Murphy, Logan, et autres
Publié: (2024)
Convergence of Spectral Descent for Non-smooth Optimization
par: Yang, Yixuan, et autres
Publié: (2026)
par: Yang, Yixuan, et autres
Publié: (2026)
Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization
par: Cai, Yuhang, et autres
Publié: (2024)
par: Cai, Yuhang, et autres
Publié: (2024)
Euclidean Distance Matrix Completion via Asymmetric Projected Gradient Descent
par: Li, Yicheng, et autres
Publié: (2025)
par: Li, Yicheng, et autres
Publié: (2025)
On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent
par: Li, Bingrui, et autres
Publié: (2024)
par: Li, Bingrui, et autres
Publié: (2024)
Lifecycle-Aware Federated Continual Learning in Mobile Autonomous Systems
par: Wu, Beining, et autres
Publié: (2026)
par: Wu, Beining, et autres
Publié: (2026)
A Tale of Two Cities: Pessimism and Opportunism in Offline Dynamic Pricing
par: Bian, Zeyu, et autres
Publié: (2024)
par: Bian, Zeyu, et autres
Publié: (2024)
A Tale of Two Problems: Multi-Task Bilevel Learning Meets Equality Constrained Multi-Objective Optimization
par: Zhang, Zhiyao, et autres
Publié: (2026)
par: Zhang, Zhiyao, et autres
Publié: (2026)
Constructive Approximation under Carleman's Condition, with Applications to Smoothed Analysis
par: Koehler, Frederic, et autres
Publié: (2025)
par: Koehler, Frederic, et autres
Publié: (2025)
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization
par: Abuduweili, Abulikemu, et autres
Publié: (2024)
par: Abuduweili, Abulikemu, et autres
Publié: (2024)
Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations
par: Jiang, Yangbangyan, et autres
Publié: (2025)
par: Jiang, Yangbangyan, et autres
Publié: (2025)
Provable Non-Convex Euclidean Distance Matrix Completion: Geometry, Reconstruction, and Robustness
par: Smith, Chandler, et autres
Publié: (2025)
par: Smith, Chandler, et autres
Publié: (2025)
Adaptive Log-Euclidean Metrics for SPD Matrix Learning
par: Chen, Ziheng, et autres
Publié: (2023)
par: Chen, Ziheng, et autres
Publié: (2023)
Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency
par: Wu, Jingfeng, et autres
Publié: (2024)
par: Wu, Jingfeng, et autres
Publié: (2024)
Stochastic Adaptive Gradient Descent Without Descent
par: Aujol, Jean-François, et autres
Publié: (2025)
par: Aujol, Jean-François, et autres
Publié: (2025)
Incremental Sequence Labeling: A Tale of Two Shifts
par: Qiu, Shengjie, et autres
Publié: (2024)
par: Qiu, Shengjie, et autres
Publié: (2024)
Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization
par: Zhai, Zhiyuan, et autres
Publié: (2026)
par: Zhai, Zhiyuan, et autres
Publié: (2026)
Learnable Loss Geometries with Mirror Descent for Scalable and Convergent Meta-Learning
par: Zhang, Yilang, et autres
Publié: (2025)
par: Zhang, Yilang, et autres
Publié: (2025)
Non-Euclidean Spatial Graph Neural Network
par: Zhang, Zheng, et autres
Publié: (2023)
par: Zhang, Zheng, et autres
Publié: (2023)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent
par: Ozkara, Kaan, et autres
Publié: (2024)
par: Ozkara, Kaan, et autres
Publié: (2024)
The Marginal Value of Momentum for Small Learning Rate SGD
par: Wang, Runzhe, et autres
Publié: (2023)
par: Wang, Runzhe, et autres
Publié: (2023)
Actor-Critic or Critic-Actor? A Tale of Two Time Scales
par: Bhatnagar, Shalabh, et autres
Publié: (2022)
par: Bhatnagar, Shalabh, et autres
Publié: (2022)
Non-Euclidean High-Order Smooth Convex Optimization
par: Contreras, Juan Pablo, et autres
Publié: (2024)
par: Contreras, Juan Pablo, et autres
Publié: (2024)
Non-Euclidean SGD for Structured Optimization: Unified Analysis and Improved Rates
par: Kovalev, Dmitry, et autres
Publié: (2025)
par: Kovalev, Dmitry, et autres
Publié: (2025)
Enhanced High-Dimensional Data Visualization through Adaptive Multi-Scale Manifold Embedding
par: Ni, Tianhao, et autres
Publié: (2025)
par: Ni, Tianhao, et autres
Publié: (2025)
Documents similaires
-
Provable Benefit of Sign Descent: A Minimal Model Under Heavy-Tailed Class Imbalance
par: Yadav, Robin, et autres
Publié: (2025) -
Structured Preconditioners in Adaptive Optimization: A Unified Analysis
par: Xie, Shuo, et autres
Publié: (2025) -
Implicit Bias of AdamW: $\ell_\infty$ Norm Constrained Optimization
par: Xie, Shuo, et autres
Publié: (2024) -
Gradient Descent, Stochastic Optimization, and Other Tales
par: Lu, Jun
Publié: (2022) -
Non-Euclidean Gradient Descent Operates at the Edge of Stability
par: Islamov, Rustem, et autres
Publié: (2026)