-д хадгалсан:
| Үндсэн зохиолчид: | Meterez, Alexandru, Nair, Pranav Ajit, Morwani, Depen, Pehlevan, Cengiz, Kakade, Sham |
|---|---|
| Формат: | Preprint |
| Хэвлэсэн: |
2026
|
| Нөхцлүүд: | |
| Онлайн хандалт: | https://arxiv.org/abs/2602.03702 |
| Шошгууд: |
Шошго нэмэх
Шошго байхгүй, Энэхүү баримтыг шошголох эхний хүн болох!
|
Ижил төстэй зүйлс
Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025)
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025)
A Simplified Analysis of SGD for Linear Regression with Weight Averaging
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025)
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025)
How Does Critical Batch Size Scale in Pre-training?
-н: Zhang, Hanlin, зэрэг
Хэвлэсэн: (2024)
-н: Zhang, Hanlin, зэрэг
Хэвлэсэн: (2024)
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2025)
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2025)
A New Perspective on Shampoo's Preconditioner
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2024)
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2024)
Anytime Training with Schedule-Free Spectral Optimization
-н: Apte, Anuj, зэрэг
Хэвлэсэн: (2026)
-н: Apte, Anuj, зэрэг
Хэвлэсэн: (2026)
The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
-н: Abreu, Natalie, зэрэг
Хэвлэсэн: (2025)
-н: Abreu, Natalie, зэрэг
Хэвлэсэн: (2025)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
-н: Zhao, Rosie, зэрэг
Хэвлэсэн: (2025)
-н: Zhao, Rosie, зэрэг
Хэвлэсэн: (2025)
Deconstructing What Makes a Good Optimizer for Language Models
-н: Zhao, Rosie, зэрэг
Хэвлэсэн: (2024)
-н: Zhao, Rosie, зэрэг
Хэвлэсэн: (2024)
The Recurrent Transformer: Greater Effective Depth and Efficient Decoding
-н: Oncescu, Costin-Andrei, зэрэг
Хэвлэсэн: (2026)
-н: Oncescu, Costin-Andrei, зэрэг
Хэвлэсэн: (2026)
Learning-Guided Rolling Horizon Optimization for Long-Horizon Flexible Job-Shop Scheduling
-н: Li, Sirui, зэрэг
Хэвлэсэн: (2025)
-н: Li, Sirui, зэрэг
Хэвлэсэн: (2025)
Convex Relaxation for Solving Large-Margin Classifiers in Hyperbolic Space
-н: Yang, Sheng, зэрэг
Хэвлэсэн: (2024)
-н: Yang, Sheng, зэрэг
Хэвлэсэн: (2024)
SOAP: Improving and Stabilizing Shampoo using Adam
-н: Vyas, Nikhil, зэрэг
Хэвлэсэн: (2024)
-н: Vyas, Nikhil, зэрэг
Хэвлэсэн: (2024)
Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training
-н: Song, Minhak, зэрэг
Хэвлэсэн: (2025)
-н: Song, Minhak, зэрэг
Хэвлэсэн: (2025)
ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule
-н: Huang, Yilie, зэрэг
Хэвлэсэн: (2026)
-н: Huang, Yilie, зэрэг
Хэвлэсэн: (2026)
Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent
-н: Kou, Yiwen, зэрэг
Хэвлэсэн: (2024)
-н: Kou, Yiwen, зэрэг
Хэвлэсэн: (2024)
Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning
-н: Li, Jingqi, зэрэг
Хэвлэсэн: (2022)
-н: Li, Jingqi, зэрэг
Хэвлэсэн: (2022)
The Road Less Scheduled
-н: Defazio, Aaron, зэрэг
Хэвлэсэн: (2024)
-н: Defazio, Aaron, зэрэг
Хэвлэсэн: (2024)
Integrated Offline and Online Learning to Solve a Large Class of Scheduling Problems
-н: Liu, Anbang, зэрэг
Хэвлэсэн: (2025)
-н: Liu, Anbang, зэрэг
Хэвлэсэн: (2025)
Memory-Efficient LLM Pretraining via Minimalist Optimizer Design
-н: Glentis, Athanasios, зэрэг
Хэвлэсэн: (2025)
-н: Glentis, Athanasios, зэрэг
Хэвлэсэн: (2025)
Revisiting LQR Control from the Perspective of Receding-Horizon Policy Gradient
-н: Zhang, Xiangyuan, зэрэг
Хэвлэсэн: (2023)
-н: Zhang, Xiangyuan, зэрэг
Хэвлэсэн: (2023)
Hindsight-Guided Momentum (HGM) Optimizer: An Approach to Adaptive Learning Rate
-н: Sarkar, Krisanu
Хэвлэсэн: (2025)
-н: Sarkar, Krisanu
Хэвлэсэн: (2025)
Solving Integrated Process Planning and Scheduling Problem via Graph Neural Network Based Deep Reinforcement Learning
-н: Li, Hongpei, зэрэг
Хэвлэсэн: (2024)
-н: Li, Hongpei, зэрэг
Хэвлэсэн: (2024)
Online Scheduling for LLM Inference with KV Cache Constraints
-н: Jaillet, Patrick, зэрэг
Хэвлэсэн: (2025)
-н: Jaillet, Patrick, зэрэг
Хэвлэсэн: (2025)
Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
-н: Liu, Yuxing, зэрэг
Хэвлэсэн: (2026)
-н: Liu, Yuxing, зэрэг
Хэвлэсэн: (2026)
Graph Neural Networks for the Offline Nanosatellite Task Scheduling Problem
-н: Pacheco, Bruno Machado, зэрэг
Хэвлэсэн: (2023)
-н: Pacheco, Bruno Machado, зэрэг
Хэвлэсэн: (2023)
Neural Combinatorial Optimization for Stochastic Flexible Job Shop Scheduling Problems
-н: Smit, Igor G., зэрэг
Хэвлэсэн: (2024)
-н: Smit, Igor G., зэрэг
Хэвлэсэн: (2024)
Optimization and Generalization Guarantees for Weight Normalization
-н: Cisneros-Velarde, Pedro, зэрэг
Хэвлэсэн: (2024)
-н: Cisneros-Velarde, Pedro, зэрэг
Хэвлэсэн: (2024)
Lagrangian Index Policy for Restless Bandits with Average Reward
-н: Avrachenkov, Konstantin, зэрэг
Хэвлэсэн: (2024)
-н: Avrachenkov, Konstantin, зэрэг
Хэвлэсэн: (2024)
Weighted Low-rank Approximation via Stochastic Gradient Descent on Manifolds
-н: Xu, Conglong, зэрэг
Хэвлэсэн: (2025)
-н: Xu, Conglong, зэрэг
Хэвлэсэн: (2025)
Approximate and Weighted Data Reconstruction Attack in Federated Learning
-н: Song, Yongcun, зэрэг
Хэвлэсэн: (2023)
-н: Song, Yongcun, зэрэг
Хэвлэсэн: (2023)
Open Problem: Anytime Convergence Rate of Gradient Descent
-н: Kornowski, Guy, зэрэг
Хэвлэсэн: (2024)
-н: Kornowski, Guy, зэрэг
Хэвлэсэн: (2024)
Prodigy: An Expeditiously Adaptive Parameter-Free Learner
-н: Mishchenko, Konstantin, зэрэг
Хэвлэсэн: (2023)
-н: Mishchenko, Konstantin, зэрэг
Хэвлэсэн: (2023)
The Optimization Landscape of SGD Across the Feature Learning Strength
-н: Atanasov, Alexander, зэрэг
Хэвлэсэн: (2024)
-н: Atanasov, Alexander, зэрэг
Хэвлэсэн: (2024)
Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling
-н: Zhu, Feng, зэрэг
Хэвлэсэн: (2025)
-н: Zhu, Feng, зэрэг
Хэвлэсэн: (2025)
Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
-н: Li, Yingcong, зэрэг
Хэвлэсэн: (2025)
-н: Li, Yingcong, зэрэг
Хэвлэсэн: (2025)
Beyond Minimax Rates in Group Distributionally Robust Optimization via a Novel Notion of Sparsity
-н: Nguyen, Quan, зэрэг
Хэвлэсэн: (2024)
-н: Nguyen, Quan, зэрэг
Хэвлэсэн: (2024)
Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
-н: Vyas, Nikhil, зэрэг
Хэвлэсэн: (2023)
-н: Vyas, Nikhil, зэрэг
Хэвлэсэн: (2023)
BAGEL: Projection-Free Algorithm for Adversarially Constrained Online Convex Optimization
-н: Lu, Yiyang, зэрэг
Хэвлэсэн: (2025)
-н: Lu, Yiyang, зэрэг
Хэвлэсэн: (2025)
Gain Scheduling with a Neural Operator for a Transport PDE with Nonlinear Recirculation
-н: Lamarque, Maxence, зэрэг
Хэвлэсэн: (2024)
-н: Lamarque, Maxence, зэрэг
Хэвлэсэн: (2024)
Ижил төстэй зүйлс
-
Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025) -
A Simplified Analysis of SGD for Linear Regression with Weight Averaging
-н: Meterez, Alexandru, зэрэг
Хэвлэсэн: (2025) -
How Does Critical Batch Size Scale in Pre-training?
-н: Zhang, Hanlin, зэрэг
Хэвлэсэн: (2024) -
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2025) -
A New Perspective on Shampoo's Preconditioner
-н: Morwani, Depen, зэрэг
Хэвлэсэн: (2024)