সংরক্ষণ করুন:
| প্রধান লেখক: | Morwani, Depen, Shapira, Itai, Vyas, Nikhil, Malach, Eran, Kakade, Sham, Janson, Lucas |
|---|---|
| বিন্যাস: | Preprint |
| প্রকাশিত: |
2024
|
| বিষয়গুলি: | |
| অনলাইন ব্যবহার করুন: | https://arxiv.org/abs/2406.17748 |
| ট্যাগগুলো: |
ট্যাগ যুক্ত করুন
কোনো ট্যাগ নেই, প্রথমজন হিসাবে ট্যাগ করুন!
|
অনুরূপ উপাদানগুলি
SOAP: Improving and Stabilizing Shampoo using Adam
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2024)
How Does Critical Batch Size Scale in Pre-training?
অনুযায়ী: Zhang, Hanlin, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhang, Hanlin, অন্যান্য
প্রকাশিত: (2024)
Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2026)
A Simplified Analysis of SGD for Linear Regression with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)
Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)
The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
অনুযায়ী: Abreu, Natalie, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Abreu, Natalie, অন্যান্য
প্রকাশিত: (2025)
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2025)
Deconstructing What Makes a Good Optimizer for Language Models
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2024)
Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2023)
Loss-to-Loss Prediction: Scaling Laws for All Datasets
অনুযায়ী: Brandfonbrener, David, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Brandfonbrener, David, অন্যান্য
প্রকাশিত: (2024)
Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise
অনুযায়ী: Liu, Bingbin, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Liu, Bingbin, অন্যান্য
প্রকাশিত: (2025)
Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent
অনুযায়ী: Kou, Yiwen, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Kou, Yiwen, অন্যান্য
প্রকাশিত: (2024)
LOTION: Smoothing the Optimization Landscape for Quantized Training
অনুযায়ী: Kwun, Mujin, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Kwun, Mujin, অন্যান্য
প্রকাশিত: (2025)
The Recurrent Transformer: Greater Effective Depth and Efficient Decoding
অনুযায়ী: Oncescu, Costin-Andrei, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Oncescu, Costin-Andrei, অন্যান্য
প্রকাশিত: (2026)
Feature emergence via margin maximization: case studies in algebraic tasks
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2023)
Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-Sided and Two-Sided Preconditioning
অনুযায়ী: Li, Huan, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Li, Huan, অন্যান্য
প্রকাশিত: (2026)
Repeat After Me: Transformers are Better than State Space Models at Copying
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)
Universal Length Generalization with Turing Programs
অনুযায়ী: Hou, Kaiying, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Hou, Kaiying, অন্যান্য
প্রকাশিত: (2024)
Online Min-Max Optimization: From Individual Regrets to Cumulative Saddle Points
অনুযায়ী: Vyas, Abhijeet, অন্যান্য
প্রকাশিত: (2026)
অনুযায়ী: Vyas, Abhijeet, অন্যান্য
প্রকাশিত: (2026)
Error Feedback Can Accurately Compress Preconditioners
অনুযায়ী: Modoranu, Ionut-Vlad, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Modoranu, Ionut-Vlad, অন্যান্য
প্রকাশিত: (2023)
Efficient Graph Laplacian Estimation by Proximal Newton
অনুযায়ী: Medvedovsky, Yakov, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Medvedovsky, Yakov, অন্যান্য
প্রকাশিত: (2023)
Accelerated Parameter-Free Stochastic Optimization
অনুযায়ী: Kreisler, Itai, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Kreisler, Itai, অন্যান্য
প্রকাশিত: (2024)
A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2022)
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2022)
Mixture of Parrots: Experts improve memorization more than reasoning
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)
The Role of Sparsity for Length Generalization in Transformers
অনুযায়ী: Golowich, Noah, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Golowich, Noah, অন্যান্য
প্রকাশিত: (2025)
LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks
অনুযায়ী: Prabhakar, Akshara, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Prabhakar, Akshara, অন্যান্য
প্রকাশিত: (2024)
New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results
অনুযায়ী: Orabona, Francesco, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Orabona, Francesco, অন্যান্য
প্রকাশিত: (2025)
Robustness of Iteratively Pre-Conditioned Gradient-Descent Method: The Case of Distributed Linear Regression Problem
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2021)
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2021)
Iterative Pre-Conditioning for Expediting the Gradient-Descent Method: The Distributed Linear Least-Squares Problem
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2020)
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2020)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2025)
A New Perspective On Denoising Based On Optimal Transport
অনুযায়ী: Trillos, Nicolas Garcia, অন্যান্য
প্রকাশিত: (2023)
অনুযায়ী: Trillos, Nicolas Garcia, অন্যান্য
প্রকাশিত: (2023)
A Pontryagin Perspective on Reinforcement Learning
অনুযায়ী: Eberhard, Onno, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Eberhard, Onno, অন্যান্য
প্রকাশিত: (2024)
Challenges in Training PINNs: A Loss Landscape Perspective
অনুযায়ী: Rathore, Pratik, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Rathore, Pratik, অন্যান্য
প্রকাশিত: (2024)
A Mirror Descent Perspective of Smoothed Sign Descent
অনুযায়ী: Wang, Shuyang, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Wang, Shuyang, অন্যান্য
প্রকাশিত: (2024)
On the Stability of Nonlinear Receding Horizon Control: A Geometric Perspective
অনুযায়ী: Westenbroek, Tyler, অন্যান্য
প্রকাশিত: (2021)
অনুযায়ী: Westenbroek, Tyler, অন্যান্য
প্রকাশিত: (2021)
Model-Free $μ$-Synthesis: A Nonsmooth Optimization Perspective
অনুযায়ী: Keivan, Darioush, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Keivan, Darioush, অন্যান্য
প্রকাশিত: (2024)
The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective
অনুযায়ী: Muehlebach, Michael, অন্যান্য
প্রকাশিত: (2025)
অনুযায়ী: Muehlebach, Michael, অন্যান্য
প্রকাশিত: (2025)
Level Set Teleportation: An Optimization Perspective
অনুযায়ী: Mishkin, Aaron, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Mishkin, Aaron, অন্যান্য
প্রকাশিত: (2024)
Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials
অনুযায়ী: Chen, August Y., অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Chen, August Y., অন্যান্য
প্রকাশিত: (2024)
Decentralized Bilevel Optimization: A Perspective from Transient Iteration Complexity
অনুযায়ী: Kong, Boao, অন্যান্য
প্রকাশিত: (2024)
অনুযায়ী: Kong, Boao, অন্যান্য
প্রকাশিত: (2024)
অনুরূপ উপাদানগুলি
-
SOAP: Improving and Stabilizing Shampoo using Adam
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2024) -
How Does Critical Batch Size Scale in Pre-training?
অনুযায়ী: Zhang, Hanlin, অন্যান্য
প্রকাশিত: (2024) -
Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2026) -
A Simplified Analysis of SGD for Linear Regression with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025) -
Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)