:: Library Catalog

প্রচ্ছদ

সংরক্ষণ করুন:

গ্রন্থ-পঞ্জীর বিবরন
প্রধান লেখক:	Morwani, Depen, Shapira, Itai, Vyas, Nikhil, Malach, Eran, Kakade, Sham, Janson, Lucas
বিন্যাস:	Preprint
প্রকাশিত:	2024
বিষয়গুলি:	Machine Learning Optimization and Control
অনলাইন ব্যবহার করুন:	https://arxiv.org/abs/2406.17748
ট্যাগগুলো:	ট্যাগ যুক্ত করুন কোনো ট্যাগ নেই, প্রথমজন হিসাবে ট্যাগ করুন!

অনুরূপ উপাদানগুলি

SOAP: Improving and Stabilizing Shampoo using Adam
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2024)

How Does Critical Batch Size Scale in Pre-training?
অনুযায়ী: Zhang, Hanlin, অন্যান্য
প্রকাশিত: (2024)

Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2026)

A Simplified Analysis of SGD for Linear Regression with Weight Averaging
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)

Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling
অনুযায়ী: Meterez, Alexandru, অন্যান্য
প্রকাশিত: (2025)

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
অনুযায়ী: Abreu, Natalie, অন্যান্য
প্রকাশিত: (2025)

Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2025)

Deconstructing What Makes a Good Optimizer for Language Models
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2024)

Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
অনুযায়ী: Vyas, Nikhil, অন্যান্য
প্রকাশিত: (2023)

Loss-to-Loss Prediction: Scaling Laws for All Datasets
অনুযায়ী: Brandfonbrener, David, অন্যান্য
প্রকাশিত: (2024)

Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise
অনুযায়ী: Liu, Bingbin, অন্যান্য
প্রকাশিত: (2025)

Matching the Statistical Query Lower Bound for $k$-Sparse Parity Problems with Sign Stochastic Gradient Descent
অনুযায়ী: Kou, Yiwen, অন্যান্য
প্রকাশিত: (2024)

LOTION: Smoothing the Optimization Landscape for Quantized Training
অনুযায়ী: Kwun, Mujin, অন্যান্য
প্রকাশিত: (2025)

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding
অনুযায়ী: Oncescu, Costin-Andrei, অন্যান্য
প্রকাশিত: (2026)

Feature emergence via margin maximization: case studies in algebraic tasks
অনুযায়ী: Morwani, Depen, অন্যান্য
প্রকাশিত: (2023)

Convergence Rate Analysis of the AdamW-Style Shampoo: Unifying One-Sided and Two-Sided Preconditioning
অনুযায়ী: Li, Huan, অন্যান্য
প্রকাশিত: (2026)

Repeat After Me: Transformers are Better than State Space Models at Copying
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)

Universal Length Generalization with Turing Programs
অনুযায়ী: Hou, Kaiying, অন্যান্য
প্রকাশিত: (2024)

Online Min-Max Optimization: From Individual Regrets to Cumulative Saddle Points
অনুযায়ী: Vyas, Abhijeet, অন্যান্য
প্রকাশিত: (2026)

Error Feedback Can Accurately Compress Preconditioners
অনুযায়ী: Modoranu, Ionut-Vlad, অন্যান্য
প্রকাশিত: (2023)

Efficient Graph Laplacian Estimation by Proximal Newton
অনুযায়ী: Medvedovsky, Yakov, অন্যান্য
প্রকাশিত: (2023)

Accelerated Parameter-Free Stochastic Optimization
অনুযায়ী: Kreisler, Itai, অন্যান্য
প্রকাশিত: (2024)

A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2022)

Mixture of Parrots: Experts improve memorization more than reasoning
অনুযায়ী: Jelassi, Samy, অন্যান্য
প্রকাশিত: (2024)

The Role of Sparsity for Length Generalization in Transformers
অনুযায়ী: Golowich, Noah, অন্যান্য
প্রকাশিত: (2025)

LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks
অনুযায়ী: Prabhakar, Akshara, অন্যান্য
প্রকাশিত: (2024)

New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results
অনুযায়ী: Orabona, Francesco, অন্যান্য
প্রকাশিত: (2025)

Robustness of Iteratively Pre-Conditioned Gradient-Descent Method: The Case of Distributed Linear Regression Problem
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2021)

Iterative Pre-Conditioning for Expediting the Gradient-Descent Method: The Distributed Linear Least-Squares Problem
অনুযায়ী: Chakrabarti, Kushal, অন্যান্য
প্রকাশিত: (2020)

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining
অনুযায়ী: Zhao, Rosie, অন্যান্য
প্রকাশিত: (2025)

A New Perspective On Denoising Based On Optimal Transport
অনুযায়ী: Trillos, Nicolas Garcia, অন্যান্য
প্রকাশিত: (2023)

A Pontryagin Perspective on Reinforcement Learning
অনুযায়ী: Eberhard, Onno, অন্যান্য
প্রকাশিত: (2024)

Challenges in Training PINNs: A Loss Landscape Perspective
অনুযায়ী: Rathore, Pratik, অন্যান্য
প্রকাশিত: (2024)

A Mirror Descent Perspective of Smoothed Sign Descent
অনুযায়ী: Wang, Shuyang, অন্যান্য
প্রকাশিত: (2024)

On the Stability of Nonlinear Receding Horizon Control: A Geometric Perspective
অনুযায়ী: Westenbroek, Tyler, অন্যান্য
প্রকাশিত: (2021)

Model-Free $μ$-Synthesis: A Nonsmooth Optimization Perspective
অনুযায়ী: Keivan, Darioush, অন্যান্য
প্রকাশিত: (2024)

The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective
অনুযায়ী: Muehlebach, Michael, অন্যান্য
প্রকাশিত: (2025)

Level Set Teleportation: An Optimization Perspective
অনুযায়ী: Mishkin, Aaron, অন্যান্য
প্রকাশিত: (2024)

Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials
অনুযায়ী: Chen, August Y., অন্যান্য
প্রকাশিত: (2024)

Decentralized Bilevel Optimization: A Perspective from Transient Iteration Complexity
অনুযায়ী: Kong, Boao, অন্যান্য
প্রকাশিত: (2024)