Enregistré dans:
| Auteurs principaux: | Prakash, Hari K, Martin, Charles H |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.02859 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory
par: Prakash, Hari K., et autres
Publié: (2025)
par: Prakash, Hari K., et autres
Publié: (2025)
Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory
par: Prakash, Hari K., et autres
Publié: (2026)
par: Prakash, Hari K., et autres
Publié: (2026)
How to explain grokking
par: Kozyrev, S. V.
Publié: (2024)
par: Kozyrev, S. V.
Publié: (2024)
Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking
par: Han, Ting, et autres
Publié: (2025)
par: Han, Ting, et autres
Publié: (2025)
Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
par: Sakamoto, Keitaro, et autres
Publié: (2025)
par: Sakamoto, Keitaro, et autres
Publié: (2025)
Measuring Sharpness in Grokking
par: Miller, Jack, et autres
Publié: (2024)
par: Miller, Jack, et autres
Publié: (2024)
Learning words in groups: fusion algebras, tensor ranks and grokking
par: Shutman, Maor, et autres
Publié: (2025)
par: Shutman, Maor, et autres
Publié: (2025)
ILDR: Geometric Early Detection of Grokking
par: Golwala, Shreel
Publié: (2026)
par: Golwala, Shreel
Publié: (2026)
To Grok Grokking: Provable Grokking in Ridge Regression
par: Xu, Mingyue, et autres
Publié: (2026)
par: Xu, Mingyue, et autres
Publié: (2026)
Deep Grokking: Would Deep Neural Networks Generalize Better?
par: Fan, Simin, et autres
Publié: (2024)
par: Fan, Simin, et autres
Publié: (2024)
A rationale from frequency perspective for grokking in training neural network
par: Zhou, Zhangchen, et autres
Publié: (2024)
par: Zhou, Zhangchen, et autres
Publié: (2024)
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
par: Lyu, Kaifeng, et autres
Publié: (2023)
par: Lyu, Kaifeng, et autres
Publié: (2023)
Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity
par: Miller, Jack, et autres
Publié: (2023)
par: Miller, Jack, et autres
Publié: (2023)
The Complexity Dynamics of Grokking
par: DeMoss, Branton, et autres
Publié: (2024)
par: DeMoss, Branton, et autres
Publié: (2024)
Emergence in non-neural models: grokking modular arithmetic via average gradient outer product
par: Mallinar, Neil, et autres
Publié: (2024)
par: Mallinar, Neil, et autres
Publié: (2024)
Bridging Lottery Ticket and Grokking: Understanding Grokking from Inner Structure of Networks
par: Minegishi, Gouki, et autres
Publié: (2023)
par: Minegishi, Gouki, et autres
Publié: (2023)
Grokked Models are Better Unlearners
par: Liang, Yuanbang, et autres
Publié: (2025)
par: Liang, Yuanbang, et autres
Publié: (2025)
Topological Signatures of Grokking
par: Tang, Yifan, et autres
Publié: (2026)
par: Tang, Yifan, et autres
Publié: (2026)
Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
par: Li, Ziyue, et autres
Publié: (2025)
par: Li, Ziyue, et autres
Publié: (2025)
Using physics-inspired Singular Learning Theory to understand grokking & other phase transitions in modern neural networks
par: Lakkapragada, Anish
Publié: (2025)
par: Lakkapragada, Anish
Publié: (2025)
Position: Solve Layerwise Linear Models First to Understand Neural Dynamical Phenomena (Neural Collapse, Emergence, Lazy/Rich Regime, and Grokking)
par: Nam, Yoonsoo, et autres
Publié: (2025)
par: Nam, Yoonsoo, et autres
Publié: (2025)
NeuralGrok: Accelerate Grokking by Neural Gradient Transformation
par: Zhou, Xinyu, et autres
Publié: (2025)
par: Zhou, Xinyu, et autres
Publié: (2025)
Exploring Grokking: Experimental and Mechanistic Investigations
par: Qiye, Hu, et autres
Publié: (2024)
par: Qiye, Hu, et autres
Publié: (2024)
Mechanistic Insights into Grokking from the Embedding Layer
par: AlquBoj, H. V., et autres
Publié: (2025)
par: AlquBoj, H. V., et autres
Publié: (2025)
Distributional Spectral Diagnostics for Localizing Grokking Transitions
par: Wang, Ziyue, et autres
Publié: (2026)
par: Wang, Ziyue, et autres
Publié: (2026)
GrokAlign: Geometric Characterisation and Acceleration of Grokking
par: Walker, Thomas, et autres
Publié: (2025)
par: Walker, Thomas, et autres
Publié: (2025)
Grokking in Linear Models for Logistic Regression
par: Das, Nataraj, et autres
Publié: (2026)
par: Das, Nataraj, et autres
Publié: (2026)
Grokking Explained: A Statistical Phenomenon
par: Carvalho, Breno W., et autres
Publié: (2025)
par: Carvalho, Breno W., et autres
Publié: (2025)
Controlling Grokking with Nonlinearity and Data Symmetry
par: Salah, Ahmed, et autres
Publié: (2024)
par: Salah, Ahmed, et autres
Publié: (2024)
Grokking Finite-Dimensional Algebra
par: Notsawo, Pascal Jr Tikeng, et autres
Publié: (2026)
par: Notsawo, Pascal Jr Tikeng, et autres
Publié: (2026)
Grokking Group Multiplication with Cosets
par: Stander, Dashiell, et autres
Publié: (2023)
par: Stander, Dashiell, et autres
Publié: (2023)
Muon Optimizer Accelerates Grokking
par: Tveit, Amund, et autres
Publié: (2025)
par: Tveit, Amund, et autres
Publié: (2025)
A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization
par: Muckatira, Sherin, et autres
Publié: (2026)
par: Muckatira, Sherin, et autres
Publié: (2026)
Grokking of Diffusion Models: Case Study on Modular Addition
par: Kim, Joon Hyeok, et autres
Publié: (2026)
par: Kim, Joon Hyeok, et autres
Publié: (2026)
Explaining Grokking in Transformers through the Lens of Inductive Bias
par: Singh, Jaisidh, et autres
Publié: (2026)
par: Singh, Jaisidh, et autres
Publié: (2026)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking
par: Gu, Zihan, et autres
Publié: (2025)
par: Gu, Zihan, et autres
Publié: (2025)
Grokfast: Accelerated Grokking by Amplifying Slow Gradients
par: Lee, Jaerin, et autres
Publié: (2024)
par: Lee, Jaerin, et autres
Publié: (2024)
Understanding Grokking Through A Robustness Viewpoint
par: Tan, Zhiquan, et autres
Publié: (2023)
par: Tan, Zhiquan, et autres
Publié: (2023)
Progress Measures for Grokking on Real-world Tasks
par: Golechha, Satvik
Publié: (2024)
par: Golechha, Satvik
Publié: (2024)
Grokking at the Edge of Linear Separability
par: Beck, Alon, et autres
Publié: (2024)
par: Beck, Alon, et autres
Publié: (2024)
Documents similaires
-
Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory
par: Prakash, Hari K., et autres
Publié: (2025) -
Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory
par: Prakash, Hari K., et autres
Publié: (2026) -
How to explain grokking
par: Kozyrev, S. V.
Publié: (2024) -
Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking
par: Han, Ting, et autres
Publié: (2025) -
Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
par: Sakamoto, Keitaro, et autres
Publié: (2025)