Guardado en:
| Autores principales: | Qiye, Hu, Hao, Zhou, RuoXi, Yu |
|---|---|
| Formato: | Preprint |
| Publicado: |
2024
|
| Materias: | |
| Acceso en línea: | https://arxiv.org/abs/2412.10898 |
| Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
Ejemplares similares
Mechanistic Insights into Grokking from the Embedding Layer
por: AlquBoj, H. V., et al.
Publicado: (2025)
por: AlquBoj, H. V., et al.
Publicado: (2025)
To Grok Grokking: Provable Grokking in Ridge Regression
por: Xu, Mingyue, et al.
Publicado: (2026)
por: Xu, Mingyue, et al.
Publicado: (2026)
Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic
por: Swaroop, Anand
Publicado: (2026)
por: Swaroop, Anand
Publicado: (2026)
The Complexity Dynamics of Grokking
por: DeMoss, Branton, et al.
Publicado: (2024)
por: DeMoss, Branton, et al.
Publicado: (2024)
Measuring Sharpness in Grokking
por: Miller, Jack, et al.
Publicado: (2024)
por: Miller, Jack, et al.
Publicado: (2024)
Bridging Lottery Ticket and Grokking: Understanding Grokking from Inner Structure of Networks
por: Minegishi, Gouki, et al.
Publicado: (2023)
por: Minegishi, Gouki, et al.
Publicado: (2023)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking
por: Gu, Zihan, et al.
Publicado: (2025)
por: Gu, Zihan, et al.
Publicado: (2025)
Grokking Group Multiplication with Cosets
por: Stander, Dashiell, et al.
Publicado: (2023)
por: Stander, Dashiell, et al.
Publicado: (2023)
Grokked Models are Better Unlearners
por: Liang, Yuanbang, et al.
Publicado: (2025)
por: Liang, Yuanbang, et al.
Publicado: (2025)
Topological Signatures of Grokking
por: Tang, Yifan, et al.
Publicado: (2026)
por: Tang, Yifan, et al.
Publicado: (2026)
Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
por: Li, Ziyue, et al.
Publicado: (2025)
por: Li, Ziyue, et al.
Publicado: (2025)
ILDR: Geometric Early Detection of Grokking
por: Golwala, Shreel
Publicado: (2026)
por: Golwala, Shreel
Publicado: (2026)
NeuralGrok: Accelerate Grokking by Neural Gradient Transformation
por: Zhou, Xinyu, et al.
Publicado: (2025)
por: Zhou, Xinyu, et al.
Publicado: (2025)
Distributional Spectral Diagnostics for Localizing Grokking Transitions
por: Wang, Ziyue, et al.
Publicado: (2026)
por: Wang, Ziyue, et al.
Publicado: (2026)
GrokAlign: Geometric Characterisation and Acceleration of Grokking
por: Walker, Thomas, et al.
Publicado: (2025)
por: Walker, Thomas, et al.
Publicado: (2025)
Controlling Grokking with Nonlinearity and Data Symmetry
por: Salah, Ahmed, et al.
Publicado: (2024)
por: Salah, Ahmed, et al.
Publicado: (2024)
Grokking Explained: A Statistical Phenomenon
por: Carvalho, Breno W., et al.
Publicado: (2025)
por: Carvalho, Breno W., et al.
Publicado: (2025)
Grokking in Linear Models for Logistic Regression
por: Das, Nataraj, et al.
Publicado: (2026)
por: Das, Nataraj, et al.
Publicado: (2026)
Grokking Finite-Dimensional Algebra
por: Notsawo, Pascal Jr Tikeng, et al.
Publicado: (2026)
por: Notsawo, Pascal Jr Tikeng, et al.
Publicado: (2026)
Muon Optimizer Accelerates Grokking
por: Tveit, Amund, et al.
Publicado: (2025)
por: Tveit, Amund, et al.
Publicado: (2025)
Grokking of Diffusion Models: Case Study on Modular Addition
por: Kim, Joon Hyeok, et al.
Publicado: (2026)
por: Kim, Joon Hyeok, et al.
Publicado: (2026)
Explaining Grokking in Transformers through the Lens of Inductive Bias
por: Singh, Jaisidh, et al.
Publicado: (2026)
por: Singh, Jaisidh, et al.
Publicado: (2026)
Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition
por: Huang, Yufei, et al.
Publicado: (2024)
por: Huang, Yufei, et al.
Publicado: (2024)
Grokfast: Accelerated Grokking by Amplifying Slow Gradients
por: Lee, Jaerin, et al.
Publicado: (2024)
por: Lee, Jaerin, et al.
Publicado: (2024)
Progress Measures for Grokking on Real-world Tasks
por: Golechha, Satvik
Publicado: (2024)
por: Golechha, Satvik
Publicado: (2024)
Understanding Grokking Through A Robustness Viewpoint
por: Tan, Zhiquan, et al.
Publicado: (2023)
por: Tan, Zhiquan, et al.
Publicado: (2023)
Let Me Grok for You: Accelerating Grokking via Embedding Transfer from a Weaker Model
por: Xu, Zhiwei, et al.
Publicado: (2025)
por: Xu, Zhiwei, et al.
Publicado: (2025)
Grokking at the Edge of Linear Separability
por: Beck, Alon, et al.
Publicado: (2024)
por: Beck, Alon, et al.
Publicado: (2024)
Grokking at the Edge of Numerical Stability
por: Prieto, Lucas, et al.
Publicado: (2025)
por: Prieto, Lucas, et al.
Publicado: (2025)
Is Grokking a Computational Glass Relaxation?
por: Zhang, Xiaotian, et al.
Publicado: (2025)
por: Zhang, Xiaotian, et al.
Publicado: (2025)
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
por: Lyu, Kaifeng, et al.
Publicado: (2023)
por: Lyu, Kaifeng, et al.
Publicado: (2023)
Deep Grokking: Would Deep Neural Networks Generalize Better?
por: Fan, Simin, et al.
Publicado: (2024)
por: Fan, Simin, et al.
Publicado: (2024)
Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
por: Sakamoto, Keitaro, et al.
Publicado: (2025)
por: Sakamoto, Keitaro, et al.
Publicado: (2025)
Egalitarian Gradient Descent: A Simple Approach to Accelerated Grokking
por: Pasand, Ali Saheb, et al.
Publicado: (2025)
por: Pasand, Ali Saheb, et al.
Publicado: (2025)
Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking
por: Han, Ting, et al.
Publicado: (2025)
por: Han, Ting, et al.
Publicado: (2025)
When Data Falls Short: Grokking Below the Critical Threshold
por: Singh, Vaibhav, et al.
Publicado: (2025)
por: Singh, Vaibhav, et al.
Publicado: (2025)
Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity
por: Miller, Jack, et al.
Publicado: (2023)
por: Miller, Jack, et al.
Publicado: (2023)
Critical Data Size of Language Models from a Grokking Perspective
por: Zhu, Xuekai, et al.
Publicado: (2024)
por: Zhu, Xuekai, et al.
Publicado: (2024)
Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes
por: Hanqing, Liu, et al.
Publicado: (2026)
por: Hanqing, Liu, et al.
Publicado: (2026)
Grokking Modular Polynomials
por: Doshi, Darshil, et al.
Publicado: (2024)
por: Doshi, Darshil, et al.
Publicado: (2024)
Ejemplares similares
-
Mechanistic Insights into Grokking from the Embedding Layer
por: AlquBoj, H. V., et al.
Publicado: (2025) -
To Grok Grokking: Provable Grokking in Ridge Regression
por: Xu, Mingyue, et al.
Publicado: (2026) -
Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic
por: Swaroop, Anand
Publicado: (2026) -
The Complexity Dynamics of Grokking
por: DeMoss, Branton, et al.
Publicado: (2024) -
Measuring Sharpness in Grokking
por: Miller, Jack, et al.
Publicado: (2024)