Salvato in:
| Autori principali: | Medvedev, Marko, Lyu, Kaifeng, Li, Zhiyuan, Srebro, Nathan |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.25108 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Weak-to-Strong Generalization Even in Random Feature Networks, Provably
di: Medvedev, Marko, et al.
Pubblicazione: (2025)
di: Medvedev, Marko, et al.
Pubblicazione: (2025)
Overfitting Behaviour of Gaussian Kernel Ridgeless Regression: Varying Bandwidth or Dimensionality
di: Medvedev, Marko, et al.
Pubblicazione: (2024)
di: Medvedev, Marko, et al.
Pubblicazione: (2024)
Positive Distribution Shift as a Framework for Understanding Tractable Learning
di: Medvedev, Marko, et al.
Pubblicazione: (2026)
di: Medvedev, Marko, et al.
Pubblicazione: (2026)
Recursive Models for Long-Horizon Reasoning
di: Yang, Chenxiao, et al.
Pubblicazione: (2026)
di: Yang, Chenxiao, et al.
Pubblicazione: (2026)
PENCIL: Long Thoughts with Short Memory
di: Yang, Chenxiao, et al.
Pubblicazione: (2025)
di: Yang, Chenxiao, et al.
Pubblicazione: (2025)
Quantifying Overfitting along the Regularization Path for Two-Part-Code MDL in Supervised Classification
di: Zhu, Xiaohan, et al.
Pubblicazione: (2025)
di: Zhu, Xiaohan, et al.
Pubblicazione: (2025)
Data Mixing Can Induce Phase Transitions in Knowledge Acquisition
di: Gu, Xinran, et al.
Pubblicazione: (2025)
di: Gu, Xinran, et al.
Pubblicazione: (2025)
Noisy Interpolation Learning with Shallow Univariate ReLU Networks
di: Joshi, Nirmit, et al.
Pubblicazione: (2023)
di: Joshi, Nirmit, et al.
Pubblicazione: (2023)
Overfitting and Generalizing with (PAC) Bayesian Prediction in Noisy Binary Classification
di: Zhu, Xiaohan, et al.
Pubblicazione: (2026)
di: Zhu, Xiaohan, et al.
Pubblicazione: (2026)
On the Complexity of Learning Sparse Functions with Statistical and Gradient Queries
di: Joshi, Nirmit, et al.
Pubblicazione: (2024)
di: Joshi, Nirmit, et al.
Pubblicazione: (2024)
Tight Bounds on the Binomial CDF, and the Minimum of i.i.d Binomials, in terms of KL-Divergence
di: Zhu, Xiaohan, et al.
Pubblicazione: (2025)
di: Zhu, Xiaohan, et al.
Pubblicazione: (2025)
The Implicit Bias of Gradient Descent on Separable Data
di: Soudry, Daniel, et al.
Pubblicazione: (2017)
di: Soudry, Daniel, et al.
Pubblicazione: (2017)
Research Program: Theory of Learning in Dynamical Systems
di: Hazan, Elad, et al.
Pubblicazione: (2025)
di: Hazan, Elad, et al.
Pubblicazione: (2025)
The Price of Implicit Bias in Adversarially Robust Generalization
di: Tsilivis, Nikolaos, et al.
Pubblicazione: (2024)
di: Tsilivis, Nikolaos, et al.
Pubblicazione: (2024)
The Marginal Value of Momentum for Small Learning Rate SGD
di: Wang, Runzhe, et al.
Pubblicazione: (2023)
di: Wang, Runzhe, et al.
Pubblicazione: (2023)
A Theory of Learning with Autoregressive Chain of Thought
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
An Agnostic View on the Cost of Overfitting in (Kernel) Ridge Regression
di: Zhou, Lijia, et al.
Pubblicazione: (2023)
di: Zhou, Lijia, et al.
Pubblicazione: (2023)
On the Hardness of Learning Regular Expressions
di: Attias, Idan, et al.
Pubblicazione: (2025)
di: Attias, Idan, et al.
Pubblicazione: (2025)
Learning single-index models via harmonic decomposition
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
Temperature is All You Need for Generalization in Langevin Dynamics and other Markov Processes
di: Harel, Itamar, et al.
Pubblicazione: (2025)
di: Harel, Itamar, et al.
Pubblicazione: (2025)
Depth Separation in Norm-Bounded Infinite-Width Neural Networks
di: Parkinson, Suzanna, et al.
Pubblicazione: (2024)
di: Parkinson, Suzanna, et al.
Pubblicazione: (2024)
Adam Reduces a Unique Form of Sharpness: Theoretical Insights Near the Minimizer Manifold
di: Li, Xinghan, et al.
Pubblicazione: (2025)
di: Li, Xinghan, et al.
Pubblicazione: (2025)
Online Bandits with (Biased) Offline Data: Adaptive Learning under Distribution Mismatch
di: Cheung, Wang Chi, et al.
Pubblicazione: (2024)
di: Cheung, Wang Chi, et al.
Pubblicazione: (2024)
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
di: Lyu, Kaifeng, et al.
Pubblicazione: (2023)
di: Lyu, Kaifeng, et al.
Pubblicazione: (2023)
Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
di: Li, Binghui, et al.
Pubblicazione: (2024)
di: Li, Binghui, et al.
Pubblicazione: (2024)
Learning to Think from Multiple Thinkers
di: Joshi, Nirmit, et al.
Pubblicazione: (2026)
di: Joshi, Nirmit, et al.
Pubblicazione: (2026)
Score Design for Multi-Criteria Incentivization
di: Kabra, Anmol, et al.
Pubblicazione: (2024)
di: Kabra, Anmol, et al.
Pubblicazione: (2024)
Mixed-feature Logistic Regression Robust to Distribution Shifts
di: Sun, Qingshi, et al.
Pubblicazione: (2025)
di: Sun, Qingshi, et al.
Pubblicazione: (2025)
Learning to Answer from Correct Demonstrations
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
di: Joshi, Nirmit, et al.
Pubblicazione: (2025)
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback
di: Lambert, Nathan, et al.
Pubblicazione: (2023)
di: Lambert, Nathan, et al.
Pubblicazione: (2023)
How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers
di: Buzaglo, Gon, et al.
Pubblicazione: (2024)
di: Buzaglo, Gon, et al.
Pubblicazione: (2024)
Provable Tempered Overfitting of Minimal Nets and Typical Nets
di: Harel, Itamar, et al.
Pubblicazione: (2024)
di: Harel, Itamar, et al.
Pubblicazione: (2024)
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
di: Wen, Kaiyue, et al.
Pubblicazione: (2024)
di: Wen, Kaiyue, et al.
Pubblicazione: (2024)
Dataset Distillers Are Good Label Denoisers In the Wild
di: Cheng, Lechao, et al.
Pubblicazione: (2024)
di: Cheng, Lechao, et al.
Pubblicazione: (2024)
Cross-Domain Policy Adaptation by Capturing Representation Mismatch
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
di: Lyu, Jiafei, et al.
Pubblicazione: (2024)
From Continual Learning to SGD and Back: Better Rates for Continual Linear Models
di: Evron, Itay, et al.
Pubblicazione: (2025)
di: Evron, Itay, et al.
Pubblicazione: (2025)
Metalearning with Very Few Samples Per Task
di: Aliakbarpour, Maryam, et al.
Pubblicazione: (2023)
di: Aliakbarpour, Maryam, et al.
Pubblicazione: (2023)
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
di: Malladi, Sadhika, et al.
Pubblicazione: (2022)
di: Malladi, Sadhika, et al.
Pubblicazione: (2022)
Applying statistical learning theory to deep learning
di: Gerbelot, Cédric, et al.
Pubblicazione: (2023)
di: Gerbelot, Cédric, et al.
Pubblicazione: (2023)
Understanding Uncertainty-based Active Learning Under Model Mismatch
di: Rahmati, Amir Hossein, et al.
Pubblicazione: (2024)
di: Rahmati, Amir Hossein, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Weak-to-Strong Generalization Even in Random Feature Networks, Provably
di: Medvedev, Marko, et al.
Pubblicazione: (2025) -
Overfitting Behaviour of Gaussian Kernel Ridgeless Regression: Varying Bandwidth or Dimensionality
di: Medvedev, Marko, et al.
Pubblicazione: (2024) -
Positive Distribution Shift as a Framework for Understanding Tractable Learning
di: Medvedev, Marko, et al.
Pubblicazione: (2026) -
Recursive Models for Long-Horizon Reasoning
di: Yang, Chenxiao, et al.
Pubblicazione: (2026) -
PENCIL: Long Thoughts with Short Memory
di: Yang, Chenxiao, et al.
Pubblicazione: (2025)