Enregistré dans:
| Auteurs principaux: | Kawata, Ryotaro, Song, Yujin, Bietti, Alberto, Nishikawa, Naoki, Suzuki, Taiji, Vaiter, Samuel, Wu, Denny |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.18634 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality
par: Kawata, Ryotaro, et autres
Publié: (2026)
par: Kawata, Ryotaro, et autres
Publié: (2026)
Mixture of Experts Provably Detect and Learn the Latent Cluster Structure in Gradient-Based Learning
par: Kawata, Ryotaro, et autres
Publié: (2025)
par: Kawata, Ryotaro, et autres
Publié: (2025)
State Space Models are Provably Comparable to Transformers in Dynamic Token Selection
par: Nishikawa, Naoki, et autres
Publié: (2024)
par: Nishikawa, Naoki, et autres
Publié: (2024)
Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations
par: Oko, Kazusato, et autres
Publié: (2024)
par: Oko, Kazusato, et autres
Publié: (2024)
Pretrained transformer efficiently learns low-dimensional target functions in-context
par: Oko, Kazusato, et autres
Publié: (2024)
par: Oko, Kazusato, et autres
Publié: (2024)
Direct Distributional Optimization for Provable Alignment of Diffusion Models
par: Kawata, Ryotaro, et autres
Publié: (2025)
par: Kawata, Ryotaro, et autres
Publié: (2025)
Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency
par: Nishikawa, Naoki, et autres
Publié: (2025)
par: Nishikawa, Naoki, et autres
Publié: (2025)
How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis
par: Higuchi, Rei, et autres
Publié: (2026)
par: Higuchi, Rei, et autres
Publié: (2026)
How Does Label Noise Gradient Descent Improve Generalization in the Low SNR Regime?
par: Huang, Wei, et autres
Publié: (2025)
par: Huang, Wei, et autres
Publié: (2025)
When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars
par: Higuchi, Rei, et autres
Publié: (2025)
par: Higuchi, Rei, et autres
Publié: (2025)
Understanding the Mechanisms of Fast Hyperparameter Transfer
par: Ghosh, Nikhil, et autres
Publié: (2025)
par: Ghosh, Nikhil, et autres
Publié: (2025)
Learning to Recall with Transformers Beyond Orthogonal Embeddings
par: Vural, Nuri Mert, et autres
Publié: (2026)
par: Vural, Nuri Mert, et autres
Publié: (2026)
Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation
par: Kim, Juno, et autres
Publié: (2025)
par: Kim, Juno, et autres
Publié: (2025)
ZOBA: An Efficient Single-loop Zeroth-order Bilevel Optimization Algorithm
par: Rando, Marco, et autres
Publié: (2026)
par: Rando, Marco, et autres
Publié: (2026)
Learning Compositional Functions with Transformers from Easy-to-Hard Data
par: Wang, Zixuan, et autres
Publié: (2025)
par: Wang, Zixuan, et autres
Publié: (2025)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit
par: Lee, Jason D., et autres
Publié: (2024)
par: Lee, Jason D., et autres
Publié: (2024)
Selective Induction Heads: How Transformers Select Causal Structures In Context
par: D'Angelo, Francesco, et autres
Publié: (2025)
par: D'Angelo, Francesco, et autres
Publié: (2025)
Risk Estimate under a Time-Varying Autoregressive Model for Data-Driven Reproduction Number Estimation
par: Pascal, Barbara, et autres
Publié: (2024)
par: Pascal, Barbara, et autres
Publié: (2024)
Transformers Provably Solve Parity Efficiently with Chain of Thought
par: Kim, Juno, et autres
Publié: (2024)
par: Kim, Juno, et autres
Publié: (2024)
Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory
par: Kim, Juno, et autres
Publié: (2026)
par: Kim, Juno, et autres
Publié: (2026)
Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input
par: Takakura, Shokichi, et autres
Publié: (2023)
par: Takakura, Shokichi, et autres
Publié: (2023)
Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape
par: Kim, Juno, et autres
Publié: (2024)
par: Kim, Juno, et autres
Publié: (2024)
On the Hardness of Junking LLMs
par: Rando, Marco, et autres
Publié: (2026)
par: Rando, Marco, et autres
Publié: (2026)
Characterizations of inexact proximal operators
par: Lauga, Guillaume, et autres
Publié: (2026)
par: Lauga, Guillaume, et autres
Publié: (2026)
Deep Two-Way Matrix Reordering for Relational Data Analysis
par: Watanabe, Chihiro, et autres
Publié: (2021)
par: Watanabe, Chihiro, et autres
Publié: (2021)
How history shapes memories in autobiographical narratives
par: Lucas Bietti
Publié: (2012)
par: Lucas Bietti
Publié: (2012)
A Lower Bound and a Near-Optimal Algorithm for Bilevel Empirical Risk Minimization
par: Dagréou, Mathieu, et autres
Publié: (2023)
par: Dagréou, Mathieu, et autres
Publié: (2023)
How do Transformers perform In-Context Autoregressive Learning?
par: Sander, Michael E., et autres
Publié: (2024)
par: Sander, Michael E., et autres
Publié: (2024)
Transformers are Minimax Optimal Nonparametric In-Context Learners
par: Kim, Juno, et autres
Publié: (2024)
par: Kim, Juno, et autres
Publié: (2024)
From Saddle Points Toward Global Minima: A Newton-Type Method on Wasserstein Space
par: Lascu, Razvan-Andrei, et autres
Publié: (2026)
par: Lascu, Razvan-Andrei, et autres
Publié: (2026)
Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge
par: Vasudeva, Bhavya, et autres
Publié: (2026)
par: Vasudeva, Bhavya, et autres
Publié: (2026)
Understanding Factual Recall in Transformers via Associative Memories
par: Nichani, Eshaan, et autres
Publié: (2024)
par: Nichani, Eshaan, et autres
Publié: (2024)
Geometric Factual Recall in Transformers
par: Ravfogel, Shauli, et autres
Publié: (2026)
par: Ravfogel, Shauli, et autres
Publié: (2026)
A theory of optimal convex regularization for low-dimensional recovery
par: Traonmilin, Yann, et autres
Publié: (2021)
par: Traonmilin, Yann, et autres
Publié: (2021)
Differentiable Generalized Sliced Wasserstein Plans
par: Chapel, Laetitia, et autres
Publié: (2025)
par: Chapel, Laetitia, et autres
Publié: (2025)
Faster Computation of Entropic Optimal Transport via Stable Low Frequency Modes
par: Chhaibi, Reda, et autres
Publié: (2025)
par: Chhaibi, Reda, et autres
Publié: (2025)
Towards Understanding Steering Strength
par: Taimeskhanov, Magamed, et autres
Publié: (2026)
par: Taimeskhanov, Magamed, et autres
Publié: (2026)
Derivatives of Stochastic Gradient Descent in parametric optimization
par: Iutzeler, Franck, et autres
Publié: (2024)
par: Iutzeler, Franck, et autres
Publié: (2024)
Fairness-informed Pareto Optimization : An Efficient Bilevel Framework
par: Tanji, Sofiane, et autres
Publié: (2026)
par: Tanji, Sofiane, et autres
Publié: (2026)
Proximal basin hopping: global optimization with guarantees
par: Lauga, Guillaume, et autres
Publié: (2026)
par: Lauga, Guillaume, et autres
Publié: (2026)
Documents similaires
-
Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality
par: Kawata, Ryotaro, et autres
Publié: (2026) -
Mixture of Experts Provably Detect and Learn the Latent Cluster Structure in Gradient-Based Learning
par: Kawata, Ryotaro, et autres
Publié: (2025) -
State Space Models are Provably Comparable to Transformers in Dynamic Token Selection
par: Nishikawa, Naoki, et autres
Publié: (2024) -
Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations
par: Oko, Kazusato, et autres
Publié: (2024) -
Pretrained transformer efficiently learns low-dimensional target functions in-context
par: Oko, Kazusato, et autres
Publié: (2024)