:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Kawata, Ryotaro, Song, Yujin, Bietti, Alberto, Nishikawa, Naoki, Suzuki, Taiji, Vaiter, Samuel, Wu, Denny
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2512.18634
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality
par: Kawata, Ryotaro, et autres
Publié: (2026)

Mixture of Experts Provably Detect and Learn the Latent Cluster Structure in Gradient-Based Learning
par: Kawata, Ryotaro, et autres
Publié: (2025)

State Space Models are Provably Comparable to Transformers in Dynamic Token Selection
par: Nishikawa, Naoki, et autres
Publié: (2024)

Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations
par: Oko, Kazusato, et autres
Publié: (2024)

Pretrained transformer efficiently learns low-dimensional target functions in-context
par: Oko, Kazusato, et autres
Publié: (2024)

Direct Distributional Optimization for Provable Alignment of Diffusion Models
par: Kawata, Ryotaro, et autres
Publié: (2025)

Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency
par: Nishikawa, Naoki, et autres
Publié: (2025)

How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis
par: Higuchi, Rei, et autres
Publié: (2026)

How Does Label Noise Gradient Descent Improve Generalization in the Low SNR Regime?
par: Huang, Wei, et autres
Publié: (2025)

When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars
par: Higuchi, Rei, et autres
Publié: (2025)

Understanding the Mechanisms of Fast Hyperparameter Transfer
par: Ghosh, Nikhil, et autres
Publié: (2025)

Learning to Recall with Transformers Beyond Orthogonal Embeddings
par: Vural, Nuri Mert, et autres
Publié: (2026)

Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation
par: Kim, Juno, et autres
Publié: (2025)

ZOBA: An Efficient Single-loop Zeroth-order Bilevel Optimization Algorithm
par: Rando, Marco, et autres
Publié: (2026)

Learning Compositional Functions with Transformers from Easy-to-Hard Data
par: Wang, Zixuan, et autres
Publié: (2025)

Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit
par: Lee, Jason D., et autres
Publié: (2024)

Selective Induction Heads: How Transformers Select Causal Structures In Context
par: D'Angelo, Francesco, et autres
Publié: (2025)

Risk Estimate under a Time-Varying Autoregressive Model for Data-Driven Reproduction Number Estimation
par: Pascal, Barbara, et autres
Publié: (2024)

Transformers Provably Solve Parity Efficiently with Chain of Thought
par: Kim, Juno, et autres
Publié: (2024)

Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory
par: Kim, Juno, et autres
Publié: (2026)

Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input
par: Takakura, Shokichi, et autres
Publié: (2023)

Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape
par: Kim, Juno, et autres
Publié: (2024)

On the Hardness of Junking LLMs
par: Rando, Marco, et autres
Publié: (2026)

Characterizations of inexact proximal operators
par: Lauga, Guillaume, et autres
Publié: (2026)

Deep Two-Way Matrix Reordering for Relational Data Analysis
par: Watanabe, Chihiro, et autres
Publié: (2021)

How history shapes memories in autobiographical narratives
par: Lucas Bietti
Publié: (2012)

A Lower Bound and a Near-Optimal Algorithm for Bilevel Empirical Risk Minimization
par: Dagréou, Mathieu, et autres
Publié: (2023)

How do Transformers perform In-Context Autoregressive Learning?
par: Sander, Michael E., et autres
Publié: (2024)

Transformers are Minimax Optimal Nonparametric In-Context Learners
par: Kim, Juno, et autres
Publié: (2024)

From Saddle Points Toward Global Minima: A Newton-Type Method on Wasserstein Space
par: Lascu, Razvan-Andrei, et autres
Publié: (2026)

Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge
par: Vasudeva, Bhavya, et autres
Publié: (2026)

Understanding Factual Recall in Transformers via Associative Memories
par: Nichani, Eshaan, et autres
Publié: (2024)

Geometric Factual Recall in Transformers
par: Ravfogel, Shauli, et autres
Publié: (2026)

A theory of optimal convex regularization for low-dimensional recovery
par: Traonmilin, Yann, et autres
Publié: (2021)

Differentiable Generalized Sliced Wasserstein Plans
par: Chapel, Laetitia, et autres
Publié: (2025)

Faster Computation of Entropic Optimal Transport via Stable Low Frequency Modes
par: Chhaibi, Reda, et autres
Publié: (2025)

Towards Understanding Steering Strength
par: Taimeskhanov, Magamed, et autres
Publié: (2026)

Derivatives of Stochastic Gradient Descent in parametric optimization
par: Iutzeler, Franck, et autres
Publié: (2024)

Fairness-informed Pareto Optimization : An Efficient Bilevel Framework
par: Tanji, Sofiane, et autres
Publié: (2026)

Proximal basin hopping: global optimization with guarantees
par: Lauga, Guillaume, et autres
Publié: (2026)