Salvato in:
| Autori principali: | Zhang, Chenyang, Meng, Xuran, Cao, Yuan |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2504.08638 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Looped Transformers with Layer Normalization Provably Learn the Power Method
di: Wu, Lyumin, et al.
Pubblicazione: (2026)
di: Wu, Lyumin, et al.
Pubblicazione: (2026)
Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers
di: Shang, Shuning, et al.
Pubblicazione: (2024)
di: Shang, Shuning, et al.
Pubblicazione: (2024)
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent
di: Zhang, Chenyang, et al.
Pubblicazione: (2026)
di: Zhang, Chenyang, et al.
Pubblicazione: (2026)
On the Robustness of Transformers against Context Hijacking for Linear Classification
di: Li, Tianle, et al.
Pubblicazione: (2025)
di: Li, Tianle, et al.
Pubblicazione: (2025)
Transformers Trained via Gradient Descent Can Provably Learn a Class of Teacher Models
di: Zhang, Chenyang, et al.
Pubblicazione: (2026)
di: Zhang, Chenyang, et al.
Pubblicazione: (2026)
An Empirical Study of Sample Selection Strategies for Large Language Model Repair
di: Li, Xuran, et al.
Pubblicazione: (2025)
di: Li, Xuran, et al.
Pubblicazione: (2025)
Inference for Deep Neural Network Estimators in Generalized Nonparametric Models
di: Meng, Xuran, et al.
Pubblicazione: (2025)
di: Meng, Xuran, et al.
Pubblicazione: (2025)
Beyond Consistency: Inference for the Relative risk functional in Deep Nonparametric Cox Models
di: Ghosal, Sattwik, et al.
Pubblicazione: (2026)
di: Ghosal, Sattwik, et al.
Pubblicazione: (2026)
Gradient Descent Robustly Learns the Intrinsic Dimension of Data in Training Convolutional Neural Networks
di: Zhang, Chenyang, et al.
Pubblicazione: (2025)
di: Zhang, Chenyang, et al.
Pubblicazione: (2025)
The Implicit Bias of Adam on Separable Data
di: Zhang, Chenyang, et al.
Pubblicazione: (2024)
di: Zhang, Chenyang, et al.
Pubblicazione: (2024)
Cross-Modal Domain Adaptation in Brain Disease Diagnosis: Maximum Mean Discrepancy-based Convolutional Neural Networks
di: Zhu, Xuran
Pubblicazione: (2024)
di: Zhu, Xuran
Pubblicazione: (2024)
Sparse PCA with False Discovery Rate Controlled Variable Selection
di: Machkour, Jasin, et al.
Pubblicazione: (2024)
di: Machkour, Jasin, et al.
Pubblicazione: (2024)
Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Penalty Approach
di: Feng, Lechen, et al.
Pubblicazione: (2025)
di: Feng, Lechen, et al.
Pubblicazione: (2025)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis
di: Li, Hongkang, et al.
Pubblicazione: (2024)
di: Li, Hongkang, et al.
Pubblicazione: (2024)
Towards Understanding Feature Learning in Parameter Transfer
di: Yuan, Hua, et al.
Pubblicazione: (2025)
di: Yuan, Hua, et al.
Pubblicazione: (2025)
PRUNE: A Patching Based Repair Framework for Certifiable Unlearning of Neural Networks
di: Li, Xuran, et al.
Pubblicazione: (2025)
di: Li, Xuran, et al.
Pubblicazione: (2025)
Towards Understanding Generalization in DP-GD: A Case Study in Training Two-Layer CNNs
di: Shi, Zhongjie, et al.
Pubblicazione: (2025)
di: Shi, Zhongjie, et al.
Pubblicazione: (2025)
DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving
di: Zheng, Xuran, et al.
Pubblicazione: (2025)
di: Zheng, Xuran, et al.
Pubblicazione: (2025)
Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Non-Penalty Approach
di: Feng, Lechen, et al.
Pubblicazione: (2025)
di: Feng, Lechen, et al.
Pubblicazione: (2025)
Towards Understanding Transformers in Learning Random Walks
di: Shi, Wei, et al.
Pubblicazione: (2025)
di: Shi, Wei, et al.
Pubblicazione: (2025)
Rethinking Tokenized Graph Transformers for Node Classification
di: Chen, Jinsong, et al.
Pubblicazione: (2025)
di: Chen, Jinsong, et al.
Pubblicazione: (2025)
Conformal Classification with Equalized Coverage for Adaptively Selected Groups
di: Zhou, Yanfei, et al.
Pubblicazione: (2024)
di: Zhou, Yanfei, et al.
Pubblicazione: (2024)
DAM-GT: Dual Positional Encoding-Based Attention Masking Graph Transformer for Node Classification
di: Li, Chenyang, et al.
Pubblicazione: (2025)
di: Li, Chenyang, et al.
Pubblicazione: (2025)
Stochastic Sparse Sampling: A Framework for Variable-Length Medical Time Series Classification
di: Mootoo, Xavier, et al.
Pubblicazione: (2024)
di: Mootoo, Xavier, et al.
Pubblicazione: (2024)
Selecting Optimal Variable Order in Autoregressive Ising Models
di: Biswal, Shiba, et al.
Pubblicazione: (2026)
di: Biswal, Shiba, et al.
Pubblicazione: (2026)
Fair Conformal Classification via Learning Representation-Based Groups
di: Xu, Senrong, et al.
Pubblicazione: (2026)
di: Xu, Senrong, et al.
Pubblicazione: (2026)
Optimal Sparse Survival Trees
di: Zhang, Rui, et al.
Pubblicazione: (2024)
di: Zhang, Rui, et al.
Pubblicazione: (2024)
Deep Variable-Block Chain with Adaptive Variable Selection
di: Zhang, Lixiang, et al.
Pubblicazione: (2019)
di: Zhang, Lixiang, et al.
Pubblicazione: (2019)
Accelerating Sparse Transformer Inference on GPU
di: Dai, Wenhao, et al.
Pubblicazione: (2025)
di: Dai, Wenhao, et al.
Pubblicazione: (2025)
Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
di: Wang, Zixuan, et al.
Pubblicazione: (2024)
di: Wang, Zixuan, et al.
Pubblicazione: (2024)
RAxSS: Retrieval-Augmented Sparse Sampling for Explainable Variable-Length Medical Time Series Classification
di: Javadov, Aydin, et al.
Pubblicazione: (2025)
di: Javadov, Aydin, et al.
Pubblicazione: (2025)
Optimizing the Optimal Weighted Average: Efficient Distributed Sparse Classification
di: Lu, Fred, et al.
Pubblicazione: (2024)
di: Lu, Fred, et al.
Pubblicazione: (2024)
Variational Garrote for Statistical Physics-based Sparse and Robust Variable Selection
di: Soh, Hyungjoon, et al.
Pubblicazione: (2025)
di: Soh, Hyungjoon, et al.
Pubblicazione: (2025)
Pruning is Optimal for Learning Sparse Features in High-Dimensions
di: Vural, Nuri Mert, et al.
Pubblicazione: (2024)
di: Vural, Nuri Mert, et al.
Pubblicazione: (2024)
Two-Timescale Optimization Framework for Sparse-Feedback Linear-Quadratic Optimal Control
di: Feng, Lechen, et al.
Pubblicazione: (2024)
di: Feng, Lechen, et al.
Pubblicazione: (2024)
Sequential Knockoffs for Variable Selection in Reinforcement Learning
di: Ma, Tao, et al.
Pubblicazione: (2023)
di: Ma, Tao, et al.
Pubblicazione: (2023)
Adaptive Sparse Möbius Transforms for Learning Polynomials
di: Erginbas, Yigit Efe, et al.
Pubblicazione: (2026)
di: Erginbas, Yigit Efe, et al.
Pubblicazione: (2026)
Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size?
di: Chen, Xuanyu, et al.
Pubblicazione: (2025)
di: Chen, Xuanyu, et al.
Pubblicazione: (2025)
Ab Initio Nonparametric Variable Selection for Scalable Symbolic Regression with Large $p$
di: Ye, Shengbin, et al.
Pubblicazione: (2024)
di: Ye, Shengbin, et al.
Pubblicazione: (2024)
Cost-Optimal Grouped-Query Attention for Long-Context Modeling
di: Chen, Yingfa, et al.
Pubblicazione: (2025)
di: Chen, Yingfa, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Looped Transformers with Layer Normalization Provably Learn the Power Method
di: Wu, Lyumin, et al.
Pubblicazione: (2026) -
Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers
di: Shang, Shuning, et al.
Pubblicazione: (2024) -
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent
di: Zhang, Chenyang, et al.
Pubblicazione: (2026) -
On the Robustness of Transformers against Context Hijacking for Linear Classification
di: Li, Tianle, et al.
Pubblicazione: (2025) -
Transformers Trained via Gradient Descent Can Provably Learn a Class of Teacher Models
di: Zhang, Chenyang, et al.
Pubblicazione: (2026)