Salvato in:
| Autori principali: | Yang, Kai, Huang, Yuqi, Tao, Junheng, Wang, Wanyu, Wu, Qitian |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.04233 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity
di: Wu, Qitian, et al.
Pubblicazione: (2024)
di: Wu, Qitian, et al.
Pubblicazione: (2024)
Transformers from Diffusion: A Unified Framework for Neural Message Passing
di: Wu, Qitian, et al.
Pubblicazione: (2024)
di: Wu, Qitian, et al.
Pubblicazione: (2024)
Supercharging Graph Transformers with Advective Diffusion
di: Wu, Qitian, et al.
Pubblicazione: (2023)
di: Wu, Qitian, et al.
Pubblicazione: (2023)
Learning Divergence Fields for Shift-Robust Graph Representations
di: Wu, Qitian, et al.
Pubblicazione: (2024)
di: Wu, Qitian, et al.
Pubblicazione: (2024)
Dynamic Model Merging Made Slim
di: Du, Guodong, et al.
Pubblicazione: (2026)
di: Du, Guodong, et al.
Pubblicazione: (2026)
Handling Distribution Shifts on Graphs: An Invariance Perspective
di: Wu, Qitian, et al.
Pubblicazione: (2022)
di: Wu, Qitian, et al.
Pubblicazione: (2022)
SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations
di: Wu, Qitian, et al.
Pubblicazione: (2023)
di: Wu, Qitian, et al.
Pubblicazione: (2023)
Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models
di: Guo, Yongxin, et al.
Pubblicazione: (2024)
di: Guo, Yongxin, et al.
Pubblicazione: (2024)
The Compositional Architecture of Regret in Large Language Models
di: Cui, Xiangxiang, et al.
Pubblicazione: (2025)
di: Cui, Xiangxiang, et al.
Pubblicazione: (2025)
Learning Spatio-Temporal Dynamics for Trajectory Recovery via Time-Aware Transformer
di: Sun, Tian, et al.
Pubblicazione: (2025)
di: Sun, Tian, et al.
Pubblicazione: (2025)
Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks
di: Xu, Xingcheng, et al.
Pubblicazione: (2024)
di: Xu, Xingcheng, et al.
Pubblicazione: (2024)
The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
di: Wang, Jinbo, et al.
Pubblicazione: (2025)
di: Wang, Jinbo, et al.
Pubblicazione: (2025)
Distilling Time Series Foundation Models for Efficient Forecasting
di: Li, Yuqi, et al.
Pubblicazione: (2026)
di: Li, Yuqi, et al.
Pubblicazione: (2026)
Explainable Molecular Property Prediction: Aligning Chemical Concepts with Predictions via Language Models
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)
Efficient UAV Swarm-Based Multi-Task Federated Learning with Dynamic Task Knowledge Sharing
di: Yang, Yubo, et al.
Pubblicazione: (2025)
di: Yang, Yubo, et al.
Pubblicazione: (2025)
ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling
di: Chen, Yuqi, et al.
Pubblicazione: (2024)
di: Chen, Yuqi, et al.
Pubblicazione: (2024)
Spatial-temporal Graph Convolutional Networks with Diversified Transformation for Dynamic Graph Representation Learning
di: Wang, Ling, et al.
Pubblicazione: (2024)
di: Wang, Ling, et al.
Pubblicazione: (2024)
LLM Data Selection and Utilization via Dynamic Bi-level Optimization
di: Yu, Yang, et al.
Pubblicazione: (2025)
di: Yu, Yang, et al.
Pubblicazione: (2025)
Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix
di: Zhang, Jinhao, et al.
Pubblicazione: (2026)
di: Zhang, Jinhao, et al.
Pubblicazione: (2026)
Towards Principled Graph Transformers
di: Müller, Luis, et al.
Pubblicazione: (2024)
di: Müller, Luis, et al.
Pubblicazione: (2024)
Faithful Interpretation for Graph Neural Networks
di: Hu, Lijie, et al.
Pubblicazione: (2024)
di: Hu, Lijie, et al.
Pubblicazione: (2024)
The Lifecycle Principle: Stabilizing Dynamic Neural Networks with State Memory
di: Yang, Zichuan
Pubblicazione: (2025)
di: Yang, Zichuan
Pubblicazione: (2025)
Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models
di: Liu, Yuhang, et al.
Pubblicazione: (2025)
di: Liu, Yuhang, et al.
Pubblicazione: (2025)
Global-Lens Transformers: Adaptive Token Mixing for Dynamic Link Prediction
di: Zou, Tao, et al.
Pubblicazione: (2025)
di: Zou, Tao, et al.
Pubblicazione: (2025)
Design Principles for Sequence Models via Coefficient Dynamics
di: Sieber, Jerome, et al.
Pubblicazione: (2025)
di: Sieber, Jerome, et al.
Pubblicazione: (2025)
When to Stop Reusing: Dynamic Gradient Gating for Sample-Efficient RLVR
di: Miao, Yuchun, et al.
Pubblicazione: (2026)
di: Miao, Yuchun, et al.
Pubblicazione: (2026)
From Efficient Multimodal Models to World Models: A Survey
di: Mai, Xinji, et al.
Pubblicazione: (2024)
di: Mai, Xinji, et al.
Pubblicazione: (2024)
UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model in Data Science
di: Yang, Yazheng, et al.
Pubblicazione: (2023)
di: Yang, Yazheng, et al.
Pubblicazione: (2023)
Streaming 4D Visual Geometry Transformer
di: Zhuo, Dong, et al.
Pubblicazione: (2025)
di: Zhuo, Dong, et al.
Pubblicazione: (2025)
Dynamic Layer Tying for Parameter-Efficient Transformers
di: Hay, Tamir David, et al.
Pubblicazione: (2024)
di: Hay, Tamir David, et al.
Pubblicazione: (2024)
Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
di: Yu, Bowen, et al.
Pubblicazione: (2026)
di: Yu, Bowen, et al.
Pubblicazione: (2026)
Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference
di: Jaradat, Ghadeer, et al.
Pubblicazione: (2024)
di: Jaradat, Ghadeer, et al.
Pubblicazione: (2024)
PENGUIN: Enhancing Transformer with Periodic-Nested Group Attention for Long-term Time Series Forecasting
di: Sun, Tian, et al.
Pubblicazione: (2025)
di: Sun, Tian, et al.
Pubblicazione: (2025)
Exploiting Latent Linearity in LLMs Improves Explainable Molecular Representation Learning
di: Li, Zhuoran, et al.
Pubblicazione: (2024)
di: Li, Zhuoran, et al.
Pubblicazione: (2024)
RouterBench: A Benchmark for Multi-LLM Routing System
di: Hu, Qitian Jason, et al.
Pubblicazione: (2024)
di: Hu, Qitian Jason, et al.
Pubblicazione: (2024)
The Principles of Diffusion Models
di: Lai, Chieh-Hsin, et al.
Pubblicazione: (2025)
di: Lai, Chieh-Hsin, et al.
Pubblicazione: (2025)
Physics-Guided Multimodal Transformers are the Necessary Foundation for the Next Generation of Meteorological Science
di: Han, Jing, et al.
Pubblicazione: (2025)
di: Han, Jing, et al.
Pubblicazione: (2025)
SIG: Efficient Self-Interpretable Graph Neural Network for Continuous-time Dynamic Graphs
di: Fang, Lanting, et al.
Pubblicazione: (2024)
di: Fang, Lanting, et al.
Pubblicazione: (2024)
Multi-View Subgraph Neural Networks: Self-Supervised Learning with Scarce Labeled Data
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)
Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization
di: Wang, Chao, et al.
Pubblicazione: (2025)
di: Wang, Chao, et al.
Pubblicazione: (2025)
Documenti analoghi
-
SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity
di: Wu, Qitian, et al.
Pubblicazione: (2024) -
Transformers from Diffusion: A Unified Framework for Neural Message Passing
di: Wu, Qitian, et al.
Pubblicazione: (2024) -
Supercharging Graph Transformers with Advective Diffusion
di: Wu, Qitian, et al.
Pubblicazione: (2023) -
Learning Divergence Fields for Shift-Robust Graph Representations
di: Wu, Qitian, et al.
Pubblicazione: (2024) -
Dynamic Model Merging Made Slim
di: Du, Guodong, et al.
Pubblicazione: (2026)