:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yang, Kai, Huang, Yuqi, Tao, Junheng, Wang, Wanyu, Wu, Qitian
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2510.04233
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

SGFormer: Single-Layer Graph Transformers with Approximation-Free Linear Complexity
di: Wu, Qitian, et al.
Pubblicazione: (2024)

Transformers from Diffusion: A Unified Framework for Neural Message Passing
di: Wu, Qitian, et al.
Pubblicazione: (2024)

Supercharging Graph Transformers with Advective Diffusion
di: Wu, Qitian, et al.
Pubblicazione: (2023)

Learning Divergence Fields for Shift-Robust Graph Representations
di: Wu, Qitian, et al.
Pubblicazione: (2024)

Dynamic Model Merging Made Slim
di: Du, Guodong, et al.
Pubblicazione: (2026)

Handling Distribution Shifts on Graphs: An Invariance Perspective
di: Wu, Qitian, et al.
Pubblicazione: (2022)

SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations
di: Wu, Qitian, et al.
Pubblicazione: (2023)

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models
di: Guo, Yongxin, et al.
Pubblicazione: (2024)

The Compositional Architecture of Regret in Large Language Models
di: Cui, Xiangxiang, et al.
Pubblicazione: (2025)

Learning Spatio-Temporal Dynamics for Trajectory Recovery via Time-Aware Transformer
di: Sun, Tian, et al.
Pubblicazione: (2025)

Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks
di: Xu, Xingcheng, et al.
Pubblicazione: (2024)

The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
di: Wang, Jinbo, et al.
Pubblicazione: (2025)

Distilling Time Series Foundation Models for Efficient Forecasting
di: Li, Yuqi, et al.
Pubblicazione: (2026)

Explainable Molecular Property Prediction: Aligning Chemical Concepts with Predictions via Language Models
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)

Efficient UAV Swarm-Based Multi-Task Federated Learning with Dynamic Task Knowledge Sharing
di: Yang, Yubo, et al.
Pubblicazione: (2025)

ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling
di: Chen, Yuqi, et al.
Pubblicazione: (2024)

Spatial-temporal Graph Convolutional Networks with Diversified Transformation for Dynamic Graph Representation Learning
di: Wang, Ling, et al.
Pubblicazione: (2024)

LLM Data Selection and Utilization via Dynamic Bi-level Optimization
di: Yu, Yang, et al.
Pubblicazione: (2025)

Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix
di: Zhang, Jinhao, et al.
Pubblicazione: (2026)

Towards Principled Graph Transformers
di: Müller, Luis, et al.
Pubblicazione: (2024)

Faithful Interpretation for Graph Neural Networks
di: Hu, Lijie, et al.
Pubblicazione: (2024)

The Lifecycle Principle: Stabilizing Dynamic Neural Networks with State Memory
di: Yang, Zichuan
Pubblicazione: (2025)

Bi-LoRA: Efficient Sharpness-Aware Minimization for Fine-Tuning Large-Scale Models
di: Liu, Yuhang, et al.
Pubblicazione: (2025)

Global-Lens Transformers: Adaptive Token Mixing for Dynamic Link Prediction
di: Zou, Tao, et al.
Pubblicazione: (2025)

Design Principles for Sequence Models via Coefficient Dynamics
di: Sieber, Jerome, et al.
Pubblicazione: (2025)

When to Stop Reusing: Dynamic Gradient Gating for Sample-Efficient RLVR
di: Miao, Yuchun, et al.
Pubblicazione: (2026)

From Efficient Multimodal Models to World Models: A Survey
di: Mai, Xinji, et al.
Pubblicazione: (2024)

UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model in Data Science
di: Yang, Yazheng, et al.
Pubblicazione: (2023)

Streaming 4D Visual Geometry Transformer
di: Zhuo, Dong, et al.
Pubblicazione: (2025)

Dynamic Layer Tying for Parameter-Efficient Transformers
di: Hay, Tamir David, et al.
Pubblicazione: (2024)

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
di: Yu, Bowen, et al.
Pubblicazione: (2026)

Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference
di: Jaradat, Ghadeer, et al.
Pubblicazione: (2024)

PENGUIN: Enhancing Transformer with Periodic-Nested Group Attention for Long-term Time Series Forecasting
di: Sun, Tian, et al.
Pubblicazione: (2025)

Exploiting Latent Linearity in LLMs Improves Explainable Molecular Representation Learning
di: Li, Zhuoran, et al.
Pubblicazione: (2024)

RouterBench: A Benchmark for Multi-LLM Routing System
di: Hu, Qitian Jason, et al.
Pubblicazione: (2024)

The Principles of Diffusion Models
di: Lai, Chieh-Hsin, et al.
Pubblicazione: (2025)

Physics-Guided Multimodal Transformers are the Necessary Foundation for the Next Generation of Meteorological Science
di: Han, Jing, et al.
Pubblicazione: (2025)

SIG: Efficient Self-Interpretable Graph Neural Network for Continuous-time Dynamic Graphs
di: Fang, Lanting, et al.
Pubblicazione: (2024)

Multi-View Subgraph Neural Networks: Self-Supervised Learning with Scarce Labeled Data
di: Wang, Zhenzhong, et al.
Pubblicazione: (2024)

Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization
di: Wang, Chao, et al.
Pubblicazione: (2025)