:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chen, Siqi, Hong, Ke, Zhao, Tianchen, Xie, Ruiqi, Zhu, Zhenhua, Zhang, Xudong, Wang, Yu
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition Machine Learning
Accesso online:	https://arxiv.org/abs/2511.23113
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models
di: Zhao, Tianchen, et al.
Pubblicazione: (2025)

LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization
di: Xie, Rui, et al.
Pubblicazione: (2024)

SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
di: Wan, Jiaxu, et al.
Pubblicazione: (2024)

LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation
di: Yang, Lianwei, et al.
Pubblicazione: (2025)

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
di: Fang, Tongcheng, et al.
Pubblicazione: (2026)

Accelerating Text-to-Video Generation with Calibrated Sparse Attention
di: Yehezkel, Shai, et al.
Pubblicazione: (2026)

APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention
di: Huang, Yuxiang, et al.
Pubblicazione: (2026)

VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference
di: Liu, Anmin, et al.
Pubblicazione: (2026)

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation
di: Yang, Shuo, et al.
Pubblicazione: (2025)

SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds
di: Wang, Yanbo, et al.
Pubblicazione: (2024)

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning
di: Ge, Yunyang, et al.
Pubblicazione: (2026)

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
di: Chen, Pengtao, et al.
Pubblicazione: (2025)

SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference
di: Zhang, Jintao, et al.
Pubblicazione: (2025)

TokBench: Evaluating Your Visual Tokenizer before Visual Generation
di: Wu, Junfeng, et al.
Pubblicazione: (2025)

DiTFastAttn: Attention Compression for Diffusion Transformer Models
di: Yuan, Zhihang, et al.
Pubblicazione: (2024)

Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation
di: Xu, Boxun, et al.
Pubblicazione: (2026)

Visual Grounding with Attention-Driven Constraint Balancing
di: Kang, Weitai, et al.
Pubblicazione: (2024)

FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models
di: Zhao, Lin, et al.
Pubblicazione: (2024)

Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
di: Chen, Ruichen, et al.
Pubblicazione: (2025)

Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering
di: Zhang, Zhilin, et al.
Pubblicazione: (2024)

Parallelized Autoregressive Visual Generation
di: Wang, Yuqing, et al.
Pubblicazione: (2024)

ParallelVLM: Lossless Video-LLM Acceleration with Visual Alignment Aware Parallel Speculative Decoding
di: Kong, Quan, et al.
Pubblicazione: (2026)

Parallel Sequence Modeling via Generalized Spatial Propagation Network
di: Wang, Hongjun, et al.
Pubblicazione: (2025)

Learning Sequence Descriptor based on Spatio-Temporal Attention for Visual Place Recognition
di: Zhao, Junqiao, et al.
Pubblicazione: (2023)

GSPN-2: Efficient Parallel Sequence Modeling
di: Wang, Hongjun, et al.
Pubblicazione: (2025)

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention
di: Lv, Chengtao, et al.
Pubblicazione: (2026)

Generalizable Engagement Estimation in Conversation via Domain Prompting and Parallel Attention
di: Yu, Yangche, et al.
Pubblicazione: (2025)

Conceptual Codebook Learning for Vision-Language Models
di: Zhang, Yi, et al.
Pubblicazione: (2024)

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms
di: Yan, Shilin, et al.
Pubblicazione: (2025)

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention
di: Liao, Bencheng, et al.
Pubblicazione: (2024)

Generalized Visual Relation Detection with Diffusion Models
di: Gao, Kaifeng, et al.
Pubblicazione: (2025)

Scaling Parallel Sequence Models to Foundation-Scale Vision Encoders
di: Jiang, Yitong, et al.
Pubblicazione: (2026)

Latent Beam Diffusion Models for Generating Visual Sequences
di: Fernandes, Guilherme, et al.
Pubblicazione: (2025)

Adaptive Visual Autoregressive Acceleration via Dual-Linkage Entropy Analysis
di: Zhang, Yu, et al.
Pubblicazione: (2026)

Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation
di: Lu, Beijia, et al.
Pubblicazione: (2025)

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty
di: Chen, Zikun, et al.
Pubblicazione: (2026)

SerialGen: Personalized Image Generation by First Standardization Then Personalization
di: Xie, Cong, et al.
Pubblicazione: (2024)

Text4Seg++: Advancing Image Segmentation via Generative Language Modeling
di: Lan, Mengcheng, et al.
Pubblicazione: (2025)

MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
di: Li, Ruiqi, et al.
Pubblicazione: (2024)

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models
di: Zhong, Zhide, et al.
Pubblicazione: (2026)