:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Li, Yunge, Xu, Lanyu
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2512.22760
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Hilbert-Guided Sparse Local Attention
von: Li, Yunge, et al.
Veröffentlicht: (2025)

Panoptic Perception for Autonomous Driving: A Survey
von: Li, Yunge, et al.
Veröffentlicht: (2024)

KD-Judge: A Knowledge-Driven Automated Judge Framework for Functional Fitness Movements on Edge Devices
von: Saha, Shaibal, et al.
Veröffentlicht: (2026)

Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies
von: Saha, Shaibal, et al.
Veröffentlicht: (2025)

EfficientQuant: An Efficient Post-Training Quantization for CNN-Transformer Hybrid Models on Edge Devices
von: Saha, Shaibal, et al.
Veröffentlicht: (2025)

Frequency-Aware Token Reduction for Efficient Vision Transformer
von: Lee, Dong-Jae, et al.
Veröffentlicht: (2025)

MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging
von: Li, Fan, et al.
Veröffentlicht: (2025)

Context-Aware Token Selection and Packing for Enhanced Vision Transformer
von: Zhang, Tianyi, et al.
Veröffentlicht: (2024)

Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer
von: Peng, Shuai, et al.
Veröffentlicht: (2024)

Rethinking Token Reduction for Diffusion Models via Output-Similarity-Awareness
von: Lee, Hangyeol, et al.
Veröffentlicht: (2026)

Training-free Token Reduction for Vision Mamba
von: Ma, Qiankun, et al.
Veröffentlicht: (2025)

TRIO: Token Reduction via Inference-Objective Guidance for Efficient Vision-Language Models
von: Zhang, Haokui, et al.
Veröffentlicht: (2026)

Visual-Word Tokenizer: Beyond Fixed Sets of Tokens in Vision Transformers
von: Gee, Leonidas, et al.
Veröffentlicht: (2024)

Vision Transformer with Super Token Sampling
von: Huang, Huaibo, et al.
Veröffentlicht: (2022)

Interpretability-Aware Vision Transformer
von: Qiang, Yao, et al.
Veröffentlicht: (2023)

Token Pruning using a Lightweight Background Aware Vision Transformer
von: Sah, Sudhakar, et al.
Veröffentlicht: (2024)

Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens
von: Lew, Jaihyun, et al.
Veröffentlicht: (2024)

Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction
von: Zhao, Shiyu, et al.
Veröffentlicht: (2024)

Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration
von: Zeng, Fanhu, et al.
Veröffentlicht: (2025)

Wavelet-Based Image Tokenizer for Vision Transformers
von: Zhu, Zhenhai, et al.
Veröffentlicht: (2024)

GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation
von: Xu, Xuwei, et al.
Veröffentlicht: (2023)

TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks
von: Zhao, Xuanle, et al.
Veröffentlicht: (2025)

PPT: Token Pruning and Pooling for Efficient Vision Transformers
von: Wu, Xinjian, et al.
Veröffentlicht: (2023)

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance
von: Liang, Yuxuan, et al.
Veröffentlicht: (2025)

On the Limits of Token Reduction for Efficient Unified Vision Language Training
von: Chen, Siyi, et al.
Veröffentlicht: (2026)

S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens
von: Cai, Rizhao, et al.
Veröffentlicht: (2023)

Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction
von: Zhong, Yunshan, et al.
Veröffentlicht: (2024)

Rethinking Token Reduction for Large Vision-Language Models
von: Wang, Yi, et al.
Veröffentlicht: (2026)

Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction
von: Gao, Zhirui, et al.
Veröffentlicht: (2025)

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning
von: Li, Rui, et al.
Veröffentlicht: (2024)

Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer
von: Wu, Junyi, et al.
Veröffentlicht: (2024)

TCFormer: Visual Recognition via Token Clustering Transformer
von: Zeng, Wang, et al.
Veröffentlicht: (2024)

Token-Space Mask Prediction for Efficient Vision Transformer Segmentation
von: Galagain, Calvin, et al.
Veröffentlicht: (2026)

ToSA: Token Selective Attention for Efficient Vision Transformers
von: Singh, Manish Kumar, et al.
Veröffentlicht: (2024)

Detecting Regional Spurious Correlations in Vision Transformers via Token Discarding
von: Kang, Solha, et al.
Veröffentlicht: (2025)

Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers
von: Lee, Dong Hoon, et al.
Veröffentlicht: (2024)

PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
von: Liu, Yingen, et al.
Veröffentlicht: (2024)

TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
von: Xia, Zunhui, et al.
Veröffentlicht: (2025)

MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction
von: Wang, Chao, et al.
Veröffentlicht: (2025)

FractalMamba++: Scaling Vision Mamba Across Resolutions via Hilbert Fractal Geometry
von: Li, Bo, et al.
Veröffentlicht: (2025)