:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Author:	Zhang, Siyu
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2603.15919
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Simple-RF: Regularizing Sparse Input Radiance Fields with Simpler Solutions
by: Somraj, Nagabhushan, et al.
Published: (2024)

Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism
by: Zhang, Siyu, et al.
Published: (2025)

Point Transformer V3: Simpler, Faster, Stronger
by: Wu, Xiaoyang, et al.
Published: (2023)

Vision Transformer with Sparse Scan Prior
by: Zhang, Yuguang, et al.
Published: (2024)

Interpretability-Aware Vision Transformer
by: Qiang, Yao, et al.
Published: (2023)

Interpretable and Testable Vision Features via Sparse Autoencoders
by: Stevens, Samuel, et al.
Published: (2025)

Interpretability Transfer from Language to Vision via Sparse Autoencoders
by: Kravets, Alexey, et al.
Published: (2026)

GMAR: Gradient-Driven Multi-Head Attention Rollout for Vision Transformer Interpretability
by: Jo, Sehyeong, et al.
Published: (2025)

Causal Interpretation of Sparse Autoencoder Features in Vision
by: Han, Sangyu, et al.
Published: (2025)

ComFe: An Interpretable Head for Vision Transformers
by: Mannix, Evelyn J., et al.
Published: (2024)

Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis
by: Chowdhury, Arpita, et al.
Published: (2025)

Interpretable Vision Transformers in Image Classification via SVDA
by: Arampatzakis, Vasileios, et al.
Published: (2026)

Cluster-Level Sparse Multi-Instance Learning for Whole-Slide Images
by: Zhang, Yuedi, et al.
Published: (2025)

A TRPCA-Inspired Deep Unfolding Network for Hyperspectral Image Denoising via Thresholded t-SVD and Top-K Sparse Transformer
by: Li, Liang, et al.
Published: (2025)

Fast and Interpretable 2D Homography Decomposition: Similarity-Kernel-Similarity and Affine-Core-Affine Transformations
by: Cai, Shen, et al.
Published: (2024)

Interpretable Vision Transformers in Monocular Depth Estimation via SVDA
by: Arampatzakis, Vasileios, et al.
Published: (2026)

B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers
by: Böhle, Moritz, et al.
Published: (2023)

Interpretable Image Classification with Adaptive Prototype-based Vision Transformers
by: Ma, Chiyu, et al.
Published: (2024)

Hierarchical Vision Transformer with Prototypes for Interpretable Medical Image Classification
by: Gallée, Luisa, et al.
Published: (2025)

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference
by: Liu, Ting, et al.
Published: (2024)

SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection
by: Son, Hyeongseok, et al.
Published: (2025)

Event-Level Detection of Surgical Instrument Handovers in Videos with Interpretable Vision Models
by: Katsarou, Katerina, et al.
Published: (2026)

Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning
by: Zhong, Hanwen, et al.
Published: (2025)

Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers
by: Hong, Jung-Ho, et al.
Published: (2025)

Exploring Token-Level Augmentation in Vision Transformer for Semi-Supervised Semantic Segmentation
by: Zhang, Dengke, et al.
Published: (2025)

[Re] Improving Interpretation Faithfulness for Vision Transformers
by: Kurek, Izabela, et al.
Published: (2025)

SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer
by: Li, Wenxi, et al.
Published: (2025)

SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spectral Analysis
by: Tian, Huiyuan, et al.
Published: (2024)

LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation
by: Jiang, Wentao, et al.
Published: (2024)

LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution
by: Kim, Jeongsoo, et al.
Published: (2024)

LUCID-SAE: Learning Unified Vision-Language Sparse Codes for Interpretable Concept Discovery
by: Gu, Difei, et al.
Published: (2026)

Multi-manifold Attention for Vision Transformers
by: Konstantinidis, Dimitrios, et al.
Published: (2022)

DeepHistoViT: An Interpretable Vision Transformer Framework for Histopathological Cancer Classification
by: Mosalpuri, Ravi, et al.
Published: (2026)

Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
by: Imran, Muhammad, et al.
Published: (2025)

TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
by: Xia, Zunhui, et al.
Published: (2025)

Mechanistic Interpretability of Diffusion Models: Circuit-Level Analysis and Causal Validation
by: Roy, Dip
Published: (2025)

UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler
by: Piccinelli, Luigi, et al.
Published: (2025)

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos
by: Karaev, Nikita, et al.
Published: (2024)

SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks
by: Lou, Meng, et al.
Published: (2024)

Dynamic Accumulated Attention Map for Interpreting Evolution of Decision-Making in Vision Transformer
by: Liao, Yi, et al.
Published: (2025)