:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Chen, Shaowu, Ma, Wei, Huang, Binhua, Wang, Qingyuan, Wang, Guoxin, Sun, Weize, Huang, Lei, John, Deepu
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2508.05521
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

TinyDrop: Tiny Model Guided Token Dropping for Vision Transformers
by: Wang, Guoxin, et al.
Published: (2025)

MoCrop: Training Free Motion Guided Cropping for Efficient Video Action Recognition
by: Huang, Binhua, et al.
Published: (2025)

ORXE: Orchestrating Experts for Dynamically Configurable Efficiency
by: Wang, Qingyuan, et al.
Published: (2025)

POCKET: Pruning Random Convolution Kernels for Time Series Classification from a Feature Selection Perspective
by: Chen, Shaowu, et al.
Published: (2023)

MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors
by: Huang, Binhua, et al.
Published: (2025)

Breaking the accuracy-resource dilemma: a lightweight adaptive video inference enhancement
by: Ma, Wei, et al.
Published: (2026)

MVP: Motion Vector Propagation for Zero-Shot Video Object Detection
by: Huang, Binhua, et al.
Published: (2025)

LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling
by: Zhang, Zhihan, et al.
Published: (2025)

MMGait: Towards Multi-Modal Gait Recognition
by: Wang, Chenye, et al.
Published: (2026)

FastDDHPose: Towards Unified, Efficient, and Disentangled 3D Human Pose Estimation
by: Cai, Qingyuan, et al.
Published: (2025)

Situational Scene Graph for Structured Human-centric Situation Understanding
by: Sugandhika, Chinthani, et al.
Published: (2024)

Multi-modal Spatio-Temporal Transformer for High-resolution Land Subsidence Prediction
by: Yao, Wendong, et al.
Published: (2025)

PruneVid: Visual Token Pruning for Efficient Video Large Language Models
by: Huang, Xiaohu, et al.
Published: (2024)

MEGS$^{2}$: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning
by: Chen, Jiarui, et al.
Published: (2025)

HCPM: Hierarchical Candidates Pruning for Efficient Detector-Free Matching
by: Chen, Ying, et al.
Published: (2024)

Towards Efficient Multi-Scale Deformable Attention on NPU
by: Huang, Chenghuan, et al.
Published: (2025)

EventPrune: Cascaded Event-Assisted Token Pruning for Efficient First-Person Dynamic Spatial Reasoning
by: Ma, Pengtao, et al.
Published: (2026)

FGP: Feature-Gradient-Prune for Efficient Convolutional Layer Pruning
by: Lv, Qingsong, et al.
Published: (2024)

PARE: Pruning and Adaptive Routing for Efficient Video Generation
by: Wang, Yutong, et al.
Published: (2026)

E$^3$-Net: Efficient E(3)-Equivariant Normal Estimation Network
by: Wang, Hanxiao, et al.
Published: (2024)

Structured Pruning for Efficient Visual Place Recognition
by: Grainge, Oliver, et al.
Published: (2024)

Towards Meta-Pruning via Optimal Transport
by: Theus, Alexander, et al.
Published: (2024)

Toward Generalizing Visual Brain Decoding to Unseen Subjects
by: Kong, Xiangtao, et al.
Published: (2024)

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric
by: Lin, Haokun, et al.
Published: (2024)

HiPrune: Hierarchical Attention for Efficient Token Pruning in Vision-Language Models
by: Liu, Jizhihui, et al.
Published: (2025)

iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation
by: Wang, Hanxiao, et al.
Published: (2025)

Towards Universal & Efficient Model Compression via Exponential Torque Pruning
by: Modi, Sarthak Ketanbhai, et al.
Published: (2025)

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
by: Wu, Hao, et al.
Published: (2026)

PPT: Token Pruning and Pooling for Efficient Vision Transformers
by: Wu, Xinjian, et al.
Published: (2023)

OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport
by: Chen, Xiwen, et al.
Published: (2026)

Mitigating Information Loss under High Pruning Rates for Efficient Large Vision Language Models
by: Fu, Mingyu, et al.
Published: (2025)

The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
by: Jiang, Titong, et al.
Published: (2025)

A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe
by: Yao, Wendong, et al.
Published: (2025)

VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
by: Sugandhika, Chinthani, et al.
Published: (2025)

Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning
by: Sugandhika, Chinthani, et al.
Published: (2025)

PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference
by: Li, Ye, et al.
Published: (2024)

Automatic Structured Pruning for Efficient Architecture in Federated Learning
by: Nguyen, Thai Vu, et al.
Published: (2024)

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives
by: Wang, Haoran, et al.
Published: (2026)

IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
by: Sun, Zhichao, et al.
Published: (2026)

EfficientGFormer: Multimodal Brain Tumor Segmentation via Pruned Graph-Augmented Transformer
by: Ziaeetabar, Fatemeh
Published: (2025)