:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xu, Long, Li, Shanghong, Chen, Yongquan, Luo, Jun, Lai, Shiwu
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2401.04403
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ClickAttention: Click Region Similarity Guided Interactive Segmentation
by: Xu, Long, et al.
Published: (2024)

Structured Click Control in Transformer-based Interactive Segmentation
by: Xu, Long, et al.
Published: (2024)

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification
by: Xu, Xingguo, et al.
Published: (2026)

Glass Segmentation with Multi Scales and Primary Prediction Guiding
by: Xu, Zhiyu, et al.
Published: (2024)

Multimodal Learning for Fake News Detection in Short Videos Using Linguistically Verified Data and Heterogeneous Modality Fusion
by: Li, Shanghong, et al.
Published: (2025)

A Lightweight Multi-Scale Attention Framework for Real-Time Spinal Endoscopic Instance Segmentation
by: Lai, Qi, et al.
Published: (2025)

Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images
by: Liu, Ye, et al.
Published: (2021)

MATCH: Multi-faceted Adaptive Topo-Consistency for Semi-Supervised Histopathology Segmentation
by: Xu, Meilong, et al.
Published: (2025)

VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation
by: Chen, Hanning, et al.
Published: (2024)

MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo
by: Yuan, Zhenlong, et al.
Published: (2024)

TM-UNet: Token-Memory Enhanced Sequential Modeling for Efficient Medical Image Segmentation
by: Jiao, Yaxuan, et al.
Published: (2025)

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance
by: Liang, Yuxuan, et al.
Published: (2025)

Co-Seg++: Mutual Prompt-Guided Collaborative Learning for Versatile Medical Segmentation
by: Xu, Qing, et al.
Published: (2025)

Zero Shot Domain Adaptive Semantic Segmentation by Synthetic Data Generation and Progressive Adaptation
by: Luo, Jun, et al.
Published: (2025)

ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation
by: Huang, Jing, et al.
Published: (2025)

Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
by: Young, Shawn, et al.
Published: (2025)

PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting
by: Sun, Wentao, et al.
Published: (2025)

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration
by: Zhang, Leheng, et al.
Published: (2026)

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
by: Liu, Sihan, et al.
Published: (2023)

Adaptive Transformer Attention and Multi-Scale Fusion for Spine 3D Segmentation
by: Xiang, Yanlin, et al.
Published: (2025)

Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation
by: Aich, Abhishek, et al.
Published: (2024)

Prompt Guiding Multi-Scale Adaptive Sparse Representation-driven Network for Low-Dose CT MAR
by: Shi, Baoshun, et al.
Published: (2025)

TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation
by: Chen, Yinda, et al.
Published: (2024)

Effective Attention-Guided Multi-Scale Medical Network for Skin Lesion Segmentation
by: Wang, Siyu, et al.
Published: (2025)

TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking
by: Shao, Pengcheng, et al.
Published: (2024)

Evidential Calibrated Uncertainty-Guided Interactive Segmentation paradigm for Ultrasound Images
by: Shang, Jiang, et al.
Published: (2025)

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models
by: Lai, Yingxin, et al.
Published: (2026)

Scaling Mesh Generation via Compressive Tokenization
by: Weng, Haohan, et al.
Published: (2024)

Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models
by: Luan, Bozhi, et al.
Published: (2025)

SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens
by: Su, Chi, et al.
Published: (2024)

AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
by: Luo, Yuechen, et al.
Published: (2025)

Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields
by: Miao, Xingyu, et al.
Published: (2025)

A Cross-Scale Decoder with Token Refinement for Off-Road Semantic Segmentation
by: An, Seongkyu Choi Jhonghyun
Published: (2026)

Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding
by: Tang, Yutao, et al.
Published: (2025)

Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering
by: Shi, Yumeng, et al.
Published: (2025)

SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
by: Chen, Sichen, et al.
Published: (2024)

Adaptive Multi-Scale Integration Unlocks Robust Cell Annotation in Histopathology Images
by: Xu, Yinuo, et al.
Published: (2025)

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers
by: Xu, Boxun, et al.
Published: (2025)

MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation
by: Chen, Chaowei, et al.
Published: (2024)

Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation
by: Li, Xuan, et al.
Published: (2025)