:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhang, Shengdong, Zhang, Xiaoqin, Ren, Wenqi, Shen, Linlin, Wan, Shaohua, Zhang, Jun, Jiang, Yujing M
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2501.15099
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection
by: Cui, Jiaming, et al.
Published: (2026)

Modality-Specific Hierarchical Enhancement for RGB-D Camouflaged Object Detection
by: Niu, Yuzhen, et al.
Published: (2026)

RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network
by: Xu, Boyue, et al.
Published: (2025)

Bring Event into RGB and LiDAR: Hierarchical Visual-Motion Fusion for Scene Flow
by: Zhou, Hanyu, et al.
Published: (2024)

Low-Light Enhancement Effect on Classification and Detection: An Empirical Study
by: Wu, Xu, et al.
Published: (2024)

FineXtrol: Controllable Motion Generation via Fine-Grained Text
by: Shen, Keming, et al.
Published: (2025)

BTMTrack: Robust RGB-T Tracking via Dual-template Bridging and Temporal-Modal Candidate Elimination
by: Zhang, Zhongxuan, et al.
Published: (2025)

Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection
by: Wu, Jiaqi, et al.
Published: (2026)

Dynamic Bandwidth Allocation for Hybrid Event-RGB Transmission
by: Yang, Pujing, et al.
Published: (2025)

Joint RGB-Spectral Decomposition Model Guided Image Enhancement in Mobile Photography
by: Zhou, Kailai, et al.
Published: (2024)

WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection
by: Zhu, Haodong, et al.
Published: (2025)

TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection
by: Zhang, Xue, et al.
Published: (2023)

Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection
by: Wang, Hao, et al.
Published: (2026)

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset
by: Qin, Jianjian, et al.
Published: (2023)

SEMv3: A Fast and Robust Approach to Table Separation Line Detection
by: Qin, Chunxia, et al.
Published: (2024)

Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark
by: Miao, Bingchen, et al.
Published: (2024)

Hierarchical Vision-Language Interaction for Facial Action Unit Detection
by: Li, Yong, et al.
Published: (2026)

3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion
by: Chen, Minchong, et al.
Published: (2025)

Distilled Transformers with Locally Enhanced Global Representations for Face Forgery Detection
by: Zhang, Yaning, et al.
Published: (2024)

Transmission Line Defect Detection Based on UAV Patrol Images and Vision-language Pretraining
by: Zhang, Ke, et al.
Published: (2024)

MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection
by: Zhang, Yaning, et al.
Published: (2024)

LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models
by: Qiu, Han, et al.
Published: (2024)

Learned Image Transmission with Hierarchical Variational Autoencoder
by: Zhang, Guangyi, et al.
Published: (2024)

LightQANet: Quantized and Adaptive Feature Learning for Low-Light Image Enhancement
by: Wu, Xu, et al.
Published: (2025)

Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild
by: Yu, Jun, et al.
Published: (2026)

Weakly Supervised Monocular 3D Detection with a Single-View Image
by: Jiang, Xueying, et al.
Published: (2024)

PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities
by: Chen, Jiajun, et al.
Published: (2025)

MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders
by: Jiang, Xueying, et al.
Published: (2024)

RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision
by: Wang, Jinzhong, et al.
Published: (2024)

Learning A Robust RGB-Thermal Detector for Extreme Modality Imbalance
by: Tian, Chao, et al.
Published: (2025)

Robust Pedestrian Detection with Uncertain Modality
by: Bie, Qian, et al.
Published: (2026)

Thermal and RGB Images Work Better Together in Wind Turbine Damage Detection
by: Svystun, Serhii, et al.
Published: (2024)

Transmission Line Detection Based on Improved Hough Transform
by: Song, Wei, et al.
Published: (2024)

Contrastive Augmented Transformer with Domain-specific Enhancement for Robust Multi-scenario Metal Surface Defect Detection
by: Liua, Yiyao, et al.
Published: (2026)

Bring Your Dreams to Life: Continual Text-to-Video Customization
by: Dong, Jiahua, et al.
Published: (2025)

EvoIR: Towards All-in-One Image Restoration via Evolutionary Frequency Modulation
by: Ma, Jiaqi, et al.
Published: (2025)

Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection
by: Lai, Yingxin, et al.
Published: (2025)

FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs
by: Wang, Xiaoqin, et al.
Published: (2025)

Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition
by: Wang, Zihan, et al.
Published: (2024)

Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter
by: Liu, Chao, et al.
Published: (2024)