:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xian, Xiaoyu, Wang, Shiao, Wang, Xiao, Tian, Daxin, Tian, Yan
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence
Online Access:	https://arxiv.org/abs/2602.22026
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Pedestrian Attribute Recognition via Hierarchical Cross-Modality HyperGraph Learning
by: Wang, Xiao, et al.
Published: (2025)

EvRainDrop: HyperGraph-guided Completion for Effective Frame and Event Stream Aggregation
by: Wang, Futian, et al.
Published: (2025)

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition
by: Wang, Xiao, et al.
Published: (2023)

Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset
by: Wang, Shiao, et al.
Published: (2025)

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation
by: Nguyen, Trong-Thuan, et al.
Published: (2024)

HGFormer: Topology-Aware Vision Transformer with HyperGraph Learning
by: Wang, Hao, et al.
Published: (2025)

Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking
by: Huang, Dexing, et al.
Published: (2026)

HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection
by: Zuo, Zuo, et al.
Published: (2024)

PFM-VEPAR: Prompting Foundation Models for RGB-Event Camera based Pedestrian Attribute Recognition
by: Xu, Minghe, et al.
Published: (2026)

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework
by: Wang, Xiao, et al.
Published: (2025)

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis
by: Si, Hao, et al.
Published: (2025)

Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms
by: Wang, Xiao, et al.
Published: (2024)

Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition
by: Wang, Xiao, et al.
Published: (2024)

Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
by: Wang, Shiao, et al.
Published: (2026)

High-order Neighborhoods Know More: HyperGraph Learning Meets Source-free Unsupervised Domain Adaptation
by: Jiang, Jinkun, et al.
Published: (2024)

Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark
by: Wang, Shiao, et al.
Published: (2025)

Adversarial Attack for RGB-Event based Visual Object Tracking
by: Chen, Qiang, et al.
Published: (2025)

VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition
by: Chen, Lan, et al.
Published: (2024)

Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
by: Wang, Shiao, et al.
Published: (2026)

Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach
by: Wang, Shiao, et al.
Published: (2025)

CM3AE: A Unified RGB Frame and Event-Voxel/-Frame Pre-training Framework
by: Wu, Wentao, et al.
Published: (2025)

On the Role of Depth in Surgical Vision Foundation Models: An Empirical Study of RGB-D Pre-training
by: Han, John J., et al.
Published: (2026)

MambaEVT: Event Stream based Visual Object Tracking using State Space Model
by: Wang, Xiao, et al.
Published: (2024)

A Foundation Model for DAS Signal Recognition and Visual Prompt Tuning of the Pre-trained Model for Downstream Tasks
by: Gui, Kun, et al.
Published: (2025)

Mamba-FETrack: Frame-Event Tracking via State Space Model
by: Huang, Ju, et al.
Published: (2024)

EndoMamba: An Efficient Foundation Model for Endoscopic Videos via Hierarchical Pre-training
by: Tian, Qingyao, et al.
Published: (2025)

EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition
by: Wang, Xiao, et al.
Published: (2025)

Event Camera Data Dense Pre-training
by: Yang, Yan, et al.
Published: (2023)

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation
by: Chen, Jingxi, et al.
Published: (2024)

HyperFree: A Channel-adaptive and Tuning-free Foundation Model for Hyperspectral Remote Sensing Imagery
by: Li, Jingtao, et al.
Published: (2025)

Hydra: Marker-Free RGB-D Hand-Eye Calibration
by: Huber, Martin, et al.
Published: (2025)

CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset
by: Wang, Xiao, et al.
Published: (2024)

PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning
by: Liu, Xuntao, et al.
Published: (2024)

VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
by: Deng, Kai, et al.
Published: (2025)

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey
by: Wang, Xiao, et al.
Published: (2023)

An Empirical Study of Mamba-based Pedestrian Attribute Recognition
by: Wang, Xiao, et al.
Published: (2024)

Micro-Expression Recognition by Motion Feature Extraction based on Pre-training
by: Li, Ruolin, et al.
Published: (2024)

SDPT: Synchronous Dual Prompt Tuning for Fusion-based Visual-Language Pre-trained Models
by: Zhou, Yang, et al.
Published: (2024)

Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition
by: Gao, Zuan, et al.
Published: (2024)

3D Scene Graph Guided Vision-Language Pre-training
by: Liu, Hao, et al.
Published: (2024)