:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Wang, Xiao, Jin, Liye, Lou, Xufeng, Wang, Shiao, Chen, Lan, Jiang, Bo, Zhang, Zhipeng
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence Machine Learning
Accès en ligne:	https://arxiv.org/abs/2508.05221
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Long-Term Visual Object Tracking with Event Cameras: An Associative Memory Augmented Tracker and A Benchmark Dataset
par: Wang, Xiao, et autres
Publié: (2024)

Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach
par: Wang, Shiao, et autres
Publié: (2025)

Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark
par: Wang, Shiao, et autres
Publié: (2025)

Mamba-FETrack: Frame-Event Tracking via State Space Model
par: Huang, Ju, et autres
Publié: (2024)

Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2025)

MambaEVT: Event Stream based Visual Object Tracking using State Space Model
par: Wang, Xiao, et autres
Publié: (2024)

ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning
par: Wang, Xiao, et autres
Publié: (2025)

Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2026)

Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2026)

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
par: Tian, Shulin, et autres
Publié: (2025)

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
par: Zhao, Qingqing, et autres
Publié: (2025)

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
par: Du, Yifan, et autres
Publié: (2025)

Multimodal Chain-of-Thought Reasoning in Language Models
par: Zhang, Zhuosheng, et autres
Publié: (2023)

ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model
par: Chen, Xiaoshu, et autres
Publié: (2026)

GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning
par: Liu, Bo, et autres
Publié: (2025)

Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
par: Zhang, Chunhui, et autres
Publié: (2024)

Rethinking Chain-of-Thought Reasoning for Videos
par: Zhong, Yiwu, et autres
Publié: (2025)

Adversarial Attack for RGB-Event based Visual Object Tracking
par: Chen, Qiang, et autres
Publié: (2025)

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
par: Jiang, Dongzhi, et autres
Publié: (2025)

Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking
par: Huang, Dexing, et autres
Publié: (2026)

Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
par: Wang, Zefeng, et autres
Publié: (2024)

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
par: Liu, Jiahang, et autres
Publié: (2025)

Let's Think with Images Efficiently! An Interleaved-Modal Chain-of-Thought Reasoning Framework with Dynamic and Precise Visual Thoughts
par: Liu, Xu, et autres
Publié: (2026)

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale
par: Acuna, David, et autres
Publié: (2025)

RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning
par: Chen, Qiguang, et autres
Publié: (2025)

MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
par: Zhang, Jusheng, et autres
Publié: (2025)

Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
par: Chen, Honghao, et autres
Publié: (2025)

GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning
par: Yerramilli, Sahiti, et autres
Publié: (2025)

Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning
par: Deng, Linger, et autres
Publié: (2024)

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework
par: Wang, Xiao, et autres
Publié: (2025)

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought
par: Man, Yunze, et autres
Publié: (2025)

Process-of-Thought Reasoning for Videos
par: Zhang, Jusheng, et autres
Publié: (2026)

Imitation Game for Adversarial Disillusion with Chain-of-Thought Reasoning in Generative AI
par: Chang, Ching-Chun, et autres
Publié: (2025)

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition
par: Wang, Xiao, et autres
Publié: (2023)

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
par: Zuo, Jing, et autres
Publié: (2026)

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
par: Tan, Huajie, et autres
Publié: (2025)

More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
par: Tian, Xinyu, et autres
Publié: (2025)

Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset
par: Wang, Shiao, et autres
Publié: (2025)

Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning
par: Ou, Siqu, et autres
Publié: (2025)

Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
par: Chen, Lei, et autres
Publié: (2025)