Enregistré dans:
| Auteurs principaux: | Wang, Xiao, Jin, Liye, Lou, Xufeng, Wang, Shiao, Chen, Lan, Jiang, Bo, Zhang, Zhipeng |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2508.05221 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Long-Term Visual Object Tracking with Event Cameras: An Associative Memory Augmented Tracker and A Benchmark Dataset
par: Wang, Xiao, et autres
Publié: (2024)
par: Wang, Xiao, et autres
Publié: (2024)
Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach
par: Wang, Shiao, et autres
Publié: (2025)
par: Wang, Shiao, et autres
Publié: (2025)
Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark
par: Wang, Shiao, et autres
Publié: (2025)
par: Wang, Shiao, et autres
Publié: (2025)
Mamba-FETrack: Frame-Event Tracking via State Space Model
par: Huang, Ju, et autres
Publié: (2024)
par: Huang, Ju, et autres
Publié: (2024)
Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2025)
par: Wang, Shiao, et autres
Publié: (2025)
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
par: Wang, Xiao, et autres
Publié: (2024)
par: Wang, Xiao, et autres
Publié: (2024)
ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning
par: Wang, Xiao, et autres
Publié: (2025)
par: Wang, Xiao, et autres
Publié: (2025)
Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2026)
par: Wang, Shiao, et autres
Publié: (2026)
Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2026)
par: Wang, Shiao, et autres
Publié: (2026)
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
par: Tian, Shulin, et autres
Publié: (2025)
par: Tian, Shulin, et autres
Publié: (2025)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
par: Zhao, Qingqing, et autres
Publié: (2025)
par: Zhao, Qingqing, et autres
Publié: (2025)
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
par: Du, Yifan, et autres
Publié: (2025)
par: Du, Yifan, et autres
Publié: (2025)
Multimodal Chain-of-Thought Reasoning in Language Models
par: Zhang, Zhuosheng, et autres
Publié: (2023)
par: Zhang, Zhuosheng, et autres
Publié: (2023)
ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model
par: Chen, Xiaoshu, et autres
Publié: (2026)
par: Chen, Xiaoshu, et autres
Publié: (2026)
GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning
par: Liu, Bo, et autres
Publié: (2025)
par: Liu, Bo, et autres
Publié: (2025)
Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
par: Zhang, Chunhui, et autres
Publié: (2024)
par: Zhang, Chunhui, et autres
Publié: (2024)
Rethinking Chain-of-Thought Reasoning for Videos
par: Zhong, Yiwu, et autres
Publié: (2025)
par: Zhong, Yiwu, et autres
Publié: (2025)
Adversarial Attack for RGB-Event based Visual Object Tracking
par: Chen, Qiang, et autres
Publié: (2025)
par: Chen, Qiang, et autres
Publié: (2025)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency
par: Jiang, Dongzhi, et autres
Publié: (2025)
par: Jiang, Dongzhi, et autres
Publié: (2025)
Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking
par: Huang, Dexing, et autres
Publié: (2026)
par: Huang, Dexing, et autres
Publié: (2026)
Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
par: Wang, Zefeng, et autres
Publié: (2024)
par: Wang, Zefeng, et autres
Publié: (2024)
TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
par: Liu, Jiahang, et autres
Publié: (2025)
par: Liu, Jiahang, et autres
Publié: (2025)
Let's Think with Images Efficiently! An Interleaved-Modal Chain-of-Thought Reasoning Framework with Dynamic and Precise Visual Thoughts
par: Liu, Xu, et autres
Publié: (2026)
par: Liu, Xu, et autres
Publié: (2026)
Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale
par: Acuna, David, et autres
Publié: (2025)
par: Acuna, David, et autres
Publié: (2025)
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning
par: Chen, Qiguang, et autres
Publié: (2025)
par: Chen, Qiguang, et autres
Publié: (2025)
MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
par: Zhang, Jusheng, et autres
Publié: (2025)
par: Zhang, Jusheng, et autres
Publié: (2025)
Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
par: Chen, Honghao, et autres
Publié: (2025)
par: Chen, Honghao, et autres
Publié: (2025)
GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning
par: Yerramilli, Sahiti, et autres
Publié: (2025)
par: Yerramilli, Sahiti, et autres
Publié: (2025)
Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning
par: Deng, Linger, et autres
Publié: (2024)
par: Deng, Linger, et autres
Publié: (2024)
RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework
par: Wang, Xiao, et autres
Publié: (2025)
par: Wang, Xiao, et autres
Publié: (2025)
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought
par: Man, Yunze, et autres
Publié: (2025)
par: Man, Yunze, et autres
Publié: (2025)
Process-of-Thought Reasoning for Videos
par: Zhang, Jusheng, et autres
Publié: (2026)
par: Zhang, Jusheng, et autres
Publié: (2026)
Imitation Game for Adversarial Disillusion with Chain-of-Thought Reasoning in Generative AI
par: Chang, Ching-Chun, et autres
Publié: (2025)
par: Chang, Ching-Chun, et autres
Publié: (2025)
Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition
par: Wang, Xiao, et autres
Publié: (2023)
par: Wang, Xiao, et autres
Publié: (2023)
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
par: Zuo, Jing, et autres
Publié: (2026)
par: Zuo, Jing, et autres
Publié: (2026)
Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models
par: Tan, Huajie, et autres
Publié: (2025)
par: Tan, Huajie, et autres
Publié: (2025)
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
par: Tian, Xinyu, et autres
Publié: (2025)
par: Tian, Xinyu, et autres
Publié: (2025)
Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset
par: Wang, Shiao, et autres
Publié: (2025)
par: Wang, Shiao, et autres
Publié: (2025)
Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning
par: Ou, Siqu, et autres
Publié: (2025)
par: Ou, Siqu, et autres
Publié: (2025)
Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner
par: Chen, Lei, et autres
Publié: (2025)
par: Chen, Lei, et autres
Publié: (2025)
Documents similaires
-
Long-Term Visual Object Tracking with Event Cameras: An Associative Memory Augmented Tracker and A Benchmark Dataset
par: Wang, Xiao, et autres
Publié: (2024) -
Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach
par: Wang, Shiao, et autres
Publié: (2025) -
Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark
par: Wang, Shiao, et autres
Publié: (2025) -
Mamba-FETrack: Frame-Event Tracking via State Space Model
par: Huang, Ju, et autres
Publié: (2024) -
Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking
par: Wang, Shiao, et autres
Publié: (2025)