Enregistré dans:
| Auteurs principaux: | Shao, Yanyan, He, Shuting, Ye, Qi, Feng, Yuchao, Luo, Wenhan, Chen, Jiming |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2403.19975 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising
par: Zhou, Tao, et autres
Publié: (2024)
par: Zhou, Tao, et autres
Publié: (2024)
RefMask3D: Language-Guided Transformer for 3D Referring Segmentation
par: He, Shuting, et autres
Publié: (2024)
par: He, Shuting, et autres
Publié: (2024)
REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
par: Shao, Liangjing, et autres
Publié: (2025)
par: Shao, Liangjing, et autres
Publié: (2025)
Improving Local Feature Matching by Entropy-inspired Scale Adaptability and Flow-endowed Local Consistency
par: Jin, Ke, et autres
Publié: (2026)
par: Jin, Ke, et autres
Publié: (2026)
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
par: He, Shuting, et autres
Publié: (2024)
par: He, Shuting, et autres
Publié: (2024)
Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
par: Ye, Zixuan, et autres
Publié: (2025)
par: Ye, Zixuan, et autres
Publié: (2025)
Radar and Camera Fusion for Object Detection and Tracking: A Comprehensive Survey
par: Shi, Kun, et autres
Publié: (2024)
par: Shi, Kun, et autres
Publié: (2024)
Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling
par: Yan, Miao, et autres
Publié: (2024)
par: Yan, Miao, et autres
Publié: (2024)
GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths
par: Chen, Xianyu, et autres
Publié: (2024)
par: Chen, Xianyu, et autres
Publié: (2024)
Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation
par: Yan, Yichen, et autres
Publié: (2024)
par: Yan, Yichen, et autres
Publié: (2024)
Edit Transfer: Learning Image Editing via Vision In-Context Relations
par: Chen, Lan, et autres
Publié: (2025)
par: Chen, Lan, et autres
Publié: (2025)
UNIC: Unified In-Context Video Editing
par: Ye, Zixuan, et autres
Publié: (2025)
par: Ye, Zixuan, et autres
Publié: (2025)
Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
par: Zhou, Rulin, et autres
Publié: (2025)
par: Zhou, Rulin, et autres
Publié: (2025)
Local-Global Context Aware Transformer for Language-Guided Video Segmentation
par: Liang, Chen, et autres
Publié: (2022)
par: Liang, Chen, et autres
Publié: (2022)
Attribute-based Visual Reprogramming for Vision-Language Models
par: Cai, Chengyi, et autres
Publié: (2025)
par: Cai, Chengyi, et autres
Publié: (2025)
VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation
par: Sun, Zhengnan, et autres
Publié: (2025)
par: Sun, Zhengnan, et autres
Publié: (2025)
Dynamic Updates for Language Adaptation in Visual-Language Tracking
par: Li, Xiaohai, et autres
Publié: (2025)
par: Li, Xiaohai, et autres
Publié: (2025)
Where am I? Cross-View Geo-localization with Natural Language Descriptions
par: Ye, Junyan, et autres
Publié: (2024)
par: Ye, Junyan, et autres
Publié: (2024)
SegPoint: Segment Any Point Cloud via Large Language Model
par: He, Shuting, et autres
Publié: (2024)
par: He, Shuting, et autres
Publié: (2024)
Geometry-Aware 3D Salient Object Detection Network
par: Wang, Chen, et autres
Publié: (2025)
par: Wang, Chen, et autres
Publié: (2025)
Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking
par: Huang, Wenjun, et autres
Publié: (2024)
par: Huang, Wenjun, et autres
Publié: (2024)
ReferSplat: Referring Segmentation in 3D Gaussian Splatting
par: He, Shuting, et autres
Publié: (2025)
par: He, Shuting, et autres
Publié: (2025)
RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning
par: Huang, Shiqi, et autres
Publié: (2026)
par: Huang, Shiqi, et autres
Publié: (2026)
GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates
par: Luo, Xingyu, et autres
Publié: (2026)
par: Luo, Xingyu, et autres
Publié: (2026)
ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
par: Feng, X., et autres
Publié: (2025)
par: Feng, X., et autres
Publié: (2025)
EditTransfer++: Toward Faithful and Efficient Visual-Prompt-Guided Image Editing
par: Chen, Lan, et autres
Publié: (2026)
par: Chen, Lan, et autres
Publié: (2026)
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning
par: Fu, Rao, et autres
Publié: (2024)
par: Fu, Rao, et autres
Publié: (2024)
GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation
par: Ding, Henghui, et autres
Publié: (2026)
par: Ding, Henghui, et autres
Publié: (2026)
SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
par: Huang, Shiqi, et autres
Publié: (2025)
par: Huang, Shiqi, et autres
Publié: (2025)
Task-Aware Resolution Optimization for Visual Large Language Models
par: Luo, Weiqing, et autres
Publié: (2025)
par: Luo, Weiqing, et autres
Publié: (2025)
Cerberus: Real-Time Video Anomaly Detection via Cascaded Vision-Language Models
par: Zheng, Yue, et autres
Publié: (2025)
par: Zheng, Yue, et autres
Publié: (2025)
Multimodal Referring Segmentation: A Survey
par: Ding, Henghui, et autres
Publié: (2025)
par: Ding, Henghui, et autres
Publié: (2025)
SinkTrack: Attention Sink based Context Anchoring for Large Language Models
par: Liu, Xu, et autres
Publié: (2026)
par: Liu, Xu, et autres
Publié: (2026)
Personalized Vision via Visual In-Context Learning
par: Jiang, Yuxin, et autres
Publié: (2025)
par: Jiang, Yuxin, et autres
Publié: (2025)
Referring Video Object Segmentation via Language-aligned Track Selection
par: Kim, Seongchan, et autres
Publié: (2024)
par: Kim, Seongchan, et autres
Publié: (2024)
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
par: Feng, X., et autres
Publié: (2024)
par: Feng, X., et autres
Publié: (2024)
Instance-level Visual Active Tracking with Occlusion-Aware Planning
par: Sun, Haowei, et autres
Publié: (2026)
par: Sun, Haowei, et autres
Publié: (2026)
DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
A Consistency-Aware Spot-Guided Transformer for Versatile and Hierarchical Point Cloud Registration
par: Huang, Renlang, et autres
Publié: (2024)
par: Huang, Renlang, et autres
Publié: (2024)
Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
Documents similaires
-
SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising
par: Zhou, Tao, et autres
Publié: (2024) -
RefMask3D: Language-Guided Transformer for 3D Referring Segmentation
par: He, Shuting, et autres
Publié: (2024) -
REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
par: Shao, Liangjing, et autres
Publié: (2025) -
Improving Local Feature Matching by Entropy-inspired Scale Adaptability and Flow-endowed Local Consistency
par: Jin, Ke, et autres
Publié: (2026) -
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
par: He, Shuting, et autres
Publié: (2024)