:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Shao, Yanyan, He, Shuting, Ye, Qi, Feng, Yuchao, Luo, Wenhan, Chen, Jiming
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2403.19975
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising
par: Zhou, Tao, et autres
Publié: (2024)

RefMask3D: Language-Guided Transformer for 3D Referring Segmentation
par: He, Shuting, et autres
Publié: (2024)

REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
par: Shao, Liangjing, et autres
Publié: (2025)

Improving Local Feature Matching by Entropy-inspired Scale Adaptability and Flow-endowed Local Consistency
par: Jin, Ke, et autres
Publié: (2026)

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
par: He, Shuting, et autres
Publié: (2024)

Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
par: Ye, Zixuan, et autres
Publié: (2025)

Radar and Camera Fusion for Object Detection and Tracking: A Comprehensive Survey
par: Shi, Kun, et autres
Publié: (2024)

Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling
par: Yan, Miao, et autres
Publié: (2024)

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths
par: Chen, Xianyu, et autres
Publié: (2024)

Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation
par: Yan, Yichen, et autres
Publié: (2024)

Edit Transfer: Learning Image Editing via Vision In-Context Relations
par: Chen, Lan, et autres
Publié: (2025)

UNIC: Unified In-Context Video Editing
par: Ye, Zixuan, et autres
Publié: (2025)

Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
par: Zhou, Rulin, et autres
Publié: (2025)

Local-Global Context Aware Transformer for Language-Guided Video Segmentation
par: Liang, Chen, et autres
Publié: (2022)

Attribute-based Visual Reprogramming for Vision-Language Models
par: Cai, Chengyi, et autres
Publié: (2025)

VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation
par: Sun, Zhengnan, et autres
Publié: (2025)

Dynamic Updates for Language Adaptation in Visual-Language Tracking
par: Li, Xiaohai, et autres
Publié: (2025)

Where am I? Cross-View Geo-localization with Natural Language Descriptions
par: Ye, Junyan, et autres
Publié: (2024)

SegPoint: Segment Any Point Cloud via Large Language Model
par: He, Shuting, et autres
Publié: (2024)

Geometry-Aware 3D Salient Object Detection Network
par: Wang, Chen, et autres
Publié: (2025)

Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking
par: Huang, Wenjun, et autres
Publié: (2024)

ReferSplat: Referring Segmentation in 3D Gaussian Splatting
par: He, Shuting, et autres
Publié: (2025)

RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning
par: Huang, Shiqi, et autres
Publié: (2026)

GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates
par: Luo, Xingyu, et autres
Publié: (2026)

ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
par: Feng, X., et autres
Publié: (2025)

EditTransfer++: Toward Faithful and Efficient Visual-Prompt-Guided Image Editing
par: Chen, Lan, et autres
Publié: (2026)

Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning
par: Fu, Rao, et autres
Publié: (2024)

GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation
par: Ding, Henghui, et autres
Publié: (2026)

SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
par: Huang, Shiqi, et autres
Publié: (2025)

Task-Aware Resolution Optimization for Visual Large Language Models
par: Luo, Weiqing, et autres
Publié: (2025)

Cerberus: Real-Time Video Anomaly Detection via Cascaded Vision-Language Models
par: Zheng, Yue, et autres
Publié: (2025)

Multimodal Referring Segmentation: A Survey
par: Ding, Henghui, et autres
Publié: (2025)

SinkTrack: Attention Sink based Context Anchoring for Large Language Models
par: Liu, Xu, et autres
Publié: (2026)

Personalized Vision via Visual In-Context Learning
par: Jiang, Yuxin, et autres
Publié: (2025)

Referring Video Object Segmentation via Language-aligned Track Selection
par: Kim, Seongchan, et autres
Publié: (2024)

Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
par: Feng, X., et autres
Publié: (2024)

Instance-level Visual Active Tracking with Occlusion-Aware Planning
par: Sun, Haowei, et autres
Publié: (2026)

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)

A Consistency-Aware Spot-Guided Transformer for Versatile and Hierarchical Point Cloud Registration
par: Huang, Renlang, et autres
Publié: (2024)

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)