:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Yu, Jiahong, Wang, Ziqi, Zhao, Hailiang, Zhai, Wei, Yan, Xueqiang, Deng, Shuiguang
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2512.21641
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

CADRef: Robust Out-of-Distribution Detection via Class-Aware Decoupled Relative Feature Leveraging
von: Ling, Zhiwei, et al.
Veröffentlicht: (2025)

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation
von: Xiao, Changcheng, et al.
Veröffentlicht: (2024)

STORM: Segment, Track, and Object Re-Localization from a Single Image
von: Deng, Yu, et al.
Veröffentlicht: (2025)

XFMNet: Decoding Cross-Site and Nonstationary Water Patterns via Stepwise Multimodal Fusion for Long-Term Water Quality Forecasting
von: Wang, Ziqi, et al.
Veröffentlicht: (2025)

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
von: Liang, Tianming, et al.
Veröffentlicht: (2025)

Temporal Grounding as a Learning Signal for Referring Video Object Segmentation
von: Lee, Seunghun, et al.
Veröffentlicht: (2025)

TQD-Track: Temporal Query Denoising for 3D Multi-Object Tracking
von: Ding, Shuxiao, et al.
Veröffentlicht: (2025)

SuperPose: Improved 6D Pose Estimation with Robust Tracking and Mask-Free Initialization
von: Deng, Yu, et al.
Veröffentlicht: (2024)

Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again
von: Li, Weize, et al.
Veröffentlicht: (2025)

Multimodal Reference Visual Grounding
von: Lu, Yangxiao, et al.
Veröffentlicht: (2025)

OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding
von: Yao, Jiali, et al.
Veröffentlicht: (2025)

RegTrack: Simplicity Beneath Complexity in Robust Multi-Modal 3D Multi-Object Tracking
von: Gu, Lipeng, et al.
Veröffentlicht: (2024)

Cross-View Referring Multi-Object Tracking
von: Chen, Sijia, et al.
Veröffentlicht: (2024)

Walking the Schrödinger Bridge: A Direct Trajectory for Text-to-3D Generation
von: Li, Ziying, et al.
Veröffentlicht: (2025)

Temporally Consistent Long-Term Memory for 3D Single Object Tracking
von: Yoo, Jaejoon, et al.
Veröffentlicht: (2026)

Object-centric Video Question Answering with Visual Grounding and Referring
von: Wang, Haochen, et al.
Veröffentlicht: (2025)

RefOnce: Distilling References into a Prototype Memory for Referring Camouflaged Object Detection
von: Wu, Yu-Huan, et al.
Veröffentlicht: (2025)

SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation
von: Guo, Yulong, et al.
Veröffentlicht: (2025)

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding
von: Shao, Yawen, et al.
Veröffentlicht: (2024)

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking
von: Chen, Sijia, et al.
Veröffentlicht: (2026)

SocialTrack: Multi-Object Tracking in Complex Urban Traffic Scenes Inspired by Social Behavior
von: Tao, Wenguang, et al.
Veröffentlicht: (2025)

HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking
von: Deng, Yao, et al.
Veröffentlicht: (2025)

MambaTrack3D: A State Space Model Framework for LiDAR-Based Object Tracking under High Temporal Variation
von: Tian, Shengjing, et al.
Veröffentlicht: (2025)

Cognitive Disentanglement for Referring Multi-Object Tracking
von: Liang, Shaofeng, et al.
Veröffentlicht: (2025)

SiamMo: Siamese Motion-Centric 3D Object Tracking
von: Yang, Yuxiang, et al.
Veröffentlicht: (2024)

Data-Efficient 3D Visual Grounding via Order-Aware Referring
von: Wu, Tung-Yu, et al.
Veröffentlicht: (2024)

MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation
von: Wu, Changli, et al.
Veröffentlicht: (2026)

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
von: Jiang, Qing, et al.
Veröffentlicht: (2025)

LTCA: Long-range Temporal Context Attention for Referring Video Object Segmentation
von: Yan, Cilin, et al.
Veröffentlicht: (2025)

Bootstrapping Referring Multi-Object Tracking
von: Zhang, Yani, et al.
Veröffentlicht: (2024)

Grounded 3D-LLM with Referent Tokens
von: Chen, Yilun, et al.
Veröffentlicht: (2024)

Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring
von: Wei, Siyuan, et al.
Veröffentlicht: (2025)

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models
von: Zhang, Jiaji, et al.
Veröffentlicht: (2025)

SceneTeller: Language-to-3D Scene Generation
von: Öcal, Başak Melis, et al.
Veröffentlicht: (2024)

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking
von: Wu, Xian, et al.
Veröffentlicht: (2026)

Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking
von: Hu, Xiantao, et al.
Veröffentlicht: (2024)

Video-QTR: Query-Driven Temporal Reasoning Framework for Lightweight Video Understanding
von: Zhao, Xinkui, et al.
Veröffentlicht: (2025)

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
von: Lin, Ci-Siang, et al.
Veröffentlicht: (2025)

Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences
von: Yu, Rui, et al.
Veröffentlicht: (2024)

Omni Survey for Multimodality Analysis in Visual Object Tracking
von: Tang, Zhangyong, et al.
Veröffentlicht: (2025)