:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Song, Young Chol
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computer Vision and Pattern Recognition Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2407.06157
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
von: Wang, Haibo, et al.
Veröffentlicht: (2024)

Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models
von: Sun, Li, et al.
Veröffentlicht: (2024)

Geospatial-Temporal Sensemaking of Remote Sensing Activity Detections with Multimodal Large Language Model
von: Ramirez, David F., et al.
Veröffentlicht: (2026)

GLaMM: Pixel Grounding Large Multimodal Model
von: Rasheed, Hanoona, et al.
Veröffentlicht: (2023)

Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models
von: Kim, Jeonghwan, et al.
Veröffentlicht: (2026)

Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding
von: He, Jinlong, et al.
Veröffentlicht: (2024)

DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model
von: Tao, Zhou, et al.
Veröffentlicht: (2025)

Adversarial Prompt Injection Attack on Multimodal Large Language Models
von: Ding, Meiwen, et al.
Veröffentlicht: (2026)

VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding
von: Wang, Shihao, et al.
Veröffentlicht: (2025)

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling
von: Ju, Shaobo, et al.
Veröffentlicht: (2026)

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models
von: Zheng, Shurong, et al.
Veröffentlicht: (2026)

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models
von: Yao, Xincheng, et al.
Veröffentlicht: (2026)

Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models
von: Kwon, JuneHyoung, et al.
Veröffentlicht: (2026)

Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models
von: Yu, Keunwoo Peter, et al.
Veröffentlicht: (2025)

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding
von: Wang, Ye, et al.
Veröffentlicht: (2025)

Towards Visual Text Grounding of Multimodal Large Language Model
von: Li, Ming, et al.
Veröffentlicht: (2025)

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models
von: Liao, Haicheng, et al.
Veröffentlicht: (2023)

Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
von: Li, You, et al.
Veröffentlicht: (2025)

Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision
von: Cao, Shengcao, et al.
Veröffentlicht: (2024)

EventVL: Understand Event Streams via Multimodal Large Language Model
von: Li, Pengteng, et al.
Veröffentlicht: (2025)

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
von: Ma, Chuofan, et al.
Veröffentlicht: (2024)

Gaussian Mixture Proposals with Pull-Push Learning Scheme to Capture Diverse Events for Weakly Supervised Temporal Video Grounding
von: Kim, Sunoh, et al.
Veröffentlicht: (2023)

LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models
von: Saxena, Pranav, et al.
Veröffentlicht: (2025)

Factorized Learning for Temporally Grounded Video-Language Models
von: Zeng, Wenzheng, et al.
Veröffentlicht: (2025)

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders
von: Wang, Yizhou, et al.
Veröffentlicht: (2025)

Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding
von: Sun, Yunzhuo, et al.
Veröffentlicht: (2026)

TrackTeller: Temporal Multimodal 3D Grounding for Behavior-Dependent Object References
von: Yu, Jiahong, et al.
Veröffentlicht: (2025)

See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
von: Li, Pengteng, et al.
Veröffentlicht: (2025)

Check Field Detection Agent (CFD-Agent) using Multimodal Large Language and Vision Language Models
von: Halder, Sourav, et al.
Veröffentlicht: (2025)

Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models
von: Kim, Keuntae, et al.
Veröffentlicht: (2026)

Jailbreaking Multimodal Large Language Models using Multi-Clip Video
von: Kang, Choongwon, et al.
Veröffentlicht: (2026)

Reasoning-Guided Grounding: Elevating Video Anomaly Detection through Multimodal Large Language Models
von: Agarwal, Sakshi, et al.
Veröffentlicht: (2026)

Efficient Multimodal Large Language Models: A Survey
von: Jin, Yizhang, et al.
Veröffentlicht: (2024)

On the Out-Of-Distribution Generalization of Multimodal Large Language Models
von: Zhang, Xingxuan, et al.
Veröffentlicht: (2024)

Toward Cognitive Supersensing in Multimodal Large Language Model
von: Li, Boyi, et al.
Veröffentlicht: (2026)

Speculative Decoding Reimagined for Multimodal Large Language Models
von: Lin, Luxi, et al.
Veröffentlicht: (2025)

Contextual Object Detection with Multimodal Large Language Models
von: Zang, Yuhang, et al.
Veröffentlicht: (2023)

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
von: Zhang, Jun, et al.
Veröffentlicht: (2025)

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
von: Zhang, Yichi, et al.
Veröffentlicht: (2024)

Model Composition for Multimodal Large Language Models
von: Chen, Chi, et al.
Veröffentlicht: (2024)