:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Qiu, Chenhao, Zhang, Yechao, Luo, Xin, Song, Shien, Liu, Xusheng
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2605.12571
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
di: Wang, Ziyang, et al.
Pubblicazione: (2025)

VideoExplorer: Think With Videos For Agentic Long-Video Understanding
di: Yuan, Huaying, et al.
Pubblicazione: (2025)

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
di: Liu, Wenqi, et al.
Pubblicazione: (2026)

SEAL: Semantic Attention Learning for Long Video Representation
di: Wang, Lan, et al.
Pubblicazione: (2024)

Video Panels for Long Video Understanding
di: Doorenbos, Lars, et al.
Pubblicazione: (2025)

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
di: Zhang, Xiaoyi, et al.
Pubblicazione: (2025)

LensWalk: Agentic Video Understanding by Planning How You See in Videos
di: Li, Keliang, et al.
Pubblicazione: (2026)

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
di: Yin, Xinlei, et al.
Pubblicazione: (2026)

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
di: Chen, Houlun, et al.
Pubblicazione: (2026)

A$^2$RD: Agentic Autoregressive Diffusion for Long Video Consistency
di: Long, Do Xuan, et al.
Pubblicazione: (2026)

Preacher: Paper-to-Video Agentic System
di: Liu, Jingwei, et al.
Pubblicazione: (2025)

Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding
di: Gao, Hong, et al.
Pubblicazione: (2025)

Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
di: Li, Aiden Yiliu, et al.
Pubblicazione: (2026)

VCA: Video Curious Agent for Long Video Understanding
di: Yang, Zeyuan, et al.
Pubblicazione: (2024)

Adaptive Keyframe Sampling for Long Video Understanding
di: Tang, Xi, et al.
Pubblicazione: (2025)

TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
di: Pan, Junwen, et al.
Pubblicazione: (2025)

Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
di: Fei, Jiajun, et al.
Pubblicazione: (2024)

FOCUS: Efficient Keyframe Selection for Long Video Understanding
di: Zhu, Zirui, et al.
Pubblicazione: (2025)

HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding
di: Zou, Heqing, et al.
Pubblicazione: (2025)

Hallucination Mitigation Prompts Long-term Video Understanding
di: Sun, Yiwei, et al.
Pubblicazione: (2024)

Agentic Very Long Video Understanding
di: Rege, Aniket, et al.
Pubblicazione: (2026)

LVBench: An Extreme Long Video Understanding Benchmark
di: Wang, Weihan, et al.
Pubblicazione: (2024)

VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
di: Fu, Honghao, et al.
Pubblicazione: (2026)

VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding
di: Lin, Kuanwei, et al.
Pubblicazione: (2026)

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
di: Menapace, Willi, et al.
Pubblicazione: (2024)

Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification
di: Qin, Minghao, et al.
Pubblicazione: (2025)

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding
di: Wang, Yun, et al.
Pubblicazione: (2025)

Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning
di: Li, Jiazheng, et al.
Pubblicazione: (2026)

Enhancing Long Video Understanding via Hierarchical Event-Based Memory
di: Cheng, Dingxin, et al.
Pubblicazione: (2024)

QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
di: Schneider, Benjamin, et al.
Pubblicazione: (2025)

AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation
di: Girish, Sharath, et al.
Pubblicazione: (2025)

Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
di: Tan, Wenhui, et al.
Pubblicazione: (2026)

AVA: Towards Agentic Video Analytics with Vision Language Models
di: Yan, Yuxuan, et al.
Pubblicazione: (2025)

Video-Infinity: Distributed Long Video Generation
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
di: Luo, Yongdong, et al.
Pubblicazione: (2024)

VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
di: Ding, Yang, et al.
Pubblicazione: (2025)

Task-Aware KV Compression For Cost-Effective Long Video Understanding
di: Qin, Minghao, et al.
Pubblicazione: (2025)

Neptune: The Long Orbit to Benchmarking Long Video Understanding
di: Nagrani, Arsha, et al.
Pubblicazione: (2024)

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
di: Jang, Lawrence, et al.
Pubblicazione: (2024)

LumiVideo: An Intelligent Agentic System for Video Color Grading
di: Guo, Yuchen, et al.
Pubblicazione: (2026)