Salvato in:
| Autori principali: | Qiu, Chenhao, Zhang, Yechao, Luo, Xin, Song, Shien, Liu, Xusheng |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.12571 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
di: Wang, Ziyang, et al.
Pubblicazione: (2025)
di: Wang, Ziyang, et al.
Pubblicazione: (2025)
VideoExplorer: Think With Videos For Agentic Long-Video Understanding
di: Yuan, Huaying, et al.
Pubblicazione: (2025)
di: Yuan, Huaying, et al.
Pubblicazione: (2025)
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
di: Liu, Wenqi, et al.
Pubblicazione: (2026)
di: Liu, Wenqi, et al.
Pubblicazione: (2026)
SEAL: Semantic Attention Learning for Long Video Representation
di: Wang, Lan, et al.
Pubblicazione: (2024)
di: Wang, Lan, et al.
Pubblicazione: (2024)
Video Panels for Long Video Understanding
di: Doorenbos, Lars, et al.
Pubblicazione: (2025)
di: Doorenbos, Lars, et al.
Pubblicazione: (2025)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
di: Zhang, Xiaoyi, et al.
Pubblicazione: (2025)
di: Zhang, Xiaoyi, et al.
Pubblicazione: (2025)
LensWalk: Agentic Video Understanding by Planning How You See in Videos
di: Li, Keliang, et al.
Pubblicazione: (2026)
di: Li, Keliang, et al.
Pubblicazione: (2026)
Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
di: Yin, Xinlei, et al.
Pubblicazione: (2026)
di: Yin, Xinlei, et al.
Pubblicazione: (2026)
Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding
di: Chen, Houlun, et al.
Pubblicazione: (2026)
di: Chen, Houlun, et al.
Pubblicazione: (2026)
A$^2$RD: Agentic Autoregressive Diffusion for Long Video Consistency
di: Long, Do Xuan, et al.
Pubblicazione: (2026)
di: Long, Do Xuan, et al.
Pubblicazione: (2026)
Preacher: Paper-to-Video Agentic System
di: Liu, Jingwei, et al.
Pubblicazione: (2025)
di: Liu, Jingwei, et al.
Pubblicazione: (2025)
Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding
di: Gao, Hong, et al.
Pubblicazione: (2025)
di: Gao, Hong, et al.
Pubblicazione: (2025)
Visual Agentic Memory: Enabling Online Long Video Understanding via Online Indexing, Hierarchical Memory, and Agentic Retrieval
di: Li, Aiden Yiliu, et al.
Pubblicazione: (2026)
di: Li, Aiden Yiliu, et al.
Pubblicazione: (2026)
VCA: Video Curious Agent for Long Video Understanding
di: Yang, Zeyuan, et al.
Pubblicazione: (2024)
di: Yang, Zeyuan, et al.
Pubblicazione: (2024)
Adaptive Keyframe Sampling for Long Video Understanding
di: Tang, Xi, et al.
Pubblicazione: (2025)
di: Tang, Xi, et al.
Pubblicazione: (2025)
TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
di: Pan, Junwen, et al.
Pubblicazione: (2025)
di: Pan, Junwen, et al.
Pubblicazione: (2025)
Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
di: Fei, Jiajun, et al.
Pubblicazione: (2024)
di: Fei, Jiajun, et al.
Pubblicazione: (2024)
FOCUS: Efficient Keyframe Selection for Long Video Understanding
di: Zhu, Zirui, et al.
Pubblicazione: (2025)
di: Zhu, Zirui, et al.
Pubblicazione: (2025)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding
di: Zou, Heqing, et al.
Pubblicazione: (2025)
di: Zou, Heqing, et al.
Pubblicazione: (2025)
Hallucination Mitigation Prompts Long-term Video Understanding
di: Sun, Yiwei, et al.
Pubblicazione: (2024)
di: Sun, Yiwei, et al.
Pubblicazione: (2024)
Agentic Very Long Video Understanding
di: Rege, Aniket, et al.
Pubblicazione: (2026)
di: Rege, Aniket, et al.
Pubblicazione: (2026)
LVBench: An Extreme Long Video Understanding Benchmark
di: Wang, Weihan, et al.
Pubblicazione: (2024)
di: Wang, Weihan, et al.
Pubblicazione: (2024)
VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG
di: Fu, Honghao, et al.
Pubblicazione: (2026)
di: Fu, Honghao, et al.
Pubblicazione: (2026)
VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding
di: Lin, Kuanwei, et al.
Pubblicazione: (2026)
di: Lin, Kuanwei, et al.
Pubblicazione: (2026)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
di: Menapace, Willi, et al.
Pubblicazione: (2024)
di: Menapace, Willi, et al.
Pubblicazione: (2024)
Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification
di: Qin, Minghao, et al.
Pubblicazione: (2025)
di: Qin, Minghao, et al.
Pubblicazione: (2025)
Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding
di: Wang, Yun, et al.
Pubblicazione: (2025)
di: Wang, Yun, et al.
Pubblicazione: (2025)
Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning
di: Li, Jiazheng, et al.
Pubblicazione: (2026)
di: Li, Jiazheng, et al.
Pubblicazione: (2026)
Enhancing Long Video Understanding via Hierarchical Event-Based Memory
di: Cheng, Dingxin, et al.
Pubblicazione: (2024)
di: Cheng, Dingxin, et al.
Pubblicazione: (2024)
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design
di: Schneider, Benjamin, et al.
Pubblicazione: (2025)
di: Schneider, Benjamin, et al.
Pubblicazione: (2025)
AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation
di: Girish, Sharath, et al.
Pubblicazione: (2025)
di: Girish, Sharath, et al.
Pubblicazione: (2025)
Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding
di: Tan, Wenhui, et al.
Pubblicazione: (2026)
di: Tan, Wenhui, et al.
Pubblicazione: (2026)
AVA: Towards Agentic Video Analytics with Vision Language Models
di: Yan, Yuxuan, et al.
Pubblicazione: (2025)
di: Yan, Yuxuan, et al.
Pubblicazione: (2025)
Video-Infinity: Distributed Long Video Generation
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)
di: Tan, Zhenxiong, et al.
Pubblicazione: (2024)
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
di: Luo, Yongdong, et al.
Pubblicazione: (2024)
di: Luo, Yongdong, et al.
Pubblicazione: (2024)
VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
di: Ding, Yang, et al.
Pubblicazione: (2025)
di: Ding, Yang, et al.
Pubblicazione: (2025)
Task-Aware KV Compression For Cost-Effective Long Video Understanding
di: Qin, Minghao, et al.
Pubblicazione: (2025)
di: Qin, Minghao, et al.
Pubblicazione: (2025)
Neptune: The Long Orbit to Benchmarking Long Video Understanding
di: Nagrani, Arsha, et al.
Pubblicazione: (2024)
di: Nagrani, Arsha, et al.
Pubblicazione: (2024)
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
di: Jang, Lawrence, et al.
Pubblicazione: (2024)
di: Jang, Lawrence, et al.
Pubblicazione: (2024)
LumiVideo: An Intelligent Agentic System for Video Color Grading
di: Guo, Yuchen, et al.
Pubblicazione: (2026)
di: Guo, Yuchen, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
di: Wang, Ziyang, et al.
Pubblicazione: (2025) -
VideoExplorer: Think With Videos For Agentic Long-Video Understanding
di: Yuan, Huaying, et al.
Pubblicazione: (2025) -
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
di: Liu, Wenqi, et al.
Pubblicazione: (2026) -
SEAL: Semantic Attention Learning for Long Video Representation
di: Wang, Lan, et al.
Pubblicazione: (2024) -
Video Panels for Long Video Understanding
di: Doorenbos, Lars, et al.
Pubblicazione: (2025)