Salvato in:
| Autori principali: | Nan, Shufeng, Li, Mengtian, Zheng, Sixiao, Lu, Yuwei, Zhang, Han, Fu, Yanwei |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2603.14790 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
di: Zheng, Sixiao, et al.
Pubblicazione: (2026)
di: Zheng, Sixiao, et al.
Pubblicazione: (2026)
TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
di: Li, Shanshan, et al.
Pubblicazione: (2025)
di: Li, Shanshan, et al.
Pubblicazione: (2025)
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)
Vision Transformers: From Semantic Segmentation to Dense Prediction
di: Zhang, Li, et al.
Pubblicazione: (2022)
di: Zhang, Li, et al.
Pubblicazione: (2022)
CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion
di: Chen, Yiran, et al.
Pubblicazione: (2024)
di: Chen, Yiran, et al.
Pubblicazione: (2024)
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
di: Gao, Zhi, et al.
Pubblicazione: (2024)
di: Gao, Zhi, et al.
Pubblicazione: (2024)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
di: Zheng, Sixiao, et al.
Pubblicazione: (2025)
di: Zheng, Sixiao, et al.
Pubblicazione: (2025)
FilmComposer: LLM-Driven Music Production for Silent Film Clips
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)
AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
di: Ni, Minheng, et al.
Pubblicazione: (2024)
di: Ni, Minheng, et al.
Pubblicazione: (2024)
Multi-modal Generative AI: Multi-modal LLMs, Diffusions, and the Unification
di: Wang, Xin, et al.
Pubblicazione: (2024)
di: Wang, Xin, et al.
Pubblicazione: (2024)
VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation
di: Li, Mengtian, et al.
Pubblicazione: (2026)
di: Li, Mengtian, et al.
Pubblicazione: (2026)
AgentsCoMerge: Large Language Model Empowered Collaborative Decision Making for Ramp Merging
di: Hu, Senkang, et al.
Pubblicazione: (2024)
di: Hu, Senkang, et al.
Pubblicazione: (2024)
FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)
Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval
di: Chu, Xuangeng, et al.
Pubblicazione: (2026)
di: Chu, Xuangeng, et al.
Pubblicazione: (2026)
Making Your Dreams A Reality: Decoding the Dreams into a Coherent Video Story from fMRI Signals
di: Fu, Yanwei, et al.
Pubblicazione: (2025)
di: Fu, Yanwei, et al.
Pubblicazione: (2025)
MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo
di: Cao, Chenjie, et al.
Pubblicazione: (2024)
di: Cao, Chenjie, et al.
Pubblicazione: (2024)
CustAny: Customizing Anything from A Single Example
di: Kong, Lingjie, et al.
Pubblicazione: (2024)
di: Kong, Lingjie, et al.
Pubblicazione: (2024)
MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
di: Shi, Haojun, et al.
Pubblicazione: (2024)
di: Shi, Haojun, et al.
Pubblicazione: (2024)
Scaling Video Understanding via Compact Latent Multi-Agent Collaboration
di: Chen, Kerui, et al.
Pubblicazione: (2026)
di: Chen, Kerui, et al.
Pubblicazione: (2026)
Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation
di: Fan, Hongxing, et al.
Pubblicazione: (2025)
di: Fan, Hongxing, et al.
Pubblicazione: (2025)
GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents
di: Li, Mengtian, et al.
Pubblicazione: (2026)
di: Li, Mengtian, et al.
Pubblicazione: (2026)
Mind the Time: Temporally-Controlled Multi-Event Video Generation
di: Wu, Ziyi, et al.
Pubblicazione: (2024)
di: Wu, Ziyi, et al.
Pubblicazione: (2024)
TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement
di: Lin, Zhiwei, et al.
Pubblicazione: (2024)
di: Lin, Zhiwei, et al.
Pubblicazione: (2024)
Multi-modal Collaborative Optimization and Expansion Network for Event-assisted Single-eye Expression Recognition
di: Han, Runduo, et al.
Pubblicazione: (2025)
di: Han, Runduo, et al.
Pubblicazione: (2025)
AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion
di: Hu, Jie, et al.
Pubblicazione: (2024)
di: Hu, Jie, et al.
Pubblicazione: (2024)
Mind-to-Face: Neural-Driven Photorealistic Avatar Synthesis via EEG Decoding
di: Xiong, Haolin, et al.
Pubblicazione: (2025)
di: Xiong, Haolin, et al.
Pubblicazione: (2025)
VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
di: Tang, Linfeng, et al.
Pubblicazione: (2025)
di: Tang, Linfeng, et al.
Pubblicazione: (2025)
Content and Salient Semantics Collaboration for Cloth-Changing Person Re-Identification
di: Wang, Qizao, et al.
Pubblicazione: (2024)
di: Wang, Qizao, et al.
Pubblicazione: (2024)
Large Multi-modality Model Assisted AI-Generated Image Quality Assessment
di: Wang, Puyi, et al.
Pubblicazione: (2024)
di: Wang, Puyi, et al.
Pubblicazione: (2024)
EIMC: Efficient Instance-aware Multi-modal Collaborative Perception
di: Yang, Kang, et al.
Pubblicazione: (2026)
di: Yang, Kang, et al.
Pubblicazione: (2026)
Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration
di: Song, Yiren, et al.
Pubblicazione: (2026)
di: Song, Yiren, et al.
Pubblicazione: (2026)
MemFlow: Optical Flow Estimation and Prediction with Memory
di: Dong, Qiaole, et al.
Pubblicazione: (2024)
di: Dong, Qiaole, et al.
Pubblicazione: (2024)
Online Dense Point Tracking with Streaming Memory
di: Dong, Qiaole, et al.
Pubblicazione: (2025)
di: Dong, Qiaole, et al.
Pubblicazione: (2025)
Sub-Image Recapture for Multi-View 3D Reconstruction
di: Wang, Yanwei
Pubblicazione: (2025)
di: Wang, Yanwei
Pubblicazione: (2025)
Human-AI Collaborative Multi-modal Multi-rater Learning for Endometriosis Diagnosis
di: Wang, Hu, et al.
Pubblicazione: (2024)
di: Wang, Hu, et al.
Pubblicazione: (2024)
Efficient Multi-modal Large Language Models via Visual Token Grouping
di: Huang, Minbin, et al.
Pubblicazione: (2024)
di: Huang, Minbin, et al.
Pubblicazione: (2024)
GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting
di: Li, Mengtian, et al.
Pubblicazione: (2024)
di: Li, Mengtian, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT
di: Zheng, Sixiao, et al.
Pubblicazione: (2024) -
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
di: Zheng, Sixiao, et al.
Pubblicazione: (2024) -
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding
di: Liu, Zhenyang, et al.
Pubblicazione: (2025) -
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
di: Zheng, Sixiao, et al.
Pubblicazione: (2026) -
TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
di: Li, Shanshan, et al.
Pubblicazione: (2025)