:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Nan, Shufeng, Li, Mengtian, Zheng, Sixiao, Lu, Yuwei, Zhang, Han, Fu, Yanwei
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2603.14790
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
di: Zheng, Sixiao, et al.
Pubblicazione: (2024)

A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
di: Zheng, Sixiao, et al.
Pubblicazione: (2026)

TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
di: Li, Shanshan, et al.
Pubblicazione: (2025)

ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning
di: Liu, Zhenyang, et al.
Pubblicazione: (2025)

Vision Transformers: From Semantic Segmentation to Dense Prediction
di: Zhang, Li, et al.
Pubblicazione: (2022)

CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion
di: Chen, Yiran, et al.
Pubblicazione: (2024)

Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
di: Gao, Zhi, et al.
Pubblicazione: (2024)

VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation
di: Zheng, Sixiao, et al.
Pubblicazione: (2025)

FilmComposer: LLM-Driven Music Production for Silent Film Clips
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)

AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
di: Ni, Minheng, et al.
Pubblicazione: (2024)

Multi-modal Generative AI: Multi-modal LLMs, Diffusions, and the Unification
di: Wang, Xin, et al.
Pubblicazione: (2024)

VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation
di: Li, Mengtian, et al.
Pubblicazione: (2026)

AgentsCoMerge: Large Language Model Empowered Collaborative Decision Making for Ramp Merging
di: Hu, Senkang, et al.
Pubblicazione: (2024)

FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation
di: Xie, Zhifeng, et al.
Pubblicazione: (2025)

Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval
di: Chu, Xuangeng, et al.
Pubblicazione: (2026)

Making Your Dreams A Reality: Decoding the Dreams into a Coherent Video Story from fMRI Signals
di: Fu, Yanwei, et al.
Pubblicazione: (2025)

MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo
di: Cao, Chenjie, et al.
Pubblicazione: (2024)

CustAny: Customizing Anything from A Single Example
di: Kong, Lingjie, et al.
Pubblicazione: (2024)

MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
di: Shi, Haojun, et al.
Pubblicazione: (2024)

Scaling Video Understanding via Compact Latent Multi-Agent Collaboration
di: Chen, Kerui, et al.
Pubblicazione: (2026)

Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation
di: Fan, Hongxing, et al.
Pubblicazione: (2025)

GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents
di: Li, Mengtian, et al.
Pubblicazione: (2026)

Mind the Time: Temporally-Controlled Multi-Event Video Generation
di: Wu, Ziyi, et al.
Pubblicazione: (2024)

TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement
di: Lin, Zhiwei, et al.
Pubblicazione: (2024)

Multi-modal Collaborative Optimization and Expansion Network for Event-assisted Single-eye Expression Recognition
di: Han, Runduo, et al.
Pubblicazione: (2025)

AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion
di: Hu, Jie, et al.
Pubblicazione: (2024)

Mind-to-Face: Neural-Driven Photorealistic Avatar Synthesis via EEG Decoding
di: Xiong, Haolin, et al.
Pubblicazione: (2025)

VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
di: Tang, Linfeng, et al.
Pubblicazione: (2025)

Content and Salient Semantics Collaboration for Cloth-Changing Person Re-Identification
di: Wang, Qizao, et al.
Pubblicazione: (2024)

Large Multi-modality Model Assisted AI-Generated Image Quality Assessment
di: Wang, Puyi, et al.
Pubblicazione: (2024)

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception
di: Yang, Kang, et al.
Pubblicazione: (2026)

Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration
di: Song, Yiren, et al.
Pubblicazione: (2026)

MemFlow: Optical Flow Estimation and Prediction with Memory
di: Dong, Qiaole, et al.
Pubblicazione: (2024)

Online Dense Point Tracking with Streaming Memory
di: Dong, Qiaole, et al.
Pubblicazione: (2025)

Sub-Image Recapture for Multi-View 3D Reconstruction
di: Wang, Yanwei
Pubblicazione: (2025)

Human-AI Collaborative Multi-modal Multi-rater Learning for Endometriosis Diagnosis
di: Wang, Hu, et al.
Pubblicazione: (2024)

Efficient Multi-modal Large Language Models via Visual Token Grouping
di: Huang, Minbin, et al.
Pubblicazione: (2024)

GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting
di: Li, Mengtian, et al.
Pubblicazione: (2024)