:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Li, Shuowei, Zhao, Yuming, Bhalerao, Parth, Ignat, Oana
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2605.16716
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

When Cultures Meet: Multicultural Text-to-Image Generation
di: Bhalerao, Parth, et al.
Pubblicazione: (2025)

Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models
di: Zhao, Yuming, et al.
Pubblicazione: (2026)

The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning
di: Bai, Longju, et al.
Pubblicazione: (2024)

MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
di: Zhang, Han, et al.
Pubblicazione: (2026)

Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost
di: Ignat, Oana, et al.
Pubblicazione: (2024)

Beyond Factual QA: Mentorship-Oriented Question Answering over Long-Form Multilingual Content
di: Bhalerao, Parth, et al.
Pubblicazione: (2026)

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
di: Zhu, Zihao, et al.
Pubblicazione: (2026)

Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models
di: Nwatu, Joan, et al.
Pubblicazione: (2024)

MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network
di: Ahire, Vrushank, et al.
Pubblicazione: (2025)

Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping
di: Nwatu, Joan, et al.
Pubblicazione: (2025)

FastInit: Fast Noise Initialization for Temporally Consistent Video Generation
di: Bai, Chengyu, et al.
Pubblicazione: (2025)

MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer
di: Ignat, Polezhaev, et al.
Pubblicazione: (2024)

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling
di: Zhu, Jiayi, et al.
Pubblicazione: (2026)

METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling
di: Li, Bingxuan, et al.
Pubblicazione: (2025)

EduStory: A Unified Framework for Pedagogically-Consistent Multi-Shot STEM Instructional Video Generation
di: Wu, Xinyi, et al.
Pubblicazione: (2026)

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
di: Zhang, Guohui, et al.
Pubblicazione: (2026)

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation
di: Wang, Ruotong, et al.
Pubblicazione: (2025)

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)

LOLGORITHM: Funny Comment Generation Agent For Short Videos
di: Ouyang, Xuan, et al.
Pubblicazione: (2026)

Bridging Text and Video Generation: A Survey
di: Kumar, Nilay, et al.
Pubblicazione: (2025)

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)

Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers
di: Padalkar, Parth, et al.
Pubblicazione: (2025)

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation
di: Yang, Xiaomeng, et al.
Pubblicazione: (2025)

Video Text Preservation with Synthetic Text-Rich Videos
di: Liu, Ziyang, et al.
Pubblicazione: (2025)

HawkEye: Training Video-Text LLMs for Grounding Text in Videos
di: Wang, Yueqian, et al.
Pubblicazione: (2024)

HARIVO: Harnessing Text-to-Image Models for Video Generation
di: Kwon, Mingi, et al.
Pubblicazione: (2024)

BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations
di: Feng, Weixi, et al.
Pubblicazione: (2025)

From Sora What We Can See: A Survey of Text-to-Video Generation
di: Sun, Rui, et al.
Pubblicazione: (2024)

Multi-Scale Temporal Difference Transformer for Video-Text Retrieval
di: Wang, Ni, et al.
Pubblicazione: (2024)

C-DGPA: Class-Centric Dual-Alignment Generative Prompt Adaptation
di: Li, Chao, et al.
Pubblicazione: (2025)

Synthetic Data Generation for Bridging Sim2Real Gap in a Production Environment
di: Rawal, Parth, et al.
Pubblicazione: (2023)

LayerT2V: A Unified Multi-Layer Video Generation Framework
di: Li, Guangzhao, et al.
Pubblicazione: (2025)

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
di: Feng, Weixi, et al.
Pubblicazione: (2024)

Auto-US: An Ultrasound Video Diagnosis Agent Using Video Classification Framework and LLMs
di: Yang, Yuezhe, et al.
Pubblicazione: (2025)

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs
di: Yang, Deshun, et al.
Pubblicazione: (2024)

CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
di: Zeng, Qinglin, et al.
Pubblicazione: (2025)

VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation
di: Jiang, Longteng, et al.
Pubblicazione: (2026)

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation
di: Wu, Shang, et al.
Pubblicazione: (2026)

Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
di: Han, Xiao, et al.
Pubblicazione: (2024)

A Generalized Multi-Modal Fusion Detection Framework
di: Cui, Leichao, et al.
Pubblicazione: (2023)