Salvato in:
| Autori principali: | Li, Shuowei, Zhao, Yuming, Bhalerao, Parth, Ignat, Oana |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.16716 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
When Cultures Meet: Multicultural Text-to-Image Generation
di: Bhalerao, Parth, et al.
Pubblicazione: (2025)
di: Bhalerao, Parth, et al.
Pubblicazione: (2025)
Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models
di: Zhao, Yuming, et al.
Pubblicazione: (2026)
di: Zhao, Yuming, et al.
Pubblicazione: (2026)
The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning
di: Bai, Longju, et al.
Pubblicazione: (2024)
di: Bai, Longju, et al.
Pubblicazione: (2024)
MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
di: Zhang, Han, et al.
Pubblicazione: (2026)
di: Zhang, Han, et al.
Pubblicazione: (2026)
Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost
di: Ignat, Oana, et al.
Pubblicazione: (2024)
di: Ignat, Oana, et al.
Pubblicazione: (2024)
Beyond Factual QA: Mentorship-Oriented Question Answering over Long-Form Multilingual Content
di: Bhalerao, Parth, et al.
Pubblicazione: (2026)
di: Bhalerao, Parth, et al.
Pubblicazione: (2026)
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
di: Zhu, Zihao, et al.
Pubblicazione: (2026)
di: Zhu, Zihao, et al.
Pubblicazione: (2026)
Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Large Multi-modal Models
di: Nwatu, Joan, et al.
Pubblicazione: (2024)
di: Nwatu, Joan, et al.
Pubblicazione: (2024)
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network
di: Ahire, Vrushank, et al.
Pubblicazione: (2025)
di: Ahire, Vrushank, et al.
Pubblicazione: (2025)
Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping
di: Nwatu, Joan, et al.
Pubblicazione: (2025)
di: Nwatu, Joan, et al.
Pubblicazione: (2025)
FastInit: Fast Noise Initialization for Temporally Consistent Video Generation
di: Bai, Chengyu, et al.
Pubblicazione: (2025)
di: Bai, Chengyu, et al.
Pubblicazione: (2025)
MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer
di: Ignat, Polezhaev, et al.
Pubblicazione: (2024)
di: Ignat, Polezhaev, et al.
Pubblicazione: (2024)
ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling
di: Zhu, Jiayi, et al.
Pubblicazione: (2026)
di: Zhu, Jiayi, et al.
Pubblicazione: (2026)
METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling
di: Li, Bingxuan, et al.
Pubblicazione: (2025)
di: Li, Bingxuan, et al.
Pubblicazione: (2025)
EduStory: A Unified Framework for Pedagogically-Consistent Multi-Shot STEM Instructional Video Generation
di: Wu, Xinyi, et al.
Pubblicazione: (2026)
di: Wu, Xinyi, et al.
Pubblicazione: (2026)
OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
di: Zhang, Guohui, et al.
Pubblicazione: (2026)
di: Zhang, Guohui, et al.
Pubblicazione: (2026)
BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation
di: Wang, Ruotong, et al.
Pubblicazione: (2025)
di: Wang, Ruotong, et al.
Pubblicazione: (2025)
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)
LOLGORITHM: Funny Comment Generation Agent For Short Videos
di: Ouyang, Xuan, et al.
Pubblicazione: (2026)
di: Ouyang, Xuan, et al.
Pubblicazione: (2026)
Bridging Text and Video Generation: A Survey
di: Kumar, Nilay, et al.
Pubblicazione: (2025)
di: Kumar, Nilay, et al.
Pubblicazione: (2025)
MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)
di: Wang, Qian, et al.
Pubblicazione: (2025)
Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers
di: Padalkar, Parth, et al.
Pubblicazione: (2025)
di: Padalkar, Parth, et al.
Pubblicazione: (2025)
Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation
di: Yang, Xiaomeng, et al.
Pubblicazione: (2025)
di: Yang, Xiaomeng, et al.
Pubblicazione: (2025)
Video Text Preservation with Synthetic Text-Rich Videos
di: Liu, Ziyang, et al.
Pubblicazione: (2025)
di: Liu, Ziyang, et al.
Pubblicazione: (2025)
HawkEye: Training Video-Text LLMs for Grounding Text in Videos
di: Wang, Yueqian, et al.
Pubblicazione: (2024)
di: Wang, Yueqian, et al.
Pubblicazione: (2024)
HARIVO: Harnessing Text-to-Image Models for Video Generation
di: Kwon, Mingi, et al.
Pubblicazione: (2024)
di: Kwon, Mingi, et al.
Pubblicazione: (2024)
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations
di: Feng, Weixi, et al.
Pubblicazione: (2025)
di: Feng, Weixi, et al.
Pubblicazione: (2025)
From Sora What We Can See: A Survey of Text-to-Video Generation
di: Sun, Rui, et al.
Pubblicazione: (2024)
di: Sun, Rui, et al.
Pubblicazione: (2024)
Multi-Scale Temporal Difference Transformer for Video-Text Retrieval
di: Wang, Ni, et al.
Pubblicazione: (2024)
di: Wang, Ni, et al.
Pubblicazione: (2024)
C-DGPA: Class-Centric Dual-Alignment Generative Prompt Adaptation
di: Li, Chao, et al.
Pubblicazione: (2025)
di: Li, Chao, et al.
Pubblicazione: (2025)
Synthetic Data Generation for Bridging Sim2Real Gap in a Production Environment
di: Rawal, Parth, et al.
Pubblicazione: (2023)
di: Rawal, Parth, et al.
Pubblicazione: (2023)
LayerT2V: A Unified Multi-Layer Video Generation Framework
di: Li, Guangzhao, et al.
Pubblicazione: (2025)
di: Li, Guangzhao, et al.
Pubblicazione: (2025)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
di: Feng, Weixi, et al.
Pubblicazione: (2024)
di: Feng, Weixi, et al.
Pubblicazione: (2024)
Auto-US: An Ultrasound Video Diagnosis Agent Using Video Classification Framework and LLMs
di: Yang, Yuezhe, et al.
Pubblicazione: (2025)
di: Yang, Yuezhe, et al.
Pubblicazione: (2025)
WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs
di: Yang, Deshun, et al.
Pubblicazione: (2024)
di: Yang, Deshun, et al.
Pubblicazione: (2024)
CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
di: Zeng, Qinglin, et al.
Pubblicazione: (2025)
di: Zeng, Qinglin, et al.
Pubblicazione: (2025)
VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation
di: Jiang, Longteng, et al.
Pubblicazione: (2026)
di: Jiang, Longteng, et al.
Pubblicazione: (2026)
PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation
di: Wu, Shang, et al.
Pubblicazione: (2026)
di: Wu, Shang, et al.
Pubblicazione: (2026)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework
di: Han, Xiao, et al.
Pubblicazione: (2024)
di: Han, Xiao, et al.
Pubblicazione: (2024)
A Generalized Multi-Modal Fusion Detection Framework
di: Cui, Leichao, et al.
Pubblicazione: (2023)
di: Cui, Leichao, et al.
Pubblicazione: (2023)
Documenti analoghi
-
When Cultures Meet: Multicultural Text-to-Image Generation
di: Bhalerao, Parth, et al.
Pubblicazione: (2025) -
Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models
di: Zhao, Yuming, et al.
Pubblicazione: (2026) -
The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning
di: Bai, Longju, et al.
Pubblicazione: (2024) -
MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
di: Zhang, Han, et al.
Pubblicazione: (2026) -
Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost
di: Ignat, Oana, et al.
Pubblicazione: (2024)