Salvato in:
| Autori principali: | Wang, Yimu, Liu, Xuye, Pang, Wei, Ma, Li, Yuan, Shuai, Debevec, Paul, Yu, Ning |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2504.16081 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
di: Wang, Yimu, et al.
Pubblicazione: (2024)
di: Wang, Yimu, et al.
Pubblicazione: (2024)
LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts
di: Wang, Yimu, et al.
Pubblicazione: (2025)
di: Wang, Yimu, et al.
Pubblicazione: (2025)
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
di: Ma, Guoqing, et al.
Pubblicazione: (2025)
di: Ma, Guoqing, et al.
Pubblicazione: (2025)
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
di: Qiu, Haonan, et al.
Pubblicazione: (2025)
di: Qiu, Haonan, et al.
Pubblicazione: (2025)
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
di: Burgert, Ryan, et al.
Pubblicazione: (2025)
di: Burgert, Ryan, et al.
Pubblicazione: (2025)
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
di: Zhang, Yue, et al.
Pubblicazione: (2024)
di: Zhang, Yue, et al.
Pubblicazione: (2024)
Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images
di: Yu, Xiaofei, et al.
Pubblicazione: (2024)
di: Yu, Xiaofei, et al.
Pubblicazione: (2024)
DiffHDR: Re-Exposing LDR Videos with Video Diffusion Models
di: Yu, Zhengming, et al.
Pubblicazione: (2026)
di: Yu, Zhengming, et al.
Pubblicazione: (2026)
HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models
di: Wang, Yimu, et al.
Pubblicazione: (2025)
di: Wang, Yimu, et al.
Pubblicazione: (2025)
A Survey of Reasoning with Foundation Models
di: Sun, Jiankai, et al.
Pubblicazione: (2023)
di: Sun, Jiankai, et al.
Pubblicazione: (2023)
MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)
di: Wang, Qian, et al.
Pubblicazione: (2025)
LLaVA-Video: Video Instruction Tuning With Synthetic Data
di: Zhang, Yuanhan, et al.
Pubblicazione: (2024)
di: Zhang, Yuanhan, et al.
Pubblicazione: (2024)
Video Understanding with Large Language Models: A Survey
di: Tang, Yolo Y., et al.
Pubblicazione: (2023)
di: Tang, Yolo Y., et al.
Pubblicazione: (2023)
FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
di: Chou, Gene, et al.
Pubblicazione: (2025)
di: Chou, Gene, et al.
Pubblicazione: (2025)
TVWorld: Foundations for Remote-Control TV Agents
di: Ma, Zhantao, et al.
Pubblicazione: (2026)
di: Ma, Zhantao, et al.
Pubblicazione: (2026)
Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
di: Yang, Liling, et al.
Pubblicazione: (2025)
di: Yang, Liling, et al.
Pubblicazione: (2025)
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations
di: Pang, Wei, et al.
Pubblicazione: (2024)
di: Pang, Wei, et al.
Pubblicazione: (2024)
Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures
di: Xu, Yuancheng, et al.
Pubblicazione: (2025)
di: Xu, Yuancheng, et al.
Pubblicazione: (2025)
Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset
di: Mei, Yiqun, et al.
Pubblicazione: (2025)
di: Mei, Yiqun, et al.
Pubblicazione: (2025)
UniVS: Unified and Universal Video Segmentation with Prompts as Queries
di: Li, Minghan, et al.
Pubblicazione: (2024)
di: Li, Minghan, et al.
Pubblicazione: (2024)
Interleaved Latent Visual Reasoning with Selective Perceptual Modeling
di: Dong, Shuai, et al.
Pubblicazione: (2025)
di: Dong, Shuai, et al.
Pubblicazione: (2025)
Mitigating the Modality Gap: Few-Shot Out-of-Distribution Detection with Multi-modal Prototypes and Image Bias Estimation
di: Wang, Yimu, et al.
Pubblicazione: (2025)
di: Wang, Yimu, et al.
Pubblicazione: (2025)
LLM-grounded Video Diffusion Models
di: Lian, Long, et al.
Pubblicazione: (2023)
di: Lian, Long, et al.
Pubblicazione: (2023)
Intern-S1: A Scientific Multimodal Foundation Model
di: Bai, Lei, et al.
Pubblicazione: (2025)
di: Bai, Lei, et al.
Pubblicazione: (2025)
Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model
di: Huang, Haoyang, et al.
Pubblicazione: (2025)
di: Huang, Haoyang, et al.
Pubblicazione: (2025)
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
di: Qi, Ji, et al.
Pubblicazione: (2025)
di: Qi, Ji, et al.
Pubblicazione: (2025)
From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models
di: Cai, Zefan, et al.
Pubblicazione: (2025)
di: Cai, Zefan, et al.
Pubblicazione: (2025)
Interfacing Foundation Models' Embeddings
di: Zou, Xueyan, et al.
Pubblicazione: (2023)
di: Zou, Xueyan, et al.
Pubblicazione: (2023)
MiniMax-01: Scaling Foundation Models with Lightning Attention
di: MiniMax, et al.
Pubblicazione: (2025)
di: MiniMax, et al.
Pubblicazione: (2025)
Autoregressive Models in Vision: A Survey
di: Xiong, Jing, et al.
Pubblicazione: (2024)
di: Xiong, Jing, et al.
Pubblicazione: (2024)
Reliable and Responsible Foundation Models: A Comprehensive Survey
di: Yang, Xinyu, et al.
Pubblicazione: (2026)
di: Yang, Xinyu, et al.
Pubblicazione: (2026)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs
di: Huang, Jen-Tse, et al.
Pubblicazione: (2025)
di: Huang, Jen-Tse, et al.
Pubblicazione: (2025)
NeMo: Needle in a Montage for Video-Language Understanding
di: Hu, Zi-Yuan, et al.
Pubblicazione: (2025)
di: Hu, Zi-Yuan, et al.
Pubblicazione: (2025)
Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding
di: Li, Yun, et al.
Pubblicazione: (2025)
di: Li, Yun, et al.
Pubblicazione: (2025)
ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
di: Ma, David, et al.
Pubblicazione: (2025)
di: Ma, David, et al.
Pubblicazione: (2025)
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
di: Ji, Yatai, et al.
Pubblicazione: (2024)
di: Ji, Yatai, et al.
Pubblicazione: (2024)
Inference Compute-Optimal Video Vision Language Models
di: Wang, Peiqi, et al.
Pubblicazione: (2025)
di: Wang, Peiqi, et al.
Pubblicazione: (2025)
DoubleCCA: Improving Foundation Model Group Robustness with Random Sentence Embeddings
di: Liu, Hong, et al.
Pubblicazione: (2024)
di: Liu, Hong, et al.
Pubblicazione: (2024)
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
di: Liu, Xuannan, et al.
Pubblicazione: (2024)
di: Liu, Xuannan, et al.
Pubblicazione: (2024)
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
di: Yang, Yandan, et al.
Pubblicazione: (2026)
di: Yang, Yandan, et al.
Pubblicazione: (2026)
Documenti analoghi
-
DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
di: Wang, Yimu, et al.
Pubblicazione: (2024) -
LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts
di: Wang, Yimu, et al.
Pubblicazione: (2025) -
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
di: Ma, Guoqing, et al.
Pubblicazione: (2025) -
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
di: Qiu, Haonan, et al.
Pubblicazione: (2025) -
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
di: Burgert, Ryan, et al.
Pubblicazione: (2025)