:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Wang, Yimu, Liu, Xuye, Pang, Wei, Ma, Li, Yuan, Shuai, Debevec, Paul, Yu, Ning
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition Computation and Language
Accesso online:	https://arxiv.org/abs/2504.16081
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
di: Wang, Yimu, et al.
Pubblicazione: (2024)

LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts
di: Wang, Yimu, et al.
Pubblicazione: (2025)

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
di: Ma, Guoqing, et al.
Pubblicazione: (2025)

CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
di: Qiu, Haonan, et al.
Pubblicazione: (2025)

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
di: Burgert, Ryan, et al.
Pubblicazione: (2025)

Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models
di: Zhang, Yue, et al.
Pubblicazione: (2024)

Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images
di: Yu, Xiaofei, et al.
Pubblicazione: (2024)

DiffHDR: Re-Exposing LDR Videos with Video Diffusion Models
di: Yu, Zhengming, et al.
Pubblicazione: (2026)

HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models
di: Wang, Yimu, et al.
Pubblicazione: (2025)

A Survey of Reasoning with Foundation Models
di: Sun, Jiankai, et al.
Pubblicazione: (2023)

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
di: Wang, Qian, et al.
Pubblicazione: (2025)

LLaVA-Video: Video Instruction Tuning With Synthetic Data
di: Zhang, Yuanhan, et al.
Pubblicazione: (2024)

Video Understanding with Large Language Models: A Survey
di: Tang, Yolo Y., et al.
Pubblicazione: (2023)

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
di: Chou, Gene, et al.
Pubblicazione: (2025)

TVWorld: Foundations for Remote-Control TV Agents
di: Ma, Zhantao, et al.
Pubblicazione: (2026)

Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
di: Yang, Liling, et al.
Pubblicazione: (2025)

Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations
di: Pang, Wei, et al.
Pubblicazione: (2024)

Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures
di: Xu, Yuancheng, et al.
Pubblicazione: (2025)

Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset
di: Mei, Yiqun, et al.
Pubblicazione: (2025)

UniVS: Unified and Universal Video Segmentation with Prompts as Queries
di: Li, Minghan, et al.
Pubblicazione: (2024)

Interleaved Latent Visual Reasoning with Selective Perceptual Modeling
di: Dong, Shuai, et al.
Pubblicazione: (2025)

Mitigating the Modality Gap: Few-Shot Out-of-Distribution Detection with Multi-modal Prototypes and Image Bias Estimation
di: Wang, Yimu, et al.
Pubblicazione: (2025)

LLM-grounded Video Diffusion Models
di: Lian, Long, et al.
Pubblicazione: (2023)

Intern-S1: A Scientific Multimodal Foundation Model
di: Bai, Lei, et al.
Pubblicazione: (2025)

Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model
di: Huang, Haoyang, et al.
Pubblicazione: (2025)

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
di: Qi, Ji, et al.
Pubblicazione: (2025)

From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models
di: Cai, Zefan, et al.
Pubblicazione: (2025)

Interfacing Foundation Models' Embeddings
di: Zou, Xueyan, et al.
Pubblicazione: (2023)

MiniMax-01: Scaling Foundation Models with Lightning Attention
di: MiniMax, et al.
Pubblicazione: (2025)

Autoregressive Models in Vision: A Survey
di: Xiong, Jing, et al.
Pubblicazione: (2024)

Reliable and Responsible Foundation Models: A Comprehensive Survey
di: Yang, Xinyu, et al.
Pubblicazione: (2026)

Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs
di: Huang, Jen-Tse, et al.
Pubblicazione: (2025)

NeMo: Needle in a Montage for Video-Language Understanding
di: Hu, Zi-Yuan, et al.
Pubblicazione: (2025)

Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding
di: Li, Yun, et al.
Pubblicazione: (2025)

ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
di: Ma, David, et al.
Pubblicazione: (2025)

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
di: Ji, Yatai, et al.
Pubblicazione: (2024)

Inference Compute-Optimal Video Vision Language Models
di: Wang, Peiqi, et al.
Pubblicazione: (2025)

DoubleCCA: Improving Foundation Model Group Robustness with Random Sentence Embeddings
di: Liu, Hong, et al.
Pubblicazione: (2024)

Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
di: Liu, Xuannan, et al.
Pubblicazione: (2024)

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
di: Yang, Yandan, et al.
Pubblicazione: (2026)