Enregistré dans:
| Auteurs principaux: | Zhang, Xiaohui, Yoon, Jaehong, Bansal, Mohit, Yao, Huaxiu |
|---|---|
| Format: | Preprint |
| Publié: |
2023
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2311.10707 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation
par: Yoon, Jaehong, et autres
Publié: (2024)
par: Yoon, Jaehong, et autres
Publié: (2024)
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models
par: Zhou, Yiyang, et autres
Publié: (2023)
par: Zhou, Yiyang, et autres
Publié: (2023)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models
par: Sung, Yi-Lin, et autres
Publié: (2023)
par: Sung, Yi-Lin, et autres
Publié: (2023)
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
par: Wang, Xiyao, et autres
Publié: (2024)
par: Wang, Xiyao, et autres
Publié: (2024)
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
par: Li, Jialu, et autres
Publié: (2024)
par: Li, Jialu, et autres
Publié: (2024)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion
par: Yu, Shoubin, et autres
Publié: (2024)
par: Yu, Shoubin, et autres
Publié: (2024)
BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation
par: Lee, Daeun, et autres
Publié: (2024)
par: Lee, Daeun, et autres
Publié: (2024)
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
par: Yu, Shoubin, et autres
Publié: (2026)
par: Yu, Shoubin, et autres
Publié: (2026)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
par: Yoon, Jaehong, et autres
Publié: (2024)
par: Yoon, Jaehong, et autres
Publié: (2024)
Hierarchy-Aware Multimodal Unlearning for Medical AI
par: Wu, Fengli, et autres
Publié: (2025)
par: Wu, Fengli, et autres
Publié: (2025)
Continual Learning: Forget-free Winning Subnetworks for Video Representations
par: Kang, Haeyong, et autres
Publié: (2023)
par: Kang, Haeyong, et autres
Publié: (2023)
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
par: Yu, Shoubin, et autres
Publié: (2025)
par: Yu, Shoubin, et autres
Publié: (2025)
DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
par: Wang, Zun, et autres
Publié: (2024)
par: Wang, Zun, et autres
Publié: (2024)
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning
par: Lin, Han, et autres
Publié: (2024)
par: Lin, Han, et autres
Publié: (2024)
Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement
par: Lee, Daeun, et autres
Publié: (2024)
par: Lee, Daeun, et autres
Publié: (2024)
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
par: Lee, Daeun, et autres
Publié: (2025)
par: Lee, Daeun, et autres
Publié: (2025)
MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance
par: Wei, Yake, et autres
Publié: (2024)
par: Wei, Yake, et autres
Publié: (2024)
Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
par: Gupta, Sharut, et autres
Publié: (2025)
par: Gupta, Sharut, et autres
Publié: (2025)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens
par: Hwang, Sunil, et autres
Publié: (2022)
par: Hwang, Sunil, et autres
Publié: (2022)
Progressive Fourier Neural Representation for Sequential Video Compilation
par: Kang, Haeyong, et autres
Publié: (2023)
par: Kang, Haeyong, et autres
Publié: (2023)
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
par: Li, Jialu, et autres
Publié: (2025)
par: Li, Jialu, et autres
Publié: (2025)
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
par: Yeo, Woongyeong, et autres
Publié: (2025)
par: Yeo, Woongyeong, et autres
Publié: (2025)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment
par: Lee, Jaewoo, et autres
Publié: (2023)
par: Lee, Jaewoo, et autres
Publié: (2023)
MCAQ-YOLO: Morphological Complexity-Aware Quantization for Efficient Object Detection with Curriculum Learning
par: Seo, Yoonjae, et autres
Publié: (2025)
par: Seo, Yoonjae, et autres
Publié: (2025)
DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning
par: Sivakumaran, Nithin, et autres
Publié: (2025)
par: Sivakumaran, Nithin, et autres
Publié: (2025)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
par: Xia, Peng, et autres
Publié: (2024)
par: Xia, Peng, et autres
Publié: (2024)
Self-Refining Video Sampling
par: Jang, Sangwon, et autres
Publié: (2026)
par: Jang, Sangwon, et autres
Publié: (2026)
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
par: Wang, Zun, et autres
Publié: (2026)
par: Wang, Zun, et autres
Publié: (2026)
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
par: Wang, Zun, et autres
Publié: (2025)
par: Wang, Zun, et autres
Publié: (2025)
MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
par: Zhu, Kangyu, et autres
Publié: (2024)
par: Zhu, Kangyu, et autres
Publié: (2024)
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
par: Lin, Zhiqiu, et autres
Publié: (2023)
par: Lin, Zhiqiu, et autres
Publié: (2023)
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features
par: Li, Po-han, et autres
Publié: (2024)
par: Li, Po-han, et autres
Publié: (2024)
Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning
par: Sarfraz, Fahad, et autres
Publié: (2024)
par: Sarfraz, Fahad, et autres
Publié: (2024)
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
par: Wang, Ziyang, et autres
Publié: (2024)
par: Wang, Ziyang, et autres
Publié: (2024)
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
par: Lin, Han, et autres
Publié: (2024)
par: Lin, Han, et autres
Publié: (2024)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
par: Prasad, Archiki, et autres
Publié: (2023)
par: Prasad, Archiki, et autres
Publié: (2023)
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
par: Wang, Ziyang, et autres
Publié: (2025)
par: Wang, Ziyang, et autres
Publié: (2025)
Deep Regression Representation Learning with Topology
par: Zhang, Shihao, et autres
Publié: (2024)
par: Zhang, Shihao, et autres
Publié: (2024)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning
par: Zhou, Yiyang, et autres
Publié: (2024)
par: Zhou, Yiyang, et autres
Publié: (2024)
On the Value of Cross-Modal Misalignment in Multimodal Representation Learning
par: Cai, Yichao, et autres
Publié: (2025)
par: Cai, Yichao, et autres
Publié: (2025)
Documents similaires
-
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation
par: Yoon, Jaehong, et autres
Publié: (2024) -
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models
par: Zhou, Yiyang, et autres
Publié: (2023) -
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models
par: Sung, Yi-Lin, et autres
Publié: (2023) -
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
par: Wang, Xiyao, et autres
Publié: (2024) -
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
par: Li, Jialu, et autres
Publié: (2024)