:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhang, Xiaohui, Yoon, Jaehong, Bansal, Mohit, Yao, Huaxiu
Format:	Preprint
Publié:	2023
Sujets:	Machine Learning Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2311.10707
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation
par: Yoon, Jaehong, et autres
Publié: (2024)

Analyzing and Mitigating Object Hallucination in Large Vision-Language Models
par: Zhou, Yiyang, et autres
Publié: (2023)

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models
par: Sung, Yi-Lin, et autres
Publié: (2023)

Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
par: Wang, Xiyao, et autres
Publié: (2024)

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
par: Li, Jialu, et autres
Publié: (2024)

CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion
par: Yu, Shoubin, et autres
Publié: (2024)

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation
par: Lee, Daeun, et autres
Publié: (2024)

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
par: Yu, Shoubin, et autres
Publié: (2026)

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
par: Yoon, Jaehong, et autres
Publié: (2024)

Hierarchy-Aware Multimodal Unlearning for Medical AI
par: Wu, Fengli, et autres
Publié: (2025)

Continual Learning: Forget-free Winning Subnetworks for Video Representations
par: Kang, Haeyong, et autres
Publié: (2023)

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
par: Yu, Shoubin, et autres
Publié: (2025)

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
par: Wang, Zun, et autres
Publié: (2024)

VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning
par: Lin, Han, et autres
Publié: (2024)

Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement
par: Lee, Daeun, et autres
Publié: (2024)

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
par: Lee, Daeun, et autres
Publié: (2025)

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance
par: Wei, Yake, et autres
Publié: (2024)

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
par: Gupta, Sharut, et autres
Publié: (2025)

EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens
par: Hwang, Sunil, et autres
Publié: (2022)

Progressive Fourier Neural Representation for Sequential Video Compilation
par: Kang, Haeyong, et autres
Publié: (2023)

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
par: Li, Jialu, et autres
Publié: (2025)

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
par: Yeo, Woongyeong, et autres
Publié: (2025)

STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment
par: Lee, Jaewoo, et autres
Publié: (2023)

MCAQ-YOLO: Morphological Complexity-Aware Quantization for Efficient Object Detection with Curriculum Learning
par: Seo, Yoonjae, et autres
Publié: (2025)

DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning
par: Sivakumaran, Nithin, et autres
Publié: (2025)

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models
par: Xia, Peng, et autres
Publié: (2024)

Self-Refining Video Sampling
par: Jang, Sangwon, et autres
Publié: (2026)

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
par: Wang, Zun, et autres
Publié: (2026)

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
par: Wang, Zun, et autres
Publié: (2025)

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization
par: Zhu, Kangyu, et autres
Publié: (2024)

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
par: Lin, Zhiqiu, et autres
Publié: (2023)

CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features
par: Li, Po-han, et autres
Publié: (2024)

Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning
par: Sarfraz, Fahad, et autres
Publié: (2024)

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
par: Wang, Ziyang, et autres
Publié: (2024)

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
par: Lin, Han, et autres
Publié: (2024)

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
par: Prasad, Archiki, et autres
Publié: (2023)

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
par: Wang, Ziyang, et autres
Publié: (2025)

Deep Regression Representation Learning with Topology
par: Zhang, Shihao, et autres
Publié: (2024)

Aligning Modalities in Vision Large Language Models via Preference Fine-tuning
par: Zhou, Yiyang, et autres
Publié: (2024)

On the Value of Cross-Modal Misalignment in Multimodal Representation Learning
par: Cai, Yichao, et autres
Publié: (2025)