:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Li, Yinheng, Ding, Han, Chen, Hang
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2407.19180
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
par: Jang, Lawrence, et autres
Publié: (2024)

Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
par: Yang, Liling, et autres
Publié: (2025)

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
par: Nie, Ming, et autres
Publié: (2026)

SMART-Vision: Survey of Modern Action Recognition Techniques in Vision
par: AlShami, Ali K., et autres
Publié: (2025)

Accelerating Data Processing and Benchmarking of AI Models for Pathology
par: Zhang, Andrew, et autres
Publié: (2025)

LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation
par: Wang, Jun, et autres
Publié: (2026)

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
par: Jiao, Qirui, et autres
Publié: (2024)

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models
par: Ding, Xinpeng, et autres
Publié: (2024)

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning
par: Chen, Xiuwei, et autres
Publié: (2025)

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion
par: Lin, Yinheng, et autres
Publié: (2026)

Mixup Helps Understanding Multimodal Video Better
par: Ma, Xiaoyu, et autres
Publié: (2025)

HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving
par: Ding, Xinpeng, et autres
Publié: (2023)

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
par: Jia, Ding, et autres
Publié: (2024)

CaMML: Context-Aware Multimodal Learner for Large Models
par: Chen, Yixin, et autres
Publié: (2024)

Task-Focused Memorization for Multimodal Agents
par: Zou, Tao, et autres
Publié: (2026)

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
par: Wang, Weiyun, et autres
Publié: (2025)

Machine Learning Techniques for MRI Data Processing at Expanding Scale
par: Langner, Taro
Publié: (2024)

PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning
par: Ding, Xinpeng, et autres
Publié: (2025)

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving
par: Zhou, Yuhan, et autres
Publié: (2026)

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
par: Chen, Jiayi, et autres
Publié: (2025)

Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval
par: Cheng, Hang, et autres
Publié: (2026)

MIRA: Multimodal Iterative Reasoning Agent for Image Editing
par: Zeng, Ziyun, et autres
Publié: (2025)

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation
par: Ge, Yuying, et autres
Publié: (2024)

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development
par: Chen, Daoyuan, et autres
Publié: (2024)

Multimodal Dataset Distillation via Phased Teacher Models
par: Guo, Shengbin, et autres
Publié: (2026)

Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis
par: Zheng, Kaiwen, et autres
Publié: (2025)

Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines
par: Kim, Junwan, et autres
Publié: (2026)

G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
par: Li, Junxian, et autres
Publié: (2026)

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement
par: Dong, Yuran, et autres
Publié: (2026)

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
par: Chen, Zhe, et autres
Publié: (2024)

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects
par: Wang, Fei, et autres
Publié: (2025)

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models
par: Wu, Mingrui, et autres
Publié: (2026)

ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining
par: Huang, Zhenyang, et autres
Publié: (2025)

GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
par: Han, Ning, et autres
Publié: (2025)

Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models
par: Wang, Shuai, et autres
Publié: (2025)

Unified Multimodal Models as Auto-Encoders
par: Yan, Zhiyuan, et autres
Publié: (2025)

Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift
par: Qiu, Jielin, et autres
Publié: (2022)

SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM
par: Nie, Ming, et autres
Publié: (2026)

Survey on Fundamental Deep Learning 3D Reconstruction Techniques
par: Bai, Yonge, et autres
Publié: (2024)

Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models
par: Sun, Jingchen, et autres
Publié: (2026)