Enregistré dans:
| Auteurs principaux: | Li, Yinheng, Ding, Han, Chen, Hang |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2407.19180 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
par: Jang, Lawrence, et autres
Publié: (2024)
par: Jang, Lawrence, et autres
Publié: (2024)
Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
par: Yang, Liling, et autres
Publié: (2025)
par: Yang, Liling, et autres
Publié: (2025)
Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
par: Nie, Ming, et autres
Publié: (2026)
par: Nie, Ming, et autres
Publié: (2026)
SMART-Vision: Survey of Modern Action Recognition Techniques in Vision
par: AlShami, Ali K., et autres
Publié: (2025)
par: AlShami, Ali K., et autres
Publié: (2025)
Accelerating Data Processing and Benchmarking of AI Models for Pathology
par: Zhang, Andrew, et autres
Publié: (2025)
par: Zhang, Andrew, et autres
Publié: (2025)
LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation
par: Wang, Jun, et autres
Publié: (2026)
par: Wang, Jun, et autres
Publié: (2026)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
par: Jiao, Qirui, et autres
Publié: (2024)
par: Jiao, Qirui, et autres
Publié: (2024)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models
par: Ding, Xinpeng, et autres
Publié: (2024)
par: Ding, Xinpeng, et autres
Publié: (2024)
C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning
par: Chen, Xiuwei, et autres
Publié: (2025)
par: Chen, Xiuwei, et autres
Publié: (2025)
EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion
par: Lin, Yinheng, et autres
Publié: (2026)
par: Lin, Yinheng, et autres
Publié: (2026)
Mixup Helps Understanding Multimodal Video Better
par: Ma, Xiaoyu, et autres
Publié: (2025)
par: Ma, Xiaoyu, et autres
Publié: (2025)
HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving
par: Ding, Xinpeng, et autres
Publié: (2023)
par: Ding, Xinpeng, et autres
Publié: (2023)
GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
par: Jia, Ding, et autres
Publié: (2024)
par: Jia, Ding, et autres
Publié: (2024)
CaMML: Context-Aware Multimodal Learner for Large Models
par: Chen, Yixin, et autres
Publié: (2024)
par: Chen, Yixin, et autres
Publié: (2024)
Task-Focused Memorization for Multimodal Agents
par: Zou, Tao, et autres
Publié: (2026)
par: Zou, Tao, et autres
Publié: (2026)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
par: Wang, Weiyun, et autres
Publié: (2025)
par: Wang, Weiyun, et autres
Publié: (2025)
Machine Learning Techniques for MRI Data Processing at Expanding Scale
par: Langner, Taro
Publié: (2024)
par: Langner, Taro
Publié: (2024)
PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning
par: Ding, Xinpeng, et autres
Publié: (2025)
par: Ding, Xinpeng, et autres
Publié: (2025)
Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving
par: Zhou, Yuhan, et autres
Publié: (2026)
par: Zhou, Yuhan, et autres
Publié: (2026)
Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
par: Chen, Jiayi, et autres
Publié: (2025)
par: Chen, Jiayi, et autres
Publié: (2025)
Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval
par: Cheng, Hang, et autres
Publié: (2026)
par: Cheng, Hang, et autres
Publié: (2026)
MIRA: Multimodal Iterative Reasoning Agent for Image Editing
par: Zeng, Ziyun, et autres
Publié: (2025)
par: Zeng, Ziyun, et autres
Publié: (2025)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation
par: Ge, Yuying, et autres
Publié: (2024)
par: Ge, Yuying, et autres
Publié: (2024)
Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development
par: Chen, Daoyuan, et autres
Publié: (2024)
par: Chen, Daoyuan, et autres
Publié: (2024)
Multimodal Dataset Distillation via Phased Teacher Models
par: Guo, Shengbin, et autres
Publié: (2026)
par: Guo, Shengbin, et autres
Publié: (2026)
Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis
par: Zheng, Kaiwen, et autres
Publié: (2025)
par: Zheng, Kaiwen, et autres
Publié: (2025)
Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines
par: Kim, Junwan, et autres
Publié: (2026)
par: Kim, Junwan, et autres
Publié: (2026)
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
par: Li, Junxian, et autres
Publié: (2026)
par: Li, Junxian, et autres
Publié: (2026)
Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement
par: Dong, Yuran, et autres
Publié: (2026)
par: Dong, Yuran, et autres
Publié: (2026)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
par: Chen, Zhe, et autres
Publié: (2024)
par: Chen, Zhe, et autres
Publié: (2024)
A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects
par: Wang, Fei, et autres
Publié: (2025)
par: Wang, Fei, et autres
Publié: (2025)
MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models
par: Wu, Mingrui, et autres
Publié: (2026)
par: Wu, Mingrui, et autres
Publié: (2026)
ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining
par: Huang, Zhenyang, et autres
Publié: (2025)
par: Huang, Zhenyang, et autres
Publié: (2025)
GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
par: Han, Ning, et autres
Publié: (2025)
par: Han, Ning, et autres
Publié: (2025)
Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models
par: Wang, Shuai, et autres
Publié: (2025)
par: Wang, Shuai, et autres
Publié: (2025)
Unified Multimodal Models as Auto-Encoders
par: Yan, Zhiyuan, et autres
Publié: (2025)
par: Yan, Zhiyuan, et autres
Publié: (2025)
Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift
par: Qiu, Jielin, et autres
Publié: (2022)
par: Qiu, Jielin, et autres
Publié: (2022)
SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM
par: Nie, Ming, et autres
Publié: (2026)
par: Nie, Ming, et autres
Publié: (2026)
Survey on Fundamental Deep Learning 3D Reconstruction Techniques
par: Bai, Yonge, et autres
Publié: (2024)
par: Bai, Yonge, et autres
Publié: (2024)
Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models
par: Sun, Jingchen, et autres
Publié: (2026)
par: Sun, Jingchen, et autres
Publié: (2026)
Documents similaires
-
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
par: Jang, Lawrence, et autres
Publié: (2024) -
Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
par: Yang, Liling, et autres
Publié: (2025) -
Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
par: Nie, Ming, et autres
Publié: (2026) -
SMART-Vision: Survey of Modern Action Recognition Techniques in Vision
par: AlShami, Ali K., et autres
Publié: (2025) -
Accelerating Data Processing and Benchmarking of AI Models for Pathology
par: Zhang, Andrew, et autres
Publié: (2025)