Enregistré dans:
| Auteurs principaux: | Bai, Hayes, Luo, Yinyi, Wang, Wenwen, Wen, Qingsong, Wang, Jindong |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.11400 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
LatentUMM: Dual Latent Alignment for Unified Multimodal Models
par: Luo, Yinyi, et autres
Publié: (2026)
par: Luo, Yinyi, et autres
Publié: (2026)
UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation
par: Chen, Yanzhe, et autres
Publié: (2025)
par: Chen, Yanzhe, et autres
Publié: (2025)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
par: Li, Yunxin, et autres
Publié: (2024)
par: Li, Yunxin, et autres
Publié: (2024)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
par: Jiang, Jingjing, et autres
Publié: (2025)
par: Jiang, Jingjing, et autres
Publié: (2025)
SVLA: A Unified Speech-Vision-Language Assistant with Multimodal Reasoning and Speech Generation
par: Huynh, Ngoc Dung, et autres
Publié: (2025)
par: Huynh, Ngoc Dung, et autres
Publié: (2025)
UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation
par: Li, Hebeizi, et autres
Publié: (2026)
par: Li, Hebeizi, et autres
Publié: (2026)
MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks
par: Zhang, Lei, et autres
Publié: (2025)
par: Zhang, Lei, et autres
Publié: (2025)
UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval
par: Wen, Haokun, et autres
Publié: (2026)
par: Wen, Haokun, et autres
Publié: (2026)
UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model
par: Li, Junzhe, et autres
Publié: (2025)
par: Li, Junzhe, et autres
Publié: (2025)
Resource-Efficient Reference-Free Evaluation of Audio Captions
par: Mahfuz, Rehana, et autres
Publié: (2024)
par: Mahfuz, Rehana, et autres
Publié: (2024)
Mitigating Multimodal Inconsistency via Cognitive Dual-Pathway Reasoning for Intent Recognition
par: Wang, Yifan, et autres
Publié: (2026)
par: Wang, Yifan, et autres
Publié: (2026)
ArchGPT: Understanding the World's Architectures with Large Multimodal Models
par: Wang, Yuze, et autres
Publié: (2025)
par: Wang, Yuze, et autres
Publié: (2025)
MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
par: Yang, Xiaocui, et autres
Publié: (2024)
par: Yang, Xiaocui, et autres
Publié: (2024)
Augmenting Intra-Modal Understanding in MLLMs for Robust Multimodal Keyphrase Generation
par: Cao, Jiajun, et autres
Publié: (2025)
par: Cao, Jiajun, et autres
Publié: (2025)
Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding
par: Wang, Jieyi, et autres
Publié: (2026)
par: Wang, Jieyi, et autres
Publié: (2026)
Multimodal Classification and Out-of-distribution Detection for Multimodal Intent Understanding
par: Zhang, Hanlei, et autres
Publié: (2024)
par: Zhang, Hanlei, et autres
Publié: (2024)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning
par: Luo, Pengfei, et autres
Publié: (2025)
par: Luo, Pengfei, et autres
Publié: (2025)
Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
par: Zhou, Qianrui, et autres
Publié: (2026)
par: Zhou, Qianrui, et autres
Publié: (2026)
DAT: Dual-Aware Adaptive Transmission for Efficient Multimodal LLM Inference in Edge-Cloud Systems
par: Guo, Qi, et autres
Publié: (2026)
par: Guo, Qi, et autres
Publié: (2026)
Towards Interactive Multimodal Representation of ML Functions for Human Understanding of ML
par: Wang, Bokang, et autres
Publié: (2026)
par: Wang, Bokang, et autres
Publié: (2026)
LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment
par: Hao, Fangyu, et autres
Publié: (2026)
par: Hao, Fangyu, et autres
Publié: (2026)
UniSLU: Unified Spoken Language Understanding from Heterogeneous Cross-Task Datasets
par: Sheng, Zhichao, et autres
Publié: (2025)
par: Sheng, Zhichao, et autres
Publié: (2025)
Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU
par: Mahfuz, Rehana, et autres
Publié: (2026)
par: Mahfuz, Rehana, et autres
Publié: (2026)
Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
par: Lyu, Xiaosen, et autres
Publié: (2025)
par: Lyu, Xiaosen, et autres
Publié: (2025)
Time-RA: Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback
par: Yang, Yiyuan, et autres
Publié: (2025)
par: Yang, Yiyuan, et autres
Publié: (2025)
Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding
par: Pan, Zhaoyan, et autres
Publié: (2026)
par: Pan, Zhaoyan, et autres
Publié: (2026)
UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction
par: Zhang, Zhisheng, et autres
Publié: (2026)
par: Zhang, Zhisheng, et autres
Publié: (2026)
MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique
par: Liu, Shuhang, et autres
Publié: (2025)
par: Liu, Shuhang, et autres
Publié: (2025)
Intelligent Carrier Allocation: A Cross-Modal Reasoning Framework for Adaptive Multimodal Steganography
par: Das, Abhirup, et autres
Publié: (2025)
par: Das, Abhirup, et autres
Publié: (2025)
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
par: Liu, Zhiyuan, et autres
Publié: (2023)
par: Liu, Zhiyuan, et autres
Publié: (2023)
Dark Side of Modalities: Reinforced Multimodal Distillation for Multimodal Knowledge Graph Reasoning
par: Zhao, Yu, et autres
Publié: (2025)
par: Zhao, Yu, et autres
Publié: (2025)
Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems
par: Chen, Xiaolin, et autres
Publié: (2025)
par: Chen, Xiaolin, et autres
Publié: (2025)
TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training
par: Luo, Yinyi, et autres
Publié: (2026)
par: Luo, Yinyi, et autres
Publié: (2026)
Deconfounded Reasoning for Multimodal Fake News Detection via Causal Intervention
par: Liu, Moyang, et autres
Publié: (2025)
par: Liu, Moyang, et autres
Publié: (2025)
SCI-Reason: A Dataset with Chain-of-Thought Rationales for Complex Multimodal Reasoning in Academic Areas
par: Ma, Chenghao, et autres
Publié: (2025)
par: Ma, Chenghao, et autres
Publié: (2025)
Virbo: Multimodal Multilingual Avatar Video Generation in Digital Marketing
par: Zhang, Juan, et autres
Publié: (2024)
par: Zhang, Juan, et autres
Publié: (2024)
DIVA: Harnessing the Representation Divergence in Unified Multimodal Models for Mutual Reinforcement
par: Lu, Renjie, et autres
Publié: (2026)
par: Lu, Renjie, et autres
Publié: (2026)
Learning Shared Sentiment Prototypes for Adaptive Multimodal Sentiment Analysis
par: Su, Chen, et autres
Publié: (2026)
par: Su, Chen, et autres
Publié: (2026)
Interpretable Multimodal Misinformation Detection with Logic Reasoning
par: Liu, Hui, et autres
Publié: (2023)
par: Liu, Hui, et autres
Publié: (2023)
Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
par: Zhou, Baohang, et autres
Publié: (2026)
par: Zhou, Baohang, et autres
Publié: (2026)
Documents similaires
-
LatentUMM: Dual Latent Alignment for Unified Multimodal Models
par: Luo, Yinyi, et autres
Publié: (2026) -
UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation
par: Chen, Yanzhe, et autres
Publié: (2025) -
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
par: Li, Yunxin, et autres
Publié: (2024) -
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
par: Jiang, Jingjing, et autres
Publié: (2025) -
SVLA: A Unified Speech-Vision-Language Assistant with Multimodal Reasoning and Speech Generation
par: Huynh, Ngoc Dung, et autres
Publié: (2025)