:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Bai, Hayes, Luo, Yinyi, Wang, Wenwen, Wen, Qingsong, Wang, Jindong
Format:	Preprint
Publié:	2026
Sujets:	Multimedia
Accès en ligne:	https://arxiv.org/abs/2605.11400
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

LatentUMM: Dual Latent Alignment for Unified Multimodal Models
par: Luo, Yinyi, et autres
Publié: (2026)

UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation
par: Chen, Yanzhe, et autres
Publié: (2025)

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
par: Li, Yunxin, et autres
Publié: (2024)

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation
par: Jiang, Jingjing, et autres
Publié: (2025)

SVLA: A Unified Speech-Vision-Language Assistant with Multimodal Reasoning and Speech Generation
par: Huynh, Ngoc Dung, et autres
Publié: (2025)

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation
par: Li, Hebeizi, et autres
Publié: (2026)

MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks
par: Zhang, Lei, et autres
Publié: (2025)

UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval
par: Wen, Haokun, et autres
Publié: (2026)

UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model
par: Li, Junzhe, et autres
Publié: (2025)

Resource-Efficient Reference-Free Evaluation of Audio Captions
par: Mahfuz, Rehana, et autres
Publié: (2024)

Mitigating Multimodal Inconsistency via Cognitive Dual-Pathway Reasoning for Intent Recognition
par: Wang, Yifan, et autres
Publié: (2026)

ArchGPT: Understanding the World's Architectures with Large Multimodal Models
par: Wang, Yuze, et autres
Publié: (2025)

MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
par: Yang, Xiaocui, et autres
Publié: (2024)

Augmenting Intra-Modal Understanding in MLLMs for Robust Multimodal Keyphrase Generation
par: Cao, Jiajun, et autres
Publié: (2025)

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding
par: Wang, Jieyi, et autres
Publié: (2026)

Multimodal Classification and Out-of-distribution Detection for Multimodal Intent Understanding
par: Zhang, Hanlei, et autres
Publié: (2024)

ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning
par: Luo, Pengfei, et autres
Publié: (2025)

Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
par: Zhou, Qianrui, et autres
Publié: (2026)

DAT: Dual-Aware Adaptive Transmission for Efficient Multimodal LLM Inference in Edge-Cloud Systems
par: Guo, Qi, et autres
Publié: (2026)

Towards Interactive Multimodal Representation of ML Functions for Human Understanding of ML
par: Wang, Bokang, et autres
Publié: (2026)

LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment
par: Hao, Fangyu, et autres
Publié: (2026)

UniSLU: Unified Spoken Language Understanding from Heterogeneous Cross-Task Datasets
par: Sheng, Zhichao, et autres
Publié: (2025)

Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU
par: Mahfuz, Rehana, et autres
Publié: (2026)

Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation
par: Lyu, Xiaosen, et autres
Publié: (2025)

Time-RA: Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback
par: Yang, Yiyuan, et autres
Publié: (2025)

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding
par: Pan, Zhaoyan, et autres
Publié: (2026)

UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction
par: Zhang, Zhisheng, et autres
Publié: (2026)

MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique
par: Liu, Shuhang, et autres
Publié: (2025)

Intelligent Carrier Allocation: A Cross-Modal Reasoning Framework for Adaptive Multimodal Steganography
par: Das, Abhirup, et autres
Publié: (2025)

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
par: Liu, Zhiyuan, et autres
Publié: (2023)

Dark Side of Modalities: Reinforced Multimodal Distillation for Multimodal Knowledge Graph Reasoning
par: Zhao, Yu, et autres
Publié: (2025)

Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems
par: Chen, Xiaolin, et autres
Publié: (2025)

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training
par: Luo, Yinyi, et autres
Publié: (2026)

Deconfounded Reasoning for Multimodal Fake News Detection via Causal Intervention
par: Liu, Moyang, et autres
Publié: (2025)

SCI-Reason: A Dataset with Chain-of-Thought Rationales for Complex Multimodal Reasoning in Academic Areas
par: Ma, Chenghao, et autres
Publié: (2025)

Virbo: Multimodal Multilingual Avatar Video Generation in Digital Marketing
par: Zhang, Juan, et autres
Publié: (2024)

DIVA: Harnessing the Representation Divergence in Unified Multimodal Models for Mutual Reinforcement
par: Lu, Renjie, et autres
Publié: (2026)

Learning Shared Sentiment Prototypes for Adaptive Multimodal Sentiment Analysis
par: Su, Chen, et autres
Publié: (2026)

Interpretable Multimodal Misinformation Detection with Logic Reasoning
par: Liu, Hui, et autres
Publié: (2023)

Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
par: Zhou, Baohang, et autres
Publié: (2026)