:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	An, Xiao, Sun, Jiaxing, Hu, Ting, He, Wei
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Multimedia
Accesso online:	https://arxiv.org/abs/2603.28058
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning
di: Sun, Hao, et al.
Pubblicazione: (2024)

Multimodal Interaction Modeling via Self-Supervised Multi-Task Learning for Review Helpfulness Prediction
di: Gong, HongLin, et al.
Pubblicazione: (2024)

MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
di: Yang, Xiaocui, et al.
Pubblicazione: (2024)

MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning
di: Liu, Rex, et al.
Pubblicazione: (2024)

Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
di: Zhou, Baohang, et al.
Pubblicazione: (2026)

DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations
di: Song, Qiya, et al.
Pubblicazione: (2025)

Multimodal Infusion Tuning for Large Models
di: Sun, Hao, et al.
Pubblicazione: (2024)

Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion Model
di: Wei, Xinfeng, et al.
Pubblicazione: (2024)

Zero-Shot Relational Learning for Multimodal Knowledge Graphs
di: Cai, Rui, et al.
Pubblicazione: (2024)

MCSC-Bench: Multimodal Context-to-Script Creation for Realistic Video Production
di: Hu, Huanran, et al.
Pubblicazione: (2026)

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
di: Shukor, Mustafa, et al.
Pubblicazione: (2023)

Learning Video Context as Interleaved Multimodal Sequences
di: Lin, Kevin Qinghong, et al.
Pubblicazione: (2024)

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
di: Cheng, Zebang, et al.
Pubblicazione: (2024)

Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning
di: Tang, Hao, et al.
Pubblicazione: (2025)

MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks
di: Zhang, Lei, et al.
Pubblicazione: (2025)

FineBadminton: A Multi-Level Dataset for Fine-Grained Badminton Video Understanding
di: He, Xusheng, et al.
Pubblicazione: (2025)

Multimodal Graph-Based Variational Mixture of Experts Network for Zero-Shot Multimodal Information Extraction
di: Zhou, Baohang, et al.
Pubblicazione: (2025)

Retrieval Augmented Verification for Zero-Shot Detection of Multimodal Disinformation
di: Dey, Arka Ujjal, et al.
Pubblicazione: (2024)

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
di: Sun, Boyuan, et al.
Pubblicazione: (2025)

MaLoRA: Gated Modality LoRA for Key-Space Alignment in Multimodal LLM Fine-Tuning
di: Zheng, Xinhan, et al.
Pubblicazione: (2025)

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding
di: Pan, Zhaoyan, et al.
Pubblicazione: (2026)

Multi-source Knowledge Enhanced Graph Attention Networks for Multimodal Fact Verification
di: Cao, Han, et al.
Pubblicazione: (2024)

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification
di: Qian, Wenhao, et al.
Pubblicazione: (2025)

High-level Codes and Fine-grained Weights for Online Multi-modal Hashing Retrieval
di: Zhan, Yu-Wei, et al.
Pubblicazione: (2024)

Rethinking Fusion: Disentangled Learning of Shared and Modality-Specific Information for Stance Detection
di: Xie, Zhiyu, et al.
Pubblicazione: (2026)

QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning
di: Chen, Jiun-Man, et al.
Pubblicazione: (2024)

Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval
di: Lin, Haoqiang, et al.
Pubblicazione: (2025)

LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation
di: Wei, Jingxuan, et al.
Pubblicazione: (2025)

Fact-Checking at Scale: Multimodal AI for Authenticity and Context Verification in Online Media
di: Phan, Van-Hoang, et al.
Pubblicazione: (2025)

Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning
di: Liu, Xinwei, et al.
Pubblicazione: (2024)

Beyond Forced Modality Balance: Intrinsic Information Budgets for Multimodal Learning
di: Xiong, Zechang, et al.
Pubblicazione: (2026)

Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion
di: Chen, Sen, et al.
Pubblicazione: (2022)

Simple but Effective Raw-Data Level Multimodal Fusion for Composed Image Retrieval
di: Wen, Haokun, et al.
Pubblicazione: (2024)

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
di: Jiang, Ruixiang, et al.
Pubblicazione: (2025)

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding
di: Sun, Luoyi, et al.
Pubblicazione: (2026)

ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation
di: Peng, Yuezhang, et al.
Pubblicazione: (2025)

SynthGuard: An Open Platform for Detecting AI-Generated Multimedia with Multimodal LLMs
di: Desai, Shail, et al.
Pubblicazione: (2025)

Exploring Transferability of Multimodal Adversarial Samples for Vision-Language Pre-training Models with Contrastive Learning
di: Wang, Youze, et al.
Pubblicazione: (2023)

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation
di: Yan, Feng, et al.
Pubblicazione: (2024)

MInD: Improving Multimodal Sentiment Analysis via Multimodal Information Disentanglement
di: Dai, Weichen, et al.
Pubblicazione: (2024)