Salvato in:
| Autori principali: | An, Xiao, Sun, Jiaxing, Hu, Ting, He, Wei |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2603.28058 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning
di: Sun, Hao, et al.
Pubblicazione: (2024)
di: Sun, Hao, et al.
Pubblicazione: (2024)
Multimodal Interaction Modeling via Self-Supervised Multi-Task Learning for Review Helpfulness Prediction
di: Gong, HongLin, et al.
Pubblicazione: (2024)
di: Gong, HongLin, et al.
Pubblicazione: (2024)
MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
di: Yang, Xiaocui, et al.
Pubblicazione: (2024)
di: Yang, Xiaocui, et al.
Pubblicazione: (2024)
MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning
di: Liu, Rex, et al.
Pubblicazione: (2024)
di: Liu, Rex, et al.
Pubblicazione: (2024)
Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
di: Zhou, Baohang, et al.
Pubblicazione: (2026)
di: Zhou, Baohang, et al.
Pubblicazione: (2026)
DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations
di: Song, Qiya, et al.
Pubblicazione: (2025)
di: Song, Qiya, et al.
Pubblicazione: (2025)
Multimodal Infusion Tuning for Large Models
di: Sun, Hao, et al.
Pubblicazione: (2024)
di: Sun, Hao, et al.
Pubblicazione: (2024)
Language-oriented Semantic Communication for Image Transmission with Fine-Tuned Diffusion Model
di: Wei, Xinfeng, et al.
Pubblicazione: (2024)
di: Wei, Xinfeng, et al.
Pubblicazione: (2024)
Zero-Shot Relational Learning for Multimodal Knowledge Graphs
di: Cai, Rui, et al.
Pubblicazione: (2024)
di: Cai, Rui, et al.
Pubblicazione: (2024)
MCSC-Bench: Multimodal Context-to-Script Creation for Realistic Video Production
di: Hu, Huanran, et al.
Pubblicazione: (2026)
di: Hu, Huanran, et al.
Pubblicazione: (2026)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
di: Shukor, Mustafa, et al.
Pubblicazione: (2023)
di: Shukor, Mustafa, et al.
Pubblicazione: (2023)
Learning Video Context as Interleaved Multimodal Sequences
di: Lin, Kevin Qinghong, et al.
Pubblicazione: (2024)
di: Lin, Kevin Qinghong, et al.
Pubblicazione: (2024)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
di: Cheng, Zebang, et al.
Pubblicazione: (2024)
di: Cheng, Zebang, et al.
Pubblicazione: (2024)
Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning
di: Tang, Hao, et al.
Pubblicazione: (2025)
di: Tang, Hao, et al.
Pubblicazione: (2025)
MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks
di: Zhang, Lei, et al.
Pubblicazione: (2025)
di: Zhang, Lei, et al.
Pubblicazione: (2025)
FineBadminton: A Multi-Level Dataset for Fine-Grained Badminton Video Understanding
di: He, Xusheng, et al.
Pubblicazione: (2025)
di: He, Xusheng, et al.
Pubblicazione: (2025)
Multimodal Graph-Based Variational Mixture of Experts Network for Zero-Shot Multimodal Information Extraction
di: Zhou, Baohang, et al.
Pubblicazione: (2025)
di: Zhou, Baohang, et al.
Pubblicazione: (2025)
Retrieval Augmented Verification for Zero-Shot Detection of Multimodal Disinformation
di: Dey, Arka Ujjal, et al.
Pubblicazione: (2024)
di: Dey, Arka Ujjal, et al.
Pubblicazione: (2024)
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
di: Sun, Boyuan, et al.
Pubblicazione: (2025)
di: Sun, Boyuan, et al.
Pubblicazione: (2025)
MaLoRA: Gated Modality LoRA for Key-Space Alignment in Multimodal LLM Fine-Tuning
di: Zheng, Xinhan, et al.
Pubblicazione: (2025)
di: Zheng, Xinhan, et al.
Pubblicazione: (2025)
Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding
di: Pan, Zhaoyan, et al.
Pubblicazione: (2026)
di: Pan, Zhaoyan, et al.
Pubblicazione: (2026)
Multi-source Knowledge Enhanced Graph Attention Networks for Multimodal Fact Verification
di: Cao, Han, et al.
Pubblicazione: (2024)
di: Cao, Han, et al.
Pubblicazione: (2024)
Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification
di: Qian, Wenhao, et al.
Pubblicazione: (2025)
di: Qian, Wenhao, et al.
Pubblicazione: (2025)
High-level Codes and Fine-grained Weights for Online Multi-modal Hashing Retrieval
di: Zhan, Yu-Wei, et al.
Pubblicazione: (2024)
di: Zhan, Yu-Wei, et al.
Pubblicazione: (2024)
Rethinking Fusion: Disentangled Learning of Shared and Modality-Specific Information for Stance Detection
di: Xie, Zhiyu, et al.
Pubblicazione: (2026)
di: Xie, Zhiyu, et al.
Pubblicazione: (2026)
QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning
di: Chen, Jiun-Man, et al.
Pubblicazione: (2024)
di: Chen, Jiun-Man, et al.
Pubblicazione: (2024)
Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval
di: Lin, Haoqiang, et al.
Pubblicazione: (2025)
di: Lin, Haoqiang, et al.
Pubblicazione: (2025)
LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation
di: Wei, Jingxuan, et al.
Pubblicazione: (2025)
di: Wei, Jingxuan, et al.
Pubblicazione: (2025)
Fact-Checking at Scale: Multimodal AI for Authenticity and Context Verification in Online Media
di: Phan, Van-Hoang, et al.
Pubblicazione: (2025)
di: Phan, Van-Hoang, et al.
Pubblicazione: (2025)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning
di: Liu, Xinwei, et al.
Pubblicazione: (2024)
di: Liu, Xinwei, et al.
Pubblicazione: (2024)
Beyond Forced Modality Balance: Intrinsic Information Budgets for Multimodal Learning
di: Xiong, Zechang, et al.
Pubblicazione: (2026)
di: Xiong, Zechang, et al.
Pubblicazione: (2026)
Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion
di: Chen, Sen, et al.
Pubblicazione: (2022)
di: Chen, Sen, et al.
Pubblicazione: (2022)
Simple but Effective Raw-Data Level Multimodal Fusion for Composed Image Retrieval
di: Wen, Haokun, et al.
Pubblicazione: (2024)
di: Wen, Haokun, et al.
Pubblicazione: (2024)
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
di: Jiang, Ruixiang, et al.
Pubblicazione: (2025)
di: Jiang, Ruixiang, et al.
Pubblicazione: (2025)
SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding
di: Sun, Luoyi, et al.
Pubblicazione: (2026)
di: Sun, Luoyi, et al.
Pubblicazione: (2026)
ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation
di: Peng, Yuezhang, et al.
Pubblicazione: (2025)
di: Peng, Yuezhang, et al.
Pubblicazione: (2025)
SynthGuard: An Open Platform for Detecting AI-Generated Multimedia with Multimodal LLMs
di: Desai, Shail, et al.
Pubblicazione: (2025)
di: Desai, Shail, et al.
Pubblicazione: (2025)
Exploring Transferability of Multimodal Adversarial Samples for Vision-Language Pre-training Models with Contrastive Learning
di: Wang, Youze, et al.
Pubblicazione: (2023)
di: Wang, Youze, et al.
Pubblicazione: (2023)
RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation
di: Yan, Feng, et al.
Pubblicazione: (2024)
di: Yan, Feng, et al.
Pubblicazione: (2024)
MInD: Improving Multimodal Sentiment Analysis via Multimodal Information Disentanglement
di: Dai, Weichen, et al.
Pubblicazione: (2024)
di: Dai, Weichen, et al.
Pubblicazione: (2024)
Documenti analoghi
-
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning
di: Sun, Hao, et al.
Pubblicazione: (2024) -
Multimodal Interaction Modeling via Self-Supervised Multi-Task Learning for Review Helpfulness Prediction
di: Gong, HongLin, et al.
Pubblicazione: (2024) -
MM-InstructEval: Zero-Shot Evaluation of (Multimodal) Large Language Models on Multimodal Reasoning Tasks
di: Yang, Xiaocui, et al.
Pubblicazione: (2024) -
MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning
di: Liu, Rex, et al.
Pubblicazione: (2024) -
Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
di: Zhou, Baohang, et al.
Pubblicazione: (2026)