Salvato in:
| Autori principali: | Pan, Qingtao, Dou, Zhihao, Li, Shuo |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2603.11220 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Matryoshka Query Transformer for Large Vision-Language Models
di: Hu, Wenbo, et al.
Pubblicazione: (2024)
di: Hu, Wenbo, et al.
Pubblicazione: (2024)
Matryoshka Multimodal Models
di: Cai, Mu, et al.
Pubblicazione: (2024)
di: Cai, Mu, et al.
Pubblicazione: (2024)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
di: Luo, Gen, et al.
Pubblicazione: (2024)
di: Luo, Gen, et al.
Pubblicazione: (2024)
RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models
di: Chen, Haoyu, et al.
Pubblicazione: (2024)
di: Chen, Haoyu, et al.
Pubblicazione: (2024)
MatMamba: A Matryoshka State Space Model
di: Shukla, Abhinav, et al.
Pubblicazione: (2024)
di: Shukla, Abhinav, et al.
Pubblicazione: (2024)
SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
di: Xu, Mengya, et al.
Pubblicazione: (2025)
di: Xu, Mengya, et al.
Pubblicazione: (2025)
Visual Question Decomposition on Multimodal Large Language Models
di: Zhang, Haowei, et al.
Pubblicazione: (2024)
di: Zhang, Haowei, et al.
Pubblicazione: (2024)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
di: Luo, Fuwen, et al.
Pubblicazione: (2024)
di: Luo, Fuwen, et al.
Pubblicazione: (2024)
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
di: Pan, Xichen, et al.
Pubblicazione: (2023)
di: Pan, Xichen, et al.
Pubblicazione: (2023)
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
di: Wang, Zhaokai, et al.
Pubblicazione: (2025)
di: Wang, Zhaokai, et al.
Pubblicazione: (2025)
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
di: Li, Yifan, et al.
Pubblicazione: (2024)
di: Li, Yifan, et al.
Pubblicazione: (2024)
DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation
di: Pan, Qingtao, et al.
Pubblicazione: (2024)
di: Pan, Qingtao, et al.
Pubblicazione: (2024)
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
di: Luo, Gen, et al.
Pubblicazione: (2025)
di: Luo, Gen, et al.
Pubblicazione: (2025)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
di: Liu, Xiao, et al.
Pubblicazione: (2024)
di: Liu, Xiao, et al.
Pubblicazione: (2024)
VP-MEL: Visual Prompts Guided Multimodal Entity Linking
di: Mi, Hongze, et al.
Pubblicazione: (2024)
di: Mi, Hongze, et al.
Pubblicazione: (2024)
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
di: Pi, Renjie, et al.
Pubblicazione: (2024)
di: Pi, Renjie, et al.
Pubblicazione: (2024)
UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents
di: Ji, Yifan, et al.
Pubblicazione: (2026)
di: Ji, Yifan, et al.
Pubblicazione: (2026)
Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection
di: Huang, Jinfa, et al.
Pubblicazione: (2024)
di: Huang, Jinfa, et al.
Pubblicazione: (2024)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models
di: Li, Zhuowan, et al.
Pubblicazione: (2022)
di: Li, Zhuowan, et al.
Pubblicazione: (2022)
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
di: Yuan, Qianhao, et al.
Pubblicazione: (2025)
di: Yuan, Qianhao, et al.
Pubblicazione: (2025)
11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
di: Li, Chengzu, et al.
Pubblicazione: (2025)
di: Li, Chengzu, et al.
Pubblicazione: (2025)
OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models
di: Dong, Xuanzhao, et al.
Pubblicazione: (2026)
di: Dong, Xuanzhao, et al.
Pubblicazione: (2026)
AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity
di: Lan, Zhibin, et al.
Pubblicazione: (2024)
di: Lan, Zhibin, et al.
Pubblicazione: (2024)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models
di: Liu, Yuliang, et al.
Pubblicazione: (2023)
di: Liu, Yuliang, et al.
Pubblicazione: (2023)
Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts
di: Zhu, Zhihao, et al.
Pubblicazione: (2026)
di: Zhu, Zhihao, et al.
Pubblicazione: (2026)
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
di: Hu, Yushi, et al.
Pubblicazione: (2024)
di: Hu, Yushi, et al.
Pubblicazione: (2024)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
di: Hu, Jinyi, et al.
Pubblicazione: (2023)
di: Hu, Jinyi, et al.
Pubblicazione: (2023)
VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context
di: Li, Yunxin, et al.
Pubblicazione: (2024)
di: Li, Yunxin, et al.
Pubblicazione: (2024)
UniChange: Unifying Change Detection with Multimodal Large Language Model
di: Zhang, Xu, et al.
Pubblicazione: (2025)
di: Zhang, Xu, et al.
Pubblicazione: (2025)
Visual In-Context Learning for Large Vision-Language Models
di: Zhou, Yucheng, et al.
Pubblicazione: (2024)
di: Zhou, Yucheng, et al.
Pubblicazione: (2024)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
di: Qiu, Haoyi, et al.
Pubblicazione: (2024)
di: Qiu, Haoyi, et al.
Pubblicazione: (2024)
Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
di: Jian, Pu, et al.
Pubblicazione: (2025)
di: Jian, Pu, et al.
Pubblicazione: (2025)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
di: Hu, Wenbo, et al.
Pubblicazione: (2024)
di: Hu, Wenbo, et al.
Pubblicazione: (2024)
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
di: Zhang, Kaichen, et al.
Pubblicazione: (2024)
di: Zhang, Kaichen, et al.
Pubblicazione: (2024)
Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding
di: Chen, Boqi, et al.
Pubblicazione: (2026)
di: Chen, Boqi, et al.
Pubblicazione: (2026)
LLAVADI: What Matters For Multimodal Large Language Models Distillation
di: Xu, Shilin, et al.
Pubblicazione: (2024)
di: Xu, Shilin, et al.
Pubblicazione: (2024)
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
di: Rostamkhani, Mohammadmostafa, et al.
Pubblicazione: (2024)
di: Rostamkhani, Mohammadmostafa, et al.
Pubblicazione: (2024)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
di: Wang, Weiyun, et al.
Pubblicazione: (2025)
di: Wang, Weiyun, et al.
Pubblicazione: (2025)
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
di: Chen, Jiaxing, et al.
Pubblicazione: (2024)
di: Chen, Jiaxing, et al.
Pubblicazione: (2024)
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
di: Zhang, Wenqiao, et al.
Pubblicazione: (2024)
di: Zhang, Wenqiao, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Matryoshka Query Transformer for Large Vision-Language Models
di: Hu, Wenbo, et al.
Pubblicazione: (2024) -
Matryoshka Multimodal Models
di: Cai, Mu, et al.
Pubblicazione: (2024) -
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
di: Luo, Gen, et al.
Pubblicazione: (2024) -
RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models
di: Chen, Haoyu, et al.
Pubblicazione: (2024) -
MatMamba: A Matryoshka State Space Model
di: Shukla, Abhinav, et al.
Pubblicazione: (2024)