:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Pan, Qingtao, Dou, Zhihao, Li, Shuo
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Computation and Language
Accesso online:	https://arxiv.org/abs/2603.11220
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Matryoshka Query Transformer for Large Vision-Language Models
di: Hu, Wenbo, et al.
Pubblicazione: (2024)

Matryoshka Multimodal Models
di: Cai, Mu, et al.
Pubblicazione: (2024)

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
di: Luo, Gen, et al.
Pubblicazione: (2024)

RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models
di: Chen, Haoyu, et al.
Pubblicazione: (2024)

MatMamba: A Matryoshka State Space Model
di: Shukla, Abhinav, et al.
Pubblicazione: (2024)

SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
di: Xu, Mengya, et al.
Pubblicazione: (2025)

Visual Question Decomposition on Multimodal Large Language Models
di: Zhang, Haowei, et al.
Pubblicazione: (2024)

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
di: Luo, Fuwen, et al.
Pubblicazione: (2024)

Kosmos-G: Generating Images in Context with Multimodal Large Language Models
di: Pan, Xichen, et al.
Pubblicazione: (2023)

Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
di: Wang, Zhaokai, et al.
Pubblicazione: (2025)

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
di: Li, Yifan, et al.
Pubblicazione: (2024)

DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation
di: Pan, Qingtao, et al.
Pubblicazione: (2024)

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
di: Luo, Gen, et al.
Pubblicazione: (2025)

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents
di: Liu, Xiao, et al.
Pubblicazione: (2024)

VP-MEL: Visual Prompts Guided Multimodal Entity Linking
di: Mi, Hongze, et al.
Pubblicazione: (2024)

Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
di: Pi, Renjie, et al.
Pubblicazione: (2024)

UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents
di: Ji, Yifan, et al.
Pubblicazione: (2026)

Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection
di: Huang, Jinfa, et al.
Pubblicazione: (2024)

Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models
di: Li, Zhuowan, et al.
Pubblicazione: (2022)

ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
di: Yuan, Qianhao, et al.
Pubblicazione: (2025)

11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
di: Li, Chengzu, et al.
Pubblicazione: (2025)

OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models
di: Dong, Xuanzhao, et al.
Pubblicazione: (2026)

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity
di: Lan, Zhibin, et al.
Pubblicazione: (2024)

OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models
di: Liu, Yuliang, et al.
Pubblicazione: (2023)

Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts
di: Zhu, Zhihao, et al.
Pubblicazione: (2026)

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
di: Hu, Yushi, et al.
Pubblicazione: (2024)

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
di: Hu, Jinyi, et al.
Pubblicazione: (2023)

VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context
di: Li, Yunxin, et al.
Pubblicazione: (2024)

UniChange: Unifying Change Detection with Multimodal Large Language Model
di: Zhang, Xu, et al.
Pubblicazione: (2025)

Visual In-Context Learning for Large Vision-Language Models
di: Zhou, Yucheng, et al.
Pubblicazione: (2024)

VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
di: Qiu, Haoyi, et al.
Pubblicazione: (2024)

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
di: Jian, Pu, et al.
Pubblicazione: (2025)

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
di: Hu, Wenbo, et al.
Pubblicazione: (2024)

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
di: Zhang, Kaichen, et al.
Pubblicazione: (2024)

Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding
di: Chen, Boqi, et al.
Pubblicazione: (2026)

LLAVADI: What Matters For Multimodal Large Language Models Distillation
di: Xu, Shilin, et al.
Pubblicazione: (2024)

Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
di: Rostamkhani, Mohammadmostafa, et al.
Pubblicazione: (2024)

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
di: Wang, Weiyun, et al.
Pubblicazione: (2025)

Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
di: Chen, Jiaxing, et al.
Pubblicazione: (2024)

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
di: Zhang, Wenqiao, et al.
Pubblicazione: (2024)