:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Miao, Yongzhu, Li, Shasha, Tang, Jintao, Wang, Ting
Format:	Preprint
Veröffentlicht:	2023
Schlagworte:	Computer Vision and Pattern Recognition Computation and Language
Online-Zugang:	https://arxiv.org/abs/2306.11400
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
von: Peng, Wei, et al.
Veröffentlicht: (2025)

Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification
von: Ye, Yaoqin, et al.
Veröffentlicht: (2024)

Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model
von: Ma, Shuailei, et al.
Veröffentlicht: (2023)

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
von: Adhikari, Rabin, et al.
Veröffentlicht: (2024)

Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
von: Liang, Qiao, et al.
Veröffentlicht: (2025)

An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
von: Nie, Yuxiang, et al.
Veröffentlicht: (2025)

VLP: A Survey on Vision-Language Pre-training
von: Chen, Feilong, et al.
Veröffentlicht: (2022)

Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models
von: Kim, Donghoon, et al.
Veröffentlicht: (2024)

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts
von: Hong, Haodong, et al.
Veröffentlicht: (2024)

Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models
von: Liu, Xinyang, et al.
Veröffentlicht: (2023)

Beyond Plain Demos: A Demo-centric Anchoring Paradigm for In-Context Learning in Alzheimer's Disease Detection
von: Su, Puzhen, et al.
Veröffentlicht: (2025)

Explicit Knowledge-Guided In-Context Learning for Early Detection of Alzheimer's Disease
von: Su, Puzhen, et al.
Veröffentlicht: (2025)

Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination
von: Zhong, Xinliu, et al.
Veröffentlicht: (2025)

Anatomical Structure-Guided Medical Vision-Language Pre-training
von: Li, Qingqiu, et al.
Veröffentlicht: (2024)

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey
von: Qi, Yayun, et al.
Veröffentlicht: (2024)

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
von: Zhang, Kaichen, et al.
Veröffentlicht: (2024)

Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning
von: Jie, Shibo, et al.
Veröffentlicht: (2024)

PM4Bench: Benchmarking Large Vision-Language Models with Parallel Multilingual Multi-Modal Multi-task Corpus
von: Gao, Junyuan, et al.
Veröffentlicht: (2025)

Distributionally Robust Alignment for Medical Federated Vision-Language Pre-training Under Data Heterogeneity
von: Shuai, Zitao, et al.
Veröffentlicht: (2024)

Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
von: Mahanta, Cristina, et al.
Veröffentlicht: (2025)

MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
von: Shi, Haojun, et al.
Veröffentlicht: (2024)

Superpixel Semantics Representation and Pre-training for Vision-Language Task
von: Zhang, Siyu, et al.
Veröffentlicht: (2023)

Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning
von: Liang, Zhengyang, et al.
Veröffentlicht: (2024)

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
von: Ohi, Masanari, et al.
Veröffentlicht: (2024)

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
von: Yang, Rui, et al.
Veröffentlicht: (2025)

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
von: Li, Yanwei, et al.
Veröffentlicht: (2024)

DEAP-3DSAM: Decoder Enhanced and Auto Prompt SAM for 3D Medical Image Segmentation
von: Chen, Fangda, et al.
Veröffentlicht: (2025)

Pre-trained Vision-Language Models Learn Discoverable Visual Concepts
von: Zang, Yuan, et al.
Veröffentlicht: (2024)

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
von: Xia, Renqiu, et al.
Veröffentlicht: (2024)

Text Prompt Injection of Vision Language Models
von: Zhu, Ruizhe
Veröffentlicht: (2025)

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
von: Villa, Andrés, et al.
Veröffentlicht: (2023)

Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
von: Wu, Xuyang, et al.
Veröffentlicht: (2024)

Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning
von: Cambrin, Daniele Rege, et al.
Veröffentlicht: (2024)

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
von: Wang, Yanling, et al.
Veröffentlicht: (2025)

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
von: Liu, Zhihang, et al.
Veröffentlicht: (2025)

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
von: Luo, Gen, et al.
Veröffentlicht: (2024)

Vision-centric Token Compression in Large Language Model
von: Xing, Ling, et al.
Veröffentlicht: (2025)

CAST: Cross-modal Alignment Similarity Test for Vision Language Models
von: Dagan, Gautier, et al.
Veröffentlicht: (2024)

VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
von: Luo, Lingxiao, et al.
Veröffentlicht: (2024)

Historical Test-time Prompt Tuning for Vision Foundation Models
von: Zhang, Jingyi, et al.
Veröffentlicht: (2024)