Gespeichert in:
| Hauptverfasser: | Miao, Yongzhu, Li, Shasha, Tang, Jintao, Wang, Ting |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2023
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2306.11400 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
von: Peng, Wei, et al.
Veröffentlicht: (2025)
von: Peng, Wei, et al.
Veröffentlicht: (2025)
Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification
von: Ye, Yaoqin, et al.
Veröffentlicht: (2024)
von: Ye, Yaoqin, et al.
Veröffentlicht: (2024)
Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model
von: Ma, Shuailei, et al.
Veröffentlicht: (2023)
von: Ma, Shuailei, et al.
Veröffentlicht: (2023)
TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
von: Adhikari, Rabin, et al.
Veröffentlicht: (2024)
von: Adhikari, Rabin, et al.
Veröffentlicht: (2024)
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
von: Liang, Qiao, et al.
Veröffentlicht: (2025)
von: Liang, Qiao, et al.
Veröffentlicht: (2025)
An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training
von: Nie, Yuxiang, et al.
Veröffentlicht: (2025)
von: Nie, Yuxiang, et al.
Veröffentlicht: (2025)
VLP: A Survey on Vision-Language Pre-training
von: Chen, Feilong, et al.
Veröffentlicht: (2022)
von: Chen, Feilong, et al.
Veröffentlicht: (2022)
Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models
von: Kim, Donghoon, et al.
Veröffentlicht: (2024)
von: Kim, Donghoon, et al.
Veröffentlicht: (2024)
Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts
von: Hong, Haodong, et al.
Veröffentlicht: (2024)
von: Hong, Haodong, et al.
Veröffentlicht: (2024)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models
von: Liu, Xinyang, et al.
Veröffentlicht: (2023)
von: Liu, Xinyang, et al.
Veröffentlicht: (2023)
Beyond Plain Demos: A Demo-centric Anchoring Paradigm for In-Context Learning in Alzheimer's Disease Detection
von: Su, Puzhen, et al.
Veröffentlicht: (2025)
von: Su, Puzhen, et al.
Veröffentlicht: (2025)
Explicit Knowledge-Guided In-Context Learning for Early Detection of Alzheimer's Disease
von: Su, Puzhen, et al.
Veröffentlicht: (2025)
von: Su, Puzhen, et al.
Veröffentlicht: (2025)
Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination
von: Zhong, Xinliu, et al.
Veröffentlicht: (2025)
von: Zhong, Xinliu, et al.
Veröffentlicht: (2025)
Anatomical Structure-Guided Medical Vision-Language Pre-training
von: Li, Qingqiu, et al.
Veröffentlicht: (2024)
von: Li, Qingqiu, et al.
Veröffentlicht: (2024)
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey
von: Qi, Yayun, et al.
Veröffentlicht: (2024)
von: Qi, Yayun, et al.
Veröffentlicht: (2024)
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
von: Zhang, Kaichen, et al.
Veröffentlicht: (2024)
von: Zhang, Kaichen, et al.
Veröffentlicht: (2024)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning
von: Jie, Shibo, et al.
Veröffentlicht: (2024)
von: Jie, Shibo, et al.
Veröffentlicht: (2024)
PM4Bench: Benchmarking Large Vision-Language Models with Parallel Multilingual Multi-Modal Multi-task Corpus
von: Gao, Junyuan, et al.
Veröffentlicht: (2025)
von: Gao, Junyuan, et al.
Veröffentlicht: (2025)
Distributionally Robust Alignment for Medical Federated Vision-Language Pre-training Under Data Heterogeneity
von: Shuai, Zitao, et al.
Veröffentlicht: (2024)
von: Shuai, Zitao, et al.
Veröffentlicht: (2024)
Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
von: Mahanta, Cristina, et al.
Veröffentlicht: (2025)
von: Mahanta, Cristina, et al.
Veröffentlicht: (2025)
MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
von: Shi, Haojun, et al.
Veröffentlicht: (2024)
von: Shi, Haojun, et al.
Veröffentlicht: (2024)
Superpixel Semantics Representation and Pre-training for Vision-Language Task
von: Zhang, Siyu, et al.
Veröffentlicht: (2023)
von: Zhang, Siyu, et al.
Veröffentlicht: (2023)
Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning
von: Liang, Zhengyang, et al.
Veröffentlicht: (2024)
von: Liang, Zhengyang, et al.
Veröffentlicht: (2024)
Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
von: Ohi, Masanari, et al.
Veröffentlicht: (2024)
von: Ohi, Masanari, et al.
Veröffentlicht: (2024)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
von: Yang, Rui, et al.
Veröffentlicht: (2025)
von: Yang, Rui, et al.
Veröffentlicht: (2025)
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
von: Li, Yanwei, et al.
Veröffentlicht: (2024)
von: Li, Yanwei, et al.
Veröffentlicht: (2024)
DEAP-3DSAM: Decoder Enhanced and Auto Prompt SAM for 3D Medical Image Segmentation
von: Chen, Fangda, et al.
Veröffentlicht: (2025)
von: Chen, Fangda, et al.
Veröffentlicht: (2025)
Pre-trained Vision-Language Models Learn Discoverable Visual Concepts
von: Zang, Yuan, et al.
Veröffentlicht: (2024)
von: Zang, Yuan, et al.
Veröffentlicht: (2024)
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
von: Xia, Renqiu, et al.
Veröffentlicht: (2024)
von: Xia, Renqiu, et al.
Veröffentlicht: (2024)
Text Prompt Injection of Vision Language Models
von: Zhu, Ruizhe
Veröffentlicht: (2025)
von: Zhu, Ruizhe
Veröffentlicht: (2025)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models
von: Villa, Andrés, et al.
Veröffentlicht: (2023)
von: Villa, Andrés, et al.
Veröffentlicht: (2023)
Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts
von: Wu, Xuyang, et al.
Veröffentlicht: (2024)
von: Wu, Xuyang, et al.
Veröffentlicht: (2024)
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning
von: Cambrin, Daniele Rege, et al.
Veröffentlicht: (2024)
von: Cambrin, Daniele Rege, et al.
Veröffentlicht: (2024)
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
von: Wang, Yanling, et al.
Veröffentlicht: (2025)
von: Wang, Yanling, et al.
Veröffentlicht: (2025)
Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
von: Liu, Zhihang, et al.
Veröffentlicht: (2025)
von: Liu, Zhihang, et al.
Veröffentlicht: (2025)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
von: Luo, Gen, et al.
Veröffentlicht: (2024)
von: Luo, Gen, et al.
Veröffentlicht: (2024)
Vision-centric Token Compression in Large Language Model
von: Xing, Ling, et al.
Veröffentlicht: (2025)
von: Xing, Ling, et al.
Veröffentlicht: (2025)
CAST: Cross-modal Alignment Similarity Test for Vision Language Models
von: Dagan, Gautier, et al.
Veröffentlicht: (2024)
von: Dagan, Gautier, et al.
Veröffentlicht: (2024)
VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
von: Luo, Lingxiao, et al.
Veröffentlicht: (2024)
von: Luo, Lingxiao, et al.
Veröffentlicht: (2024)
Historical Test-time Prompt Tuning for Vision Foundation Models
von: Zhang, Jingyi, et al.
Veröffentlicht: (2024)
von: Zhang, Jingyi, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models
von: Peng, Wei, et al.
Veröffentlicht: (2025) -
Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification
von: Ye, Yaoqin, et al.
Veröffentlicht: (2024) -
Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model
von: Ma, Shuailei, et al.
Veröffentlicht: (2023) -
TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
von: Adhikari, Rabin, et al.
Veröffentlicht: (2024) -
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
von: Liang, Qiao, et al.
Veröffentlicht: (2025)