:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Liu, Wei, Lin, Jiaxin, Chen, Rui
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition Computation and Language
Online-Zugang:	https://arxiv.org/abs/2605.04566
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
von: Han, Bin, et al.
Veröffentlicht: (2024)

Noise is an Efficient Learner for Zero-Shot Vision-Language Models
von: Imam, Raza, et al.
Veröffentlicht: (2025)

Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval
von: Wang, Xin, et al.
Veröffentlicht: (2025)

Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings
von: Xu, Shengkai, et al.
Veröffentlicht: (2025)

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
von: Hu, Jinyi, et al.
Veröffentlicht: (2023)

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion
von: Allgeuer, Philipp, et al.
Veröffentlicht: (2024)

Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification
von: Weng, Charles, et al.
Veröffentlicht: (2026)

Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models
von: Cai, Yuzhu, et al.
Veröffentlicht: (2024)

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)

ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue
von: Li, Zhangpu, et al.
Veröffentlicht: (2024)

Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)

Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?
von: Lai, Yuxiang, et al.
Veröffentlicht: (2025)

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
von: Wang, Wen, et al.
Veröffentlicht: (2023)

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding
von: Wang, Zhecan, et al.
Veröffentlicht: (2023)

Image-Caption Encoding for Improving Zero-Shot Generalization
von: Yu, Eric Yang, et al.
Veröffentlicht: (2024)

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning
von: Luo, Jianjie, et al.
Veröffentlicht: (2024)

Exploring the Limits of Zero Shot Vision Language Models for Hate Meme Detection: The Vulnerabilities and their Interpretations
von: Rizwan, Naquee, et al.
Veröffentlicht: (2024)

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
von: Belouadi, Jonas, et al.
Veröffentlicht: (2025)

Unifying Vision-Language Latents for Zero-label Image Caption Enhancement
von: Byun, Sanghyun, et al.
Veröffentlicht: (2025)

Zero-Shot Action Recognition in Surveillance Videos
von: Pereira, Joao, et al.
Veröffentlicht: (2024)

Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis
von: Nagar, Aishik, et al.
Veröffentlicht: (2024)

OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
von: Luo, Run, et al.
Veröffentlicht: (2025)

Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
von: Elhenawy, Mohammed, et al.
Veröffentlicht: (2025)

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
von: Xu, Jiacong, et al.
Veröffentlicht: (2025)

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
von: Ye, Jiacheng, et al.
Veröffentlicht: (2025)

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
von: Lozano, Alejandro, et al.
Veröffentlicht: (2025)

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
von: Fan, Jiaxin, et al.
Veröffentlicht: (2026)

Vision Learners Meet Web Image-Text Pairs
von: Zhao, Bingchen, et al.
Veröffentlicht: (2023)

Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models
von: Wei, Canshi
Veröffentlicht: (2024)

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
von: Dong, Ziyi, et al.
Veröffentlicht: (2022)

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence
von: Yang, Shuai, et al.
Veröffentlicht: (2025)

ZONE: Zero-Shot Instruction-Guided Local Editing
von: Li, Shanglin, et al.
Veröffentlicht: (2023)

TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning
von: Feinglass, Joshua, et al.
Veröffentlicht: (2024)

Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning
von: Fuller, Harrison, et al.
Veröffentlicht: (2025)

Zero-Shot Vehicle Model Recognition via Text-Based Retrieval-Augmented Generation
von: Chang, Wei-Chia, et al.
Veröffentlicht: (2025)

Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs
von: Qiao, Yanyuan, et al.
Veröffentlicht: (2024)

Few-Shot Adversarial Prompt Learning on Vision-Language Models
von: Zhou, Yiwei, et al.
Veröffentlicht: (2024)

Enhancing Large Vision Language Models with Self-Training on Image Comprehension
von: Deng, Yihe, et al.
Veröffentlicht: (2024)

Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation
von: He, Jingxuan, et al.
Veröffentlicht: (2026)