Gespeichert in:
| Hauptverfasser: | Liu, Wei, Lin, Jiaxin, Chen, Rui |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.04566 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
von: Han, Bin, et al.
Veröffentlicht: (2024)
von: Han, Bin, et al.
Veröffentlicht: (2024)
Noise is an Efficient Learner for Zero-Shot Vision-Language Models
von: Imam, Raza, et al.
Veröffentlicht: (2025)
von: Imam, Raza, et al.
Veröffentlicht: (2025)
Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval
von: Wang, Xin, et al.
Veröffentlicht: (2025)
von: Wang, Xin, et al.
Veröffentlicht: (2025)
Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings
von: Xu, Shengkai, et al.
Veröffentlicht: (2025)
von: Xu, Shengkai, et al.
Veröffentlicht: (2025)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
von: Hu, Jinyi, et al.
Veröffentlicht: (2023)
von: Hu, Jinyi, et al.
Veröffentlicht: (2023)
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion
von: Allgeuer, Philipp, et al.
Veröffentlicht: (2024)
von: Allgeuer, Philipp, et al.
Veröffentlicht: (2024)
Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification
von: Weng, Charles, et al.
Veröffentlicht: (2026)
von: Weng, Charles, et al.
Veröffentlicht: (2026)
Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models
von: Cai, Yuzhu, et al.
Veröffentlicht: (2024)
von: Cai, Yuzhu, et al.
Veröffentlicht: (2024)
Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue
von: Li, Zhangpu, et al.
Veröffentlicht: (2024)
von: Li, Zhangpu, et al.
Veröffentlicht: (2024)
Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)
von: Chen, Qizhou, et al.
Veröffentlicht: (2024)
Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?
von: Lai, Yuxiang, et al.
Veröffentlicht: (2025)
von: Lai, Yuxiang, et al.
Veröffentlicht: (2025)
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
von: Wang, Wen, et al.
Veröffentlicht: (2023)
von: Wang, Wen, et al.
Veröffentlicht: (2023)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding
von: Wang, Zhecan, et al.
Veröffentlicht: (2023)
von: Wang, Zhecan, et al.
Veröffentlicht: (2023)
Image-Caption Encoding for Improving Zero-Shot Generalization
von: Yu, Eric Yang, et al.
Veröffentlicht: (2024)
von: Yu, Eric Yang, et al.
Veröffentlicht: (2024)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning
von: Luo, Jianjie, et al.
Veröffentlicht: (2024)
von: Luo, Jianjie, et al.
Veröffentlicht: (2024)
Exploring the Limits of Zero Shot Vision Language Models for Hate Meme Detection: The Vulnerabilities and their Interpretations
von: Rizwan, Naquee, et al.
Veröffentlicht: (2024)
von: Rizwan, Naquee, et al.
Veröffentlicht: (2024)
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
von: Belouadi, Jonas, et al.
Veröffentlicht: (2025)
von: Belouadi, Jonas, et al.
Veröffentlicht: (2025)
Unifying Vision-Language Latents for Zero-label Image Caption Enhancement
von: Byun, Sanghyun, et al.
Veröffentlicht: (2025)
von: Byun, Sanghyun, et al.
Veröffentlicht: (2025)
Zero-Shot Action Recognition in Surveillance Videos
von: Pereira, Joao, et al.
Veröffentlicht: (2024)
von: Pereira, Joao, et al.
Veröffentlicht: (2024)
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis
von: Nagar, Aishik, et al.
Veröffentlicht: (2024)
von: Nagar, Aishik, et al.
Veröffentlicht: (2024)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
von: Luo, Run, et al.
Veröffentlicht: (2025)
von: Luo, Run, et al.
Veröffentlicht: (2025)
Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
von: Elhenawy, Mohammed, et al.
Veröffentlicht: (2025)
von: Elhenawy, Mohammed, et al.
Veröffentlicht: (2025)
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
von: Xu, Jiacong, et al.
Veröffentlicht: (2025)
von: Xu, Jiacong, et al.
Veröffentlicht: (2025)
Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)
von: Zhang, Juntian, et al.
Veröffentlicht: (2025)
Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
von: Ye, Jiacheng, et al.
Veröffentlicht: (2025)
von: Ye, Jiacheng, et al.
Veröffentlicht: (2025)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
von: Lozano, Alejandro, et al.
Veröffentlicht: (2025)
von: Lozano, Alejandro, et al.
Veröffentlicht: (2025)
VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
von: Fan, Jiaxin, et al.
Veröffentlicht: (2026)
von: Fan, Jiaxin, et al.
Veröffentlicht: (2026)
Vision Learners Meet Web Image-Text Pairs
von: Zhao, Bingchen, et al.
Veröffentlicht: (2023)
von: Zhao, Bingchen, et al.
Veröffentlicht: (2023)
Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models
von: Wei, Canshi
Veröffentlicht: (2024)
von: Wei, Canshi
Veröffentlicht: (2024)
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
von: Dong, Ziyi, et al.
Veröffentlicht: (2022)
von: Dong, Ziyi, et al.
Veröffentlicht: (2022)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence
von: Yang, Shuai, et al.
Veröffentlicht: (2025)
von: Yang, Shuai, et al.
Veröffentlicht: (2025)
ZONE: Zero-Shot Instruction-Guided Local Editing
von: Li, Shanglin, et al.
Veröffentlicht: (2023)
von: Li, Shanglin, et al.
Veröffentlicht: (2023)
TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning
von: Feinglass, Joshua, et al.
Veröffentlicht: (2024)
von: Feinglass, Joshua, et al.
Veröffentlicht: (2024)
Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning
von: Fuller, Harrison, et al.
Veröffentlicht: (2025)
von: Fuller, Harrison, et al.
Veröffentlicht: (2025)
Zero-Shot Vehicle Model Recognition via Text-Based Retrieval-Augmented Generation
von: Chang, Wei-Chia, et al.
Veröffentlicht: (2025)
von: Chang, Wei-Chia, et al.
Veröffentlicht: (2025)
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs
von: Qiao, Yanyuan, et al.
Veröffentlicht: (2024)
von: Qiao, Yanyuan, et al.
Veröffentlicht: (2024)
Few-Shot Adversarial Prompt Learning on Vision-Language Models
von: Zhou, Yiwei, et al.
Veröffentlicht: (2024)
von: Zhou, Yiwei, et al.
Veröffentlicht: (2024)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension
von: Deng, Yihe, et al.
Veröffentlicht: (2024)
von: Deng, Yihe, et al.
Veröffentlicht: (2024)
Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation
von: He, Jingxuan, et al.
Veröffentlicht: (2026)
von: He, Jingxuan, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
von: Han, Bin, et al.
Veröffentlicht: (2024) -
Noise is an Efficient Learner for Zero-Shot Vision-Language Models
von: Imam, Raza, et al.
Veröffentlicht: (2025) -
Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval
von: Wang, Xin, et al.
Veröffentlicht: (2025) -
Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings
von: Xu, Shengkai, et al.
Veröffentlicht: (2025) -
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
von: Hu, Jinyi, et al.
Veröffentlicht: (2023)