:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Chen, Kaixiang, Fang, Pengfei, Xue, Hui
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2605.25479
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

EpiAgent: An Agent-Centric System for Ancient Inscription Restoration
von: Zhu, Shipeng, et al.
Veröffentlicht: (2026)

Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping
von: Zeng, Weili, et al.
Veröffentlicht: (2025)

Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt
von: Ying, Zonghao, et al.
Veröffentlicht: (2024)

EvoCut: Multi-Layer Evolution-Aware Visual Token Compression for Efficient Large Vision-Language Models
von: Lu, Hongyu, et al.
Veröffentlicht: (2026)

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
von: Li, Xu, et al.
Veröffentlicht: (2024)

Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
von: Imran, Muhammad, et al.
Veröffentlicht: (2025)

BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
von: Lv, Song-Lin, et al.
Veröffentlicht: (2025)

Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion
von: Li, Timing, et al.
Veröffentlicht: (2025)

GLAD: Generalizable Tuning for Vision-Language Models
von: Peng, Yuqi, et al.
Veröffentlicht: (2025)

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)

Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
von: Wang, Yu, et al.
Veröffentlicht: (2024)

Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval
von: Yang, Jing, et al.
Veröffentlicht: (2026)

PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution
von: Zhao, Zuoyan, et al.
Veröffentlicht: (2023)

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning
von: Li, Wenqian, et al.
Veröffentlicht: (2026)

PEARL: Input-Agnostic Prompt Enhancement with Negative Feedback Regulation for Class-Incremental Learning
von: Qin, Yongchun, et al.
Veröffentlicht: (2024)

On Distilling the Displacement Knowledge for Few-Shot Class-Incremental Learning
von: Fang, Pengfei, et al.
Veröffentlicht: (2024)

SVasP: Self-Versatility Adversarial Style Perturbation for Cross-Domain Few-Shot Learning
von: Li, Wenqian, et al.
Veröffentlicht: (2024)

Adaptive Vision-Language Model Routing for Computer Use Agents
von: Liu, Xunzhuo, et al.
Veröffentlicht: (2026)

VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models
von: Cheng, Silin, et al.
Veröffentlicht: (2025)

BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation
von: Chen, Jialei, et al.
Veröffentlicht: (2025)

VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models
von: Wang, Chenyu, et al.
Veröffentlicht: (2026)

Text Image Inpainting via Global Structure-Guided Diffusion Models
von: Zhu, Shipeng, et al.
Veröffentlicht: (2024)

MMRL: Multi-Modal Representation Learning for Vision-Language Models
von: Guo, Yuncheng, et al.
Veröffentlicht: (2025)

Multi-Modal Adapter for Vision-Language Models
von: Seputis, Dominykas, et al.
Veröffentlicht: (2024)

MultiMedVision: Multi-Modal Medical Vision Framework
von: Li, Frank, et al.
Veröffentlicht: (2026)

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
von: Luo, Chuwei, et al.
Veröffentlicht: (2022)

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
von: Guo, Jianing, et al.
Veröffentlicht: (2025)

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration
von: Duan, Chen, et al.
Veröffentlicht: (2026)

Adjoint Inversion Reveals Holographic Superposition and Destructive Interference in CNN Classifiers
von: Shu, Kaixiang
Veröffentlicht: (2026)

Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models
von: Truong, Thanh-Dat, et al.
Veröffentlicht: (2025)

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
von: Guo, Xiao, et al.
Veröffentlicht: (2025)

DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention
von: Long, Nguyen Huu Bao, et al.
Veröffentlicht: (2024)

Beyond Augmentation: Cross-Modal Transformer Fusion with Bi-directional Attention for Low-Data Aneurysm Screening
von: Titikhsha, Antara, et al.
Veröffentlicht: (2025)

Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
von: Lv, Weiyi, et al.
Veröffentlicht: (2025)

DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation
von: Lv, Qingxuan, et al.
Veröffentlicht: (2023)

Majorization-Guided Test-Time Adaptation for Vision-Language Models under Modality-Specific Shift
von: Chen, Lixian, et al.
Veröffentlicht: (2026)

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)

Knowledge Distillation Based on Transformed Teacher Matching
von: Zheng, Kaixiang, et al.
Veröffentlicht: (2024)

Cross-Modal Attention Guided Unlearning in Vision-Language Models
von: Bhaila, Karuna, et al.
Veröffentlicht: (2025)

MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
von: Cao, Yue, et al.
Veröffentlicht: (2024)