Gespeichert in:
| Hauptverfasser: | Chen, Kaixiang, Fang, Pengfei, Xue, Hui |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.25479 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
EpiAgent: An Agent-Centric System for Ancient Inscription Restoration
von: Zhu, Shipeng, et al.
Veröffentlicht: (2026)
von: Zhu, Shipeng, et al.
Veröffentlicht: (2026)
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping
von: Zeng, Weili, et al.
Veröffentlicht: (2025)
von: Zeng, Weili, et al.
Veröffentlicht: (2025)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt
von: Ying, Zonghao, et al.
Veröffentlicht: (2024)
von: Ying, Zonghao, et al.
Veröffentlicht: (2024)
EvoCut: Multi-Layer Evolution-Aware Visual Token Compression for Efficient Large Vision-Language Models
von: Lu, Hongyu, et al.
Veröffentlicht: (2026)
von: Lu, Hongyu, et al.
Veröffentlicht: (2026)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
von: Li, Xu, et al.
Veröffentlicht: (2024)
von: Li, Xu, et al.
Veröffentlicht: (2024)
Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
von: Imran, Muhammad, et al.
Veröffentlicht: (2025)
von: Imran, Muhammad, et al.
Veröffentlicht: (2025)
BMIP: Bi-directional Modality Interaction Prompt Learning for VLM
von: Lv, Song-Lin, et al.
Veröffentlicht: (2025)
von: Lv, Song-Lin, et al.
Veröffentlicht: (2025)
Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion
von: Li, Timing, et al.
Veröffentlicht: (2025)
von: Li, Timing, et al.
Veröffentlicht: (2025)
GLAD: Generalizable Tuning for Vision-Language Models
von: Peng, Yuqi, et al.
Veröffentlicht: (2025)
von: Peng, Yuqi, et al.
Veröffentlicht: (2025)
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)
von: Lei, Xuanyu, et al.
Veröffentlicht: (2024)
Jailbreak Large Vision-Language Models Through Multi-Modal Linkage
von: Wang, Yu, et al.
Veröffentlicht: (2024)
von: Wang, Yu, et al.
Veröffentlicht: (2024)
Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval
von: Yang, Jing, et al.
Veröffentlicht: (2026)
von: Yang, Jing, et al.
Veröffentlicht: (2026)
PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution
von: Zhao, Zuoyan, et al.
Veröffentlicht: (2023)
von: Zhao, Zuoyan, et al.
Veröffentlicht: (2023)
SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning
von: Li, Wenqian, et al.
Veröffentlicht: (2026)
von: Li, Wenqian, et al.
Veröffentlicht: (2026)
PEARL: Input-Agnostic Prompt Enhancement with Negative Feedback Regulation for Class-Incremental Learning
von: Qin, Yongchun, et al.
Veröffentlicht: (2024)
von: Qin, Yongchun, et al.
Veröffentlicht: (2024)
On Distilling the Displacement Knowledge for Few-Shot Class-Incremental Learning
von: Fang, Pengfei, et al.
Veröffentlicht: (2024)
von: Fang, Pengfei, et al.
Veröffentlicht: (2024)
SVasP: Self-Versatility Adversarial Style Perturbation for Cross-Domain Few-Shot Learning
von: Li, Wenqian, et al.
Veröffentlicht: (2024)
von: Li, Wenqian, et al.
Veröffentlicht: (2024)
Adaptive Vision-Language Model Routing for Computer Use Agents
von: Liu, Xunzhuo, et al.
Veröffentlicht: (2026)
von: Liu, Xunzhuo, et al.
Veröffentlicht: (2026)
VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models
von: Cheng, Silin, et al.
Veröffentlicht: (2025)
von: Cheng, Silin, et al.
Veröffentlicht: (2025)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation
von: Chen, Jialei, et al.
Veröffentlicht: (2025)
von: Chen, Jialei, et al.
Veröffentlicht: (2025)
VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models
von: Wang, Chenyu, et al.
Veröffentlicht: (2026)
von: Wang, Chenyu, et al.
Veröffentlicht: (2026)
Text Image Inpainting via Global Structure-Guided Diffusion Models
von: Zhu, Shipeng, et al.
Veröffentlicht: (2024)
von: Zhu, Shipeng, et al.
Veröffentlicht: (2024)
MMRL: Multi-Modal Representation Learning for Vision-Language Models
von: Guo, Yuncheng, et al.
Veröffentlicht: (2025)
von: Guo, Yuncheng, et al.
Veröffentlicht: (2025)
Multi-Modal Adapter for Vision-Language Models
von: Seputis, Dominykas, et al.
Veröffentlicht: (2024)
von: Seputis, Dominykas, et al.
Veröffentlicht: (2024)
MultiMedVision: Multi-Modal Medical Vision Framework
von: Li, Frank, et al.
Veröffentlicht: (2026)
von: Li, Frank, et al.
Veröffentlicht: (2026)
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
von: Luo, Chuwei, et al.
Veröffentlicht: (2022)
von: Luo, Chuwei, et al.
Veröffentlicht: (2022)
On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
von: Guo, Jianing, et al.
Veröffentlicht: (2025)
von: Guo, Jianing, et al.
Veröffentlicht: (2025)
PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration
von: Duan, Chen, et al.
Veröffentlicht: (2026)
von: Duan, Chen, et al.
Veröffentlicht: (2026)
Adjoint Inversion Reveals Holographic Superposition and Destructive Interference in CNN Classifiers
von: Shu, Kaixiang
Veröffentlicht: (2026)
von: Shu, Kaixiang
Veröffentlicht: (2026)
Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models
von: Truong, Thanh-Dat, et al.
Veröffentlicht: (2025)
von: Truong, Thanh-Dat, et al.
Veröffentlicht: (2025)
Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector
von: Guo, Xiao, et al.
Veröffentlicht: (2025)
von: Guo, Xiao, et al.
Veröffentlicht: (2025)
DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention
von: Long, Nguyen Huu Bao, et al.
Veröffentlicht: (2024)
von: Long, Nguyen Huu Bao, et al.
Veröffentlicht: (2024)
Beyond Augmentation: Cross-Modal Transformer Fusion with Bi-directional Attention for Low-Data Aneurysm Screening
von: Titikhsha, Antara, et al.
Veröffentlicht: (2025)
von: Titikhsha, Antara, et al.
Veröffentlicht: (2025)
Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
von: Lv, Weiyi, et al.
Veröffentlicht: (2025)
von: Lv, Weiyi, et al.
Veröffentlicht: (2025)
DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation
von: Lv, Qingxuan, et al.
Veröffentlicht: (2023)
von: Lv, Qingxuan, et al.
Veröffentlicht: (2023)
Majorization-Guided Test-Time Adaptation for Vision-Language Models under Modality-Specific Shift
von: Chen, Lixian, et al.
Veröffentlicht: (2026)
von: Chen, Lixian, et al.
Veröffentlicht: (2026)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)
von: Zhu, Tinghui, et al.
Veröffentlicht: (2024)
Knowledge Distillation Based on Transformed Teacher Matching
von: Zheng, Kaixiang, et al.
Veröffentlicht: (2024)
von: Zheng, Kaixiang, et al.
Veröffentlicht: (2024)
Cross-Modal Attention Guided Unlearning in Vision-Language Models
von: Bhaila, Karuna, et al.
Veröffentlicht: (2025)
von: Bhaila, Karuna, et al.
Veröffentlicht: (2025)
MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
von: Cao, Yue, et al.
Veröffentlicht: (2024)
von: Cao, Yue, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
EpiAgent: An Agent-Centric System for Ancient Inscription Restoration
von: Zhu, Shipeng, et al.
Veröffentlicht: (2026) -
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping
von: Zeng, Weili, et al.
Veröffentlicht: (2025) -
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt
von: Ying, Zonghao, et al.
Veröffentlicht: (2024) -
EvoCut: Multi-Layer Evolution-Aware Visual Token Compression for Efficient Large Vision-Language Models
von: Lu, Hongyu, et al.
Veröffentlicht: (2026) -
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
von: Li, Xu, et al.
Veröffentlicht: (2024)