Gespeichert in:
| Hauptverfasser: | Pang, Jianhong, Cheng, Ruoxi, Ye, Ziyi, Ma, Xingjun, Wu, Zuxuan, Huang, Xuanjing, Jiang, Yu-Gang |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2604.06714 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Adversarial Orthogonal Disentanglement for LVLM Hallucination Mitigation
von: Cheng, Ruoxi, et al.
Veröffentlicht: (2026)
von: Cheng, Ruoxi, et al.
Veröffentlicht: (2026)
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers
von: Zheng, Weijie, et al.
Veröffentlicht: (2024)
von: Zheng, Weijie, et al.
Veröffentlicht: (2024)
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
von: Zhou, Ziwei, et al.
Veröffentlicht: (2025)
von: Zhou, Ziwei, et al.
Veröffentlicht: (2025)
FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
von: Li, Peng, et al.
Veröffentlicht: (2026)
von: Li, Peng, et al.
Veröffentlicht: (2026)
Taming Object Hallucinations with Verified Atomic Confidence Estimation
von: Liu, Jiarui, et al.
Veröffentlicht: (2025)
von: Liu, Jiarui, et al.
Veröffentlicht: (2025)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
von: Xing, Zhen, et al.
Veröffentlicht: (2024)
von: Xing, Zhen, et al.
Veröffentlicht: (2024)
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
von: Chen, Yitong, et al.
Veröffentlicht: (2025)
von: Chen, Yitong, et al.
Veröffentlicht: (2025)
Learning Accurate Segmentation Purely from Self-Supervision
von: You, Zuyao, et al.
Veröffentlicht: (2026)
von: You, Zuyao, et al.
Veröffentlicht: (2026)
DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions
von: Wang, Xinran, et al.
Veröffentlicht: (2026)
von: Wang, Xinran, et al.
Veröffentlicht: (2026)
BadPatch: Diffusion-Based Generation of Physical Adversarial Patches
von: Wang, Zhixiang, et al.
Veröffentlicht: (2024)
von: Wang, Zhixiang, et al.
Veröffentlicht: (2024)
Mitigating Multimodal Hallucination via Phase-wise Self-reward
von: Zhang, Yu, et al.
Veröffentlicht: (2026)
von: Zhang, Yu, et al.
Veröffentlicht: (2026)
Multimodal Referring Segmentation: A Survey
von: Ding, Henghui, et al.
Veröffentlicht: (2025)
von: Ding, Henghui, et al.
Veröffentlicht: (2025)
VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models
von: Si, Shengyu, et al.
Veröffentlicht: (2026)
von: Si, Shengyu, et al.
Veröffentlicht: (2026)
World Action Models: The Next Frontier in Embodied AI
von: Wang, Siyin, et al.
Veröffentlicht: (2026)
von: Wang, Siyin, et al.
Veröffentlicht: (2026)
White-box Multimodal Jailbreaks Against Large Vision-Language Models
von: Wang, Ruofan, et al.
Veröffentlicht: (2024)
von: Wang, Ruofan, et al.
Veröffentlicht: (2024)
FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models
von: Wang, Xin, et al.
Veröffentlicht: (2025)
von: Wang, Xin, et al.
Veröffentlicht: (2025)
VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
von: Wang, Zihu, et al.
Veröffentlicht: (2025)
von: Wang, Zihu, et al.
Veröffentlicht: (2025)
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models
von: Zhong, Weihong, et al.
Veröffentlicht: (2024)
von: Zhong, Weihong, et al.
Veröffentlicht: (2024)
Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models
von: Liu, Peiju, et al.
Veröffentlicht: (2026)
von: Liu, Peiju, et al.
Veröffentlicht: (2026)
Generative Universal Verifier as Multimodal Meta-Reasoner
von: Zhang, Xinchen, et al.
Veröffentlicht: (2025)
von: Zhang, Xinchen, et al.
Veröffentlicht: (2025)
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base
von: Nguyen, Cong-Duy, et al.
Veröffentlicht: (2025)
von: Nguyen, Cong-Duy, et al.
Veröffentlicht: (2025)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
von: Shuai, Xincheng, et al.
Veröffentlicht: (2024)
von: Shuai, Xincheng, et al.
Veröffentlicht: (2024)
ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding
von: Yang, Jianjiang, et al.
Veröffentlicht: (2025)
von: Yang, Jianjiang, et al.
Veröffentlicht: (2025)
Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data
von: Whitehead, Spencer, et al.
Veröffentlicht: (2024)
von: Whitehead, Spencer, et al.
Veröffentlicht: (2024)
Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
von: Wang, Shan, et al.
Veröffentlicht: (2025)
von: Wang, Shan, et al.
Veröffentlicht: (2025)
Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation
von: Hua, Zhenglin, et al.
Veröffentlicht: (2025)
von: Hua, Zhenglin, et al.
Veröffentlicht: (2025)
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models
von: Xing, Shangyu, et al.
Veröffentlicht: (2024)
von: Xing, Shangyu, et al.
Veröffentlicht: (2024)
Mitigating Object Hallucinations in MLLMs via Multi-Frequency Perturbations
von: Li, Shuo, et al.
Veröffentlicht: (2025)
von: Li, Shuo, et al.
Veröffentlicht: (2025)
Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval
von: Zou, Zichen, et al.
Veröffentlicht: (2026)
von: Zou, Zichen, et al.
Veröffentlicht: (2026)
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation
von: Chen, Haoran, et al.
Veröffentlicht: (2022)
von: Chen, Haoran, et al.
Veröffentlicht: (2022)
GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting
von: Feng, Qijun, et al.
Veröffentlicht: (2024)
von: Feng, Qijun, et al.
Veröffentlicht: (2024)
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
von: Chen, Yitong, et al.
Veröffentlicht: (2026)
von: Chen, Yitong, et al.
Veröffentlicht: (2026)
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation
von: Zhang, Hui, et al.
Veröffentlicht: (2024)
von: Zhang, Hui, et al.
Veröffentlicht: (2024)
VLSBench: Unveiling Visual Leakage in Multimodal Safety
von: Hu, Xuhao, et al.
Veröffentlicht: (2024)
von: Hu, Xuhao, et al.
Veröffentlicht: (2024)
AIM: Additional Image Guided Generation of Transferable Adversarial Attacks
von: Li, Teng, et al.
Veröffentlicht: (2025)
von: Li, Teng, et al.
Veröffentlicht: (2025)
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
von: Tu, Yahan, et al.
Veröffentlicht: (2024)
von: Tu, Yahan, et al.
Veröffentlicht: (2024)
EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models
von: Xing, Bohao, et al.
Veröffentlicht: (2025)
von: Xing, Bohao, et al.
Veröffentlicht: (2025)
Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision
von: Lee, Seongyun, et al.
Veröffentlicht: (2023)
von: Lee, Seongyun, et al.
Veröffentlicht: (2023)
Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective
von: Yue, Zihao, et al.
Veröffentlicht: (2024)
von: Yue, Zihao, et al.
Veröffentlicht: (2024)
Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting
von: Wu, Jiarui, et al.
Veröffentlicht: (2025)
von: Wu, Jiarui, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Adversarial Orthogonal Disentanglement for LVLM Hallucination Mitigation
von: Cheng, Ruoxi, et al.
Veröffentlicht: (2026) -
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers
von: Zheng, Weijie, et al.
Veröffentlicht: (2024) -
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
von: Zhou, Ziwei, et al.
Veröffentlicht: (2025) -
FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
von: Li, Peng, et al.
Veröffentlicht: (2026) -
Taming Object Hallucinations with Verified Atomic Confidence Estimation
von: Liu, Jiarui, et al.
Veröffentlicht: (2025)