:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhang, Jie, Wang, Zhongqi, Lei, Mengqi, Yuan, Zheng, Yan, Bei, Shan, Shiguang, Chen, Xilin
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2406.18849
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs
par: Yan, Bei, et autres
Publié: (2025)

EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy
par: Ge, Xuanyu, et autres
Publié: (2026)

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
par: Yan, Bei, et autres
Publié: (2024)

Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models
par: Wang, Zhongqi, et autres
Publié: (2025)

T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models
par: Wang, Zhongqi, et autres
Publié: (2024)

Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models
par: Wang, Zhongqi, et autres
Publié: (2025)

MM-MoralBench: A MultiModal Moral Evaluation Benchmark for Large Vision-Language Models
par: Yan, Bei, et autres
Publié: (2024)

REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models
par: Zhang, Jie, et autres
Publié: (2025)

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs
par: Nie, Sen, et autres
Publié: (2025)

Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models
par: Zhang, Jie, et autres
Publié: (2025)

Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating
par: Cao, Xiangkui, et autres
Publié: (2026)

ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration
par: Yan, Bei, et autres
Publié: (2026)

FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers
par: Yuan, Zheng, et autres
Publié: (2024)

What Makes VLMs Robust? Towards Reconciling Robustness and Accuracy in Vision-Language Models
par: Nie, Sen, et autres
Publié: (2026)

Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement
par: Yuan, Zheng, et autres
Publié: (2024)

VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model
par: Wang, Sibo, et autres
Publié: (2024)

Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox
par: Long, Xingming, et autres
Publié: (2024)

Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection
par: Long, Xingming, et autres
Publié: (2024)

VOPE: Revisiting Hallucination of Vision-Language Models in Voluntary Imagination Task
par: Long, Xingming, et autres
Publié: (2025)

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs
par: Yang, Junqi, et autres
Publié: (2026)

T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models
par: Li, Changzhen, et autres
Publié: (2025)

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP
par: Nie, Sen, et autres
Publié: (2026)

A Survey of Multimodal Hallucination Evaluation and Detection
par: Chen, Zhiyuan, et autres
Publié: (2025)

un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
par: Li, Yinqi, et autres
Publié: (2025)

GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition
par: Wang, Tianyue, et autres
Publié: (2025)

Dual Attention Guided Defense Against Malicious Edits
par: Zhang, Jie, et autres
Publié: (2025)

Towards Transferable Defense Against Malicious Image Edits
par: Zhang, Jie, et autres
Publié: (2025)

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness
par: Wang, Sibo, et autres
Publié: (2024)

CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation
par: Xu, Yifeng, et autres
Publié: (2024)

HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention
par: Tang, Xiaolong, et autres
Publié: (2024)

Semantic Mismatch and Perceptual Degradation: A New Perspective on Image Editing Immunity
par: Dong, Shuai, et autres
Publié: (2025)

Component-Based Out-of-Distribution Detection
par: Liu, Wenrui, et autres
Publié: (2026)

EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models
par: Cai, Yufei, et autres
Publié: (2025)

Task-adaptive Q-Face
par: Sun, Haomiao, et autres
Publié: (2024)

DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks
par: Li, Yinqi, et autres
Publié: (2025)

HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding
par: Li, Keliang, et autres
Publié: (2024)

Adaptive Perturbation for Adversarial Attack
par: Yuan, Zheng, et autres
Publié: (2021)

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
par: Li, Yiheng, et autres
Publié: (2024)

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading
par: Luo, Songtao, et autres
Publié: (2023)

Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation
par: Shi, Liang, et autres
Publié: (2024)