:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Etchegaray, Djamahl, Fu, Yuxia, Huang, Zi, Luo, Yadan
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2507.00525
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments
di: Etchegaray, Djamahl, et al.
Pubblicazione: (2024)

Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving
di: Wang, Lu, et al.
Pubblicazione: (2025)

SCORE: Soft Label Compression-Centric Dataset Condensation via Coding Rate Optimization
di: Yuan, Bowen, et al.
Pubblicazione: (2025)

DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object Detection
di: Chen, Zhuoxiao, et al.
Pubblicazione: (2024)

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
di: Cusipuma, Dunant, et al.
Pubblicazione: (2025)

Theoretically Achieving Continuous Representation of Oriented Bounding Boxes
di: Xiao, Zi-Kai, et al.
Pubblicazione: (2024)

Box-Free Model Watermarks Are Prone to Black-Box Removal Attacks
di: An, Haonan, et al.
Pubblicazione: (2024)

Prompting the Unseen: Detecting Hidden Backdoors in Black-Box Models
di: Huang, Zi-Xuan, et al.
Pubblicazione: (2024)

BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning
di: Qian, Zekun, et al.
Pubblicazione: (2026)

Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation
di: Wang, Zixin, et al.
Pubblicazione: (2024)

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents
di: Zhang, Zhizhen, et al.
Pubblicazione: (2025)

Open-CRB: Towards Open World Active Learning for 3D Object Detection
di: Chen, Zhuoxiao, et al.
Pubblicazione: (2023)

GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning
di: Liu, Bo, et al.
Pubblicazione: (2025)

Multiple Different Black Box Explanations for Image Classifiers
di: Chockler, Hana, et al.
Pubblicazione: (2023)

Kvasir-VQA: A Text-Image Pair GI Tract Dataset
di: Gautam, Sushant, et al.
Pubblicazione: (2024)

EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving
di: Madjid, Nadya Abdel, et al.
Pubblicazione: (2025)

Doc-CoB: Enhancing Document Understanding with Visual Chain-of-Boxes Reasoning
di: Mo, Ye, et al.
Pubblicazione: (2025)

Box6D : Zero-shot Category-level 6D Pose Estimation of Warehouse Boxes
di: Ma, Yintao, et al.
Pubblicazione: (2025)

MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems
di: Yang, Peiru, et al.
Pubblicazione: (2025)

CodeMerge: Codebook-Guided Model Merging for Robust Test-Time Adaptation in Autonomous Driving
di: Yang, Huitong, et al.
Pubblicazione: (2025)

TopoStreamer: Temporal Lane Segment Topology Reasoning in Autonomous Driving
di: Yang, Yiming, et al.
Pubblicazione: (2025)

Improving Black-Box Generative Attacks via Generator Semantic Consistency
di: Jeong, Jongoh, et al.
Pubblicazione: (2025)

NBBOX: Noisy Bounding Box Improves Remote Sensing Object Detection
di: Kim, Yechan, et al.
Pubblicazione: (2024)

MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression
di: Ma, Siliang, et al.
Pubblicazione: (2023)

Certified Zeroth-order Black-Box Defense with Robust UNet Denoiser
di: Verma, Astha, et al.
Pubblicazione: (2023)

Cross-Stage Coherence in Hierarchical Driving VQA: Explicit Baselines and Learned Gated Context Projectors
di: Jain, Gautam Kumar, et al.
Pubblicazione: (2026)

DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving
di: Fu, Yongjie, et al.
Pubblicazione: (2024)

Robust Box Prompt based SAM for Medical Image Segmentation
di: Huang, Yuhao, et al.
Pubblicazione: (2024)

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation
di: Li, Feiran, et al.
Pubblicazione: (2026)

ADBA:Approximation Decision Boundary Approach for Black-Box Adversarial Attacks
di: Wang, Feiyang, et al.
Pubblicazione: (2024)

PolaFormer: Polarity-aware Linear Attention for Vision Transformers
di: Meng, Weikang, et al.
Pubblicazione: (2025)

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
di: Zou, Hongjian, et al.
Pubblicazione: (2026)

Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
di: Wu, Aodi, et al.
Pubblicazione: (2025)

Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection
di: Pan, Minzhou, et al.
Pubblicazione: (2024)

FRED: A Multi-Modal Autonomous Driving Dataset for Flooded Road Environments
di: Malone, Connor, et al.
Pubblicazione: (2026)

A Survey on Vision-Language-Action Models for Autonomous Driving
di: Jiang, Sicong, et al.
Pubblicazione: (2025)

CoralVQA: A Large-Scale Visual Question Answering Dataset for Coral Reef Image Understanding
di: Han, Hongyong, et al.
Pubblicazione: (2025)

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
di: Tuong, Nguyen Anh, et al.
Pubblicazione: (2026)

doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation
di: Roy, Parthib, et al.
Pubblicazione: (2024)

Towards Clinically Interpretable Ophthalmic VQA via Spatially-Grounded Lesion Evidence
di: Wang, Xingyue, et al.
Pubblicazione: (2026)