:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhou, Yuhan, Chen, Haihua, Sha, Kewei
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence
Online Access:	https://arxiv.org/abs/2506.17346
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving
by: Zhou, Yuhan, et al.
Published: (2026)

iPad: Iterative Proposal-centric End-to-End Autonomous Driving
by: Guo, Ke, et al.
Published: (2025)

EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving
by: Madjid, Nadya Abdel, et al.
Published: (2025)

Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving
by: Lian, Weitong, et al.
Published: (2026)

A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters
by: Luo, Haihua, et al.
Published: (2026)

DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving
by: Li, Yingyan, et al.
Published: (2025)

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
by: Zeng, Kai, et al.
Published: (2025)

ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
by: Sha, Lin, et al.
Published: (2026)

Image-Guided Outdoor LiDAR Perception Quality Assessment for Autonomous Driving
by: Zhang, Ce, et al.
Published: (2024)

Exploring Radar Data Representations in Autonomous Driving: A Comprehensive Review
by: Yao, Shanliang, et al.
Published: (2023)

Data Shift of Object Detection in Autonomous Driving
by: Xu, Lida
Published: (2025)

OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving
by: Zhang, Zhenguo, et al.
Published: (2025)

Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety
by: Shriram, Shashank, et al.
Published: (2025)

CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
by: Huang, Minqing, et al.
Published: (2026)

Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
by: Wu, Aodi, et al.
Published: (2025)

Vision Language Models in Autonomous Driving: A Survey and Outlook
by: Zhou, Xingcheng, et al.
Published: (2023)

DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
by: Hao, Yuhan, et al.
Published: (2025)

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving
by: Chen, Siran, et al.
Published: (2025)

A Unified Perception-Language-Action Framework for Adaptive Autonomous Driving
by: Zhang, Yi, et al.
Published: (2025)

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
by: Zhou, Yang, et al.
Published: (2026)

Multimodal-Enhanced Objectness Learner for Corner Case Detection in Autonomous Driving
by: Xiao, Lixing, et al.
Published: (2024)

Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in Autonomous Driving
by: Lou, Yang, et al.
Published: (2023)

Exploring Camera Encoder Designs for Autonomous Driving Perception
by: Lakshmanan, Barath, et al.
Published: (2024)

VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving
by: Huang, Zilin, et al.
Published: (2024)

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning
by: Yin, Jiong, et al.
Published: (2025)

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head
by: Zhang, Kewei, et al.
Published: (2026)

LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement
by: Jiao, Siwen, et al.
Published: (2024)

DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving
by: Fu, Yongjie, et al.
Published: (2024)

Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios
by: Shah, Imad Ali, et al.
Published: (2025)

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving
by: Gopalkrishnan, Akshay, et al.
Published: (2024)

FRED: A Multi-Modal Autonomous Driving Dataset for Flooded Road Environments
by: Malone, Connor, et al.
Published: (2026)

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models
by: Zhang, Jieyu, et al.
Published: (2024)

Learning Physical Dynamics for Object-centric Visual Prediction
by: Xu, Huilin, et al.
Published: (2024)

A Survey on Data Quality Dimensions and Tools for Machine Learning
by: Zhou, Yuhan, et al.
Published: (2024)

Generative AI for Autonomous Driving: Frontiers and Opportunities
by: Wang, Yuping, et al.
Published: (2025)

Towards Adaptive Human-centric Video Anomaly Detection: A Comprehensive Framework and A New Benchmark
by: Pazho, Armin Danesh, et al.
Published: (2024)

Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving
by: Hu, Senkang, et al.
Published: (2023)

VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation
by: Jiang, Longteng, et al.
Published: (2026)

Adversarial Flow Matching for Imperceptible Attacks on End-to-End Autonomous Driving
by: Zeng, Xinyu, et al.
Published: (2026)

M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving
by: Xu, Dongyang, et al.
Published: (2024)