:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xu, Jiawei, Zhong, Zhizhou, Shu, Zhijian, Jia, Mingkai, Li, Mingxiao, Bian, Jia-Wang, Zhang, Qian, Zhang, Kaicheng, Xie, Jin, Yang, Jian, Yin, Wei
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2605.14696
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Epona: Autoregressive Diffusion World Model for Autonomous Driving
by: Zhang, Kaiwen, et al.
Published: (2025)

DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT
by: Hu, Xiaotao, et al.
Published: (2024)

DINO-Tok: Adapting DINO for Visual Tokenizers
by: Jia, Mingkai, et al.
Published: (2025)

An Efficient Projection-Based Next-best-view Planning Framework for Reconstruction of Unknown Objects
by: Jia, Zhizhou, et al.
Published: (2024)

OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving
by: Tang, Tao, et al.
Published: (2025)

PB-NBV: Efficient Projection-Based Next-Best-View Planning Framework for Reconstruction of Unknown Objects
by: Jia, Zhizhou, et al.
Published: (2025)

2D Gaussians Meet Visual Tokenizer
by: Shi, Yiang, et al.
Published: (2025)

Vehicle Dynamics Embedded World Models for Autonomous Driving
by: Li, Huiqian, et al.
Published: (2025)

ObjSplat: Geometry-Aware Gaussian Surfels for Active Object Reconstruction
by: Li, Yuetao, et al.
Published: (2026)

MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
by: Jia, Mingkai, et al.
Published: (2025)

From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs
by: Li, Mingxiao, et al.
Published: (2025)

VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization
by: Li, Mingxiao, et al.
Published: (2025)

Self-supervised Hierarchical Visual Reasoning with World Model
by: Xu, Yuanfei, et al.
Published: (2026)

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
by: Jia, Mengdi, et al.
Published: (2025)

General Agentic Planning Through Simulative Reasoning with World Models
by: Deng, Mingkai, et al.
Published: (2025)

Observed Steep and Shallow Spectra, Narrow and Broadband Spectra, Multi-frequency Simultaneous Spectra, and Statistical Fringe Spectra in Fast Radio Bursts: Various Faces of Intrinsic Quasi-periodic Spectra?
by: Zhong, Shu-Qing, et al.
Published: (2024)

CAR-LOAM: Color-Assisted Robust LiDAR Odometry and Mapping
by: Lu, Yufei, et al.
Published: (2025)

MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
by: Zhang, Ruicheng, et al.
Published: (2025)

Asymptotic Time-Uniform Inference for Parameters in Averaged Stochastic Approximation
by: Xie, Chuhan, et al.
Published: (2024)

Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes
by: Zhou, Kaichen, et al.
Published: (2023)

BeautyMap: Binary-Encoded Adaptable Ground Matrix for Dynamic Points Removal in Global Maps
by: Jia, Mingkai, et al.
Published: (2024)

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning
by: Yang, Xuan, et al.
Published: (2026)

RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case
by: Xiao, Baihui, et al.
Published: (2025)

Adaptive Quantized Control for Nonlinear Systems With Mismatched Disturbances and Malicious Attacks
by: Xianglei Jia, et al.
Published: (2025)

Scenario‐Driven Metamorphic Testing for Autonomous Driving Simulators
by: Yifan Zhang, et al.
Published: (2024)

DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving
by: Ma, Enhui, et al.
Published: (2026)

Metal Organic Frameworks‐Derived NiO/NiCo2O4 Heterostructures for Effective Methanol Oxidation Reaction
by: Yuan Xin, et al.
Published: (2024)

Quantifying species biases among multidata sources on illegal wildlife trade and its implications for conservation
by: Sifan Hu, et al.
Published: (2024)

Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training
by: Jia, Mengzhao, et al.
Published: (2024)

RoboStereo: Dual-Tower 4D Embodied World Models for Unified Policy Optimization
by: Zhang, Ruicheng, et al.
Published: (2026)

Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latent Space
by: Zhu, Jian, et al.
Published: (2025)

Temporal Knowledge Graph Reasoning With Historical Data Correlation in Agriculture
by: Qian Luo, et al.
Published: (2026)

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control
by: Chen, Anthony, et al.
Published: (2025)

An Integrating Comprehensive Trajectory Prediction with Risk Potential Field Method for Autonomous Driving
by: Wu, Kailu, et al.
Published: (2024)

MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
by: Wang, Haiguang, et al.
Published: (2025)

HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation
by: Zhang, Conglang, et al.
Published: (2026)

DriveFuture: Future-Aware Latent World Models for Autonomous Driving
by: Hong, Yufeng, et al.
Published: (2026)

MapEval: Towards Unified, Robust and Efficient SLAM Map Evaluation Framework
by: Hu, Xiangcheng, et al.
Published: (2024)

Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model
by: You, Junqi, et al.
Published: (2024)

World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
by: Zheng, Yupeng, et al.
Published: (2025)