:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wang, Shuo, Mei, Jilin, Liu, Fuyang, Guan, Wenfei, Kong, Fanjie, Zhao, Zhihua, Wang, Shuai, Min, Chen, Hu, Yu
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2605.04435
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Towards All-Day Perception for Off-Road Driving: A Large-Scale Multispectral Dataset and Comprehensive Benchmark
by: Wang, Shuo, et al.
Published: (2026)

Advancing Off-Road Autonomous Driving: The Large-Scale ORAD-3D Dataset and Comprehensive Benchmarks
by: Min, Chen, et al.
Published: (2025)

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction
by: Guan, Wenfei, et al.
Published: (2025)

CORENet: Cross-Modal 4D Radar Denoising Network with LiDAR Supervision for Autonomous Driving
by: Liu, Fuyang, et al.
Published: (2025)

WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction
by: Zhai, Heng, et al.
Published: (2024)

MASTER: Multimodal Segmentation with Text Prompts
by: Liu, Fuyang, et al.
Published: (2025)

DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images
by: Chen, Xiaoxue, et al.
Published: (2025)

Seeing Across Skies and Streets: Feedforward 3D Reconstruction from Satellite, Drone, and Ground Images
by: Wang, Qiwei, et al.
Published: (2026)

4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
by: Yin, Yuyang, et al.
Published: (2023)

ChangingGrounding: 3D Visual Grounding in Changing Scenes
by: Hu, Miao, et al.
Published: (2025)

UNIV: Unified Foundation Model for Infrared and Visible Modalities
by: Mao, Fangyuan, et al.
Published: (2025)

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation
by: Wang, Chaoyang, et al.
Published: (2025)

VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
by: Hu, Yu, et al.
Published: (2025)

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images
by: Hur, Junhwa, et al.
Published: (2026)

PID: Physics-Informed Diffusion Model for Infrared Image Generation
by: Mao, Fangyuan, et al.
Published: (2024)

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
by: Zhao, Guosheng, et al.
Published: (2024)

Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction
by: Cai, Xudong, et al.
Published: (2025)

Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations
by: Yuan, Zhihao, et al.
Published: (2025)

OT-Drive: Out-of-Distribution Off-Road Traversable Area Segmentation via Optimal Transport
by: Zhao, Zhihua, et al.
Published: (2026)

Hand3R: Online 4D Hand-Scene Reconstruction in the Wild
by: Hu, Wendi, et al.
Published: (2026)

Moving Off-the-Grid: Scene-Grounded Video Representations
by: van Steenkiste, Sjoerd, et al.
Published: (2024)

Interplay Between AI and Space-Air-Ground Integrated Network: The Road Ahead
by: Wu, Chenyu, et al.
Published: (2025)

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
by: Zhang, Jiaxi, et al.
Published: (2026)

Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation
by: Hu, Yongzhen, et al.
Published: (2025)

R2G: Reasoning to Ground in 3D Scenes
by: Li, Yixuan, et al.
Published: (2024)

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
by: Jia, Baoxiong, et al.
Published: (2024)

Grounding by Remembering: Cross-Scene and In-Scene Memory for 3D Functional Affordances
by: Wang, Qirui, et al.
Published: (2026)

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion
by: Guo, Xiyue, et al.
Published: (2025)

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
by: Hu, Wenbo, et al.
Published: (2025)

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
by: Liu, Tianqi, et al.
Published: (2025)

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion
by: Mou, Linzhan, et al.
Published: (2024)

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
by: Wu, Xianfeng, et al.
Published: (2025)

Geometric 4D Stitching for Grounded 4D Generation
by: Park, Sunwoo, et al.
Published: (2026)

ROD: RGB-Only Fast and Efficient Off-road Freespace Detection
by: Sun, Tong, et al.
Published: (2025)

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
by: Li, Rong, et al.
Published: (2024)

Multifractal Terrain Generation for Evaluating Autonomous Off-Road Ground Vehicles
by: Majhor, Casey D., et al.
Published: (2025)

PaintScene4D: Consistent 4D Scene Generation from Text Prompts
by: Gupta, Vinayak, et al.
Published: (2024)

Task-oriented Sequential Grounding and Navigation in 3D Scenes
by: Zhang, Zhuofan, et al.
Published: (2024)

RieMind: Geometry-Grounded Spatial Agent for Scene Understanding
by: Ropero, Fernando, et al.
Published: (2026)

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations
by: Lyu, Ruiyuan, et al.
Published: (2024)