:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhang, Fengyi, Zhang, Tianjun, Khosoussi, Kasra, Zhang, Zheng, Huang, Zi, Luo, Yadan
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2512.02341
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

GaussianForest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling
by: Zhang, Fengyi, et al.
Published: (2024)

Test-Time 3D Occupancy Prediction
by: Zhang, Fengyi, et al.
Published: (2025)

CodeMerge: Codebook-Guided Model Merging for Robust Test-Time Adaptation in Autonomous Driving
by: Yang, Huitong, et al.
Published: (2025)

VGGT-World: Transforming VGGT into an Autoregressive Geometry World Model
by: Sun, Xiangyu, et al.
Published: (2026)

Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments
by: Etchegaray, Djamahl, et al.
Published: (2024)

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents
by: Zhang, Zhizhen, et al.
Published: (2025)

MOS: Model Synergy for Test-Time Adaptation on LiDAR-Based 3D Object Detection
by: Chen, Zhuoxiao, et al.
Published: (2024)

Learning Efficient Unsupervised Satellite Image-based Building Damage Detection
by: Zhang, Yiyun, et al.
Published: (2023)

Open-CRB: Towards Open World Active Learning for 3D Object Detection
by: Chen, Zhuoxiao, et al.
Published: (2023)

DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object Detection
by: Chen, Zhuoxiao, et al.
Published: (2024)

FastEdit: Fast Text-Guided Single-Image Editing via Semantic-Aware Diffusion Fine-Tuning
by: Chen, Zhi, et al.
Published: (2024)

PolaFormer: Polarity-aware Linear Attention for Vision Transformers
by: Meng, Weikang, et al.
Published: (2025)

Online3R: Online Learning for Consistent Sequential Reconstruction Based on Geometry Foundation Model
by: Zhou, Shunkai, et al.
Published: (2026)

Consistency Diffusion Models for Single-Image 3D Reconstruction with Priors
by: Jiang, Chenru, et al.
Published: (2025)

Language-driven Fine-grained Retrieval
by: Wang, Shijie, et al.
Published: (2025)

CF-PRNet: Coarse-to-Fine Prototype Refining Network for Point Cloud Completion and Reconstruction
by: Chen, Zhi, et al.
Published: (2024)

Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving
by: Etchegaray, Djamahl, et al.
Published: (2025)

Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability
by: Qian, Xuelin, et al.
Published: (2024)

Learning to Align Generative Appearance Priors for Fine-grained Image Retrieval
by: Wang, Shijie, et al.
Published: (2026)

SCORE: Soft Label Compression-Centric Dataset Condensation via Coding Rate Optimization
by: Yuan, Bowen, et al.
Published: (2025)

Color-Oriented Redundancy Reduction in Dataset Distillation
by: Yuan, Bowen, et al.
Published: (2024)

Towards Training-free Anomaly Detection with Vision and Language Foundation Models
by: Zhang, Jinjin, et al.
Published: (2025)

ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection
by: Song, Ziying, et al.
Published: (2024)

Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology
by: Huang, Xinrui, et al.
Published: (2025)

Towards Unbiased Source-Free Object Detection via Vision Foundation Models
by: Cai, Zhi, et al.
Published: (2026)

Distributed Zero-Shot Learning for Visual Recognition
by: Chen, Zhi, et al.
Published: (2025)

Learning to Synergize Semantic and Geometric Priors for Limited-Data Wheat Disease Segmentation
by: Wang, Shijie, et al.
Published: (2026)

Divide-and-Conquer Approach to Holistic Cognition in High-Similarity Contexts with Limited Data
by: Wang, Shijie, et al.
Published: (2026)

Geometry-Guided Self-Supervision for Ultra-Fine-Grained Recognition with Limited Data
by: Wang, Shijie, et al.
Published: (2026)

FedStain: Modeling Higher-Order Stain Statistics for Federated Domain Generalization in Computational Pathology
by: Zhang, Fengyi, et al.
Published: (2026)

Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models
by: Zhang, Peng-Fei, et al.
Published: (2026)

One for All: Toward Unified Foundation Models for Earth Vision
by: Xiong, Zhitong, et al.
Published: (2024)

Towards Foundation Models for 3D Vision: How Close Are We?
by: Zuo, Yiming, et al.
Published: (2024)

Track Any Peppers: Weakly Supervised Sweet Pepper Tracking Using VLMs
by: Lim, Jia Syuen, et al.
Published: (2024)

Towards Unified 3D Hair Reconstruction from Single-View Portraits
by: Zheng, Yujian, et al.
Published: (2024)

View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection
by: Zhang, Qi, et al.
Published: (2024)

Towards Generalist Game Players: An Investigation of Foundation Models in the Game Multiverse
by: Zhang, Kuan, et al.
Published: (2026)

EMOv2: Pushing 5M Vision Model Frontier
by: Zhang, Jiangning, et al.
Published: (2024)

From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning
by: Wang, Sen, et al.
Published: (2025)

GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators
by: Li, Hengjia, et al.
Published: (2024)