:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Riba, Edgar, Shi, Jian, Kumar, Aditya, Shen, Andrew, Bradski, Gary
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2505.12425
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision
by: Li, Wenyi, et al.
Published: (2026)

R3eVision: A Survey on Robust Rendering, Restoration, and Enhancement for 3D Low-Level Vision
by: Kwon, Weeyoung, et al.
Published: (2025)

Information Extraction from Unstructured data using Augmented-AI and Computer Vision
by: Parikh, Aditya
Published: (2023)

QRetinex-Net: Quaternion-Valued Retinex Decomposition for Low-Level Computer Vision Applications
by: Agaian, Sos, et al.
Published: (2025)

Diffusion Models in Low-Level Vision: A Survey
by: He, Chunming, et al.
Published: (2024)

Jumpstarting Surgical Computer Vision
by: Alapatt, Deepak, et al.
Published: (2023)

On the Global Photometric Alignment for Low-Level Vision
by: Li, Mingjia, et al.
Published: (2026)

L4P: Towards Unified Low-Level 4D Vision Perception
by: Badki, Abhishek, et al.
Published: (2025)

Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models
by: Zhang, Jiyao, et al.
Published: (2026)

Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision
by: Krishnan, Aditya, et al.
Published: (2024)

2023 Low-Power Computer Vision Challenge (LPCVC) Summary
by: Chen, Leo, et al.
Published: (2024)

RustNeRF: Robust Neural Radiance Field with Low-Quality Images
by: Li, Mengfei, et al.
Published: (2024)

Exploring Scalable Unified Modeling for General Low-Level Vision
by: Chen, Xiangyu, et al.
Published: (2025)

Learning A Low-Level Vision Generalist via Visual Task Prompt
by: Chen, Xiangyu, et al.
Published: (2024)

Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning
by: Chen, Yanjun, et al.
Published: (2025)

SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features
by: Qu, Jinyuan, et al.
Published: (2025)

Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging
by: Hamamci, Ibrahim Ethem, et al.
Published: (2025)

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
by: Su, Yuanhao, et al.
Published: (2026)

Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM
by: Nanwani, Laksh, et al.
Published: (2024)

Evaluation of Winning Solutions of 2025 Low Power Computer Vision Challenge
by: Ye, Zihao, et al.
Published: (2026)

A General Protocol to Probe Large Vision Models for 3D Physical Understanding
by: Zhan, Guanqi, et al.
Published: (2023)

On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation
by: Chatterjee, Agneet, et al.
Published: (2024)

Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians
by: Gao, Quankai, et al.
Published: (2025)

Tacchi 2.0: A Low Computational Cost and Comprehensive Dynamic Contact Simulator for Vision-based Tactile Sensors
by: Sun, Yuhao, et al.
Published: (2025)

LL-Bench: Rethinking Low-Level Vision Evaluation in the Era of Large-Scale Generative Models
by: Liu, Lu, et al.
Published: (2026)

TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder
by: Meng, Qinghao, et al.
Published: (2025)

SGV3D:Towards Scenario Generalization for Vision-based Roadside 3D Object Detection
by: Yang, Lei, et al.
Published: (2024)

Automated Marine Biofouling Assessment: Benchmarking Computer Vision and Multimodal LLMs on the Level of Fouling Scale
by: Hamilton, Brayden, et al.
Published: (2026)

From 3D Pose to Prose: Biomechanics-Grounded Vision--Language Coaching
by: Ji, Yuyang, et al.
Published: (2026)

Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction
by: Wu, Yuan, et al.
Published: (2024)

PopAlign: Population-Level Alignment for Fair Text-to-Image Generation
by: Li, Shufan, et al.
Published: (2024)

Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection
by: Ji, Mingqian, et al.
Published: (2025)

Virtual Trial Room with Computer Vision and Machine Learning
by: Joshi, Tulashi Prasad, et al.
Published: (2024)

A Comprehensive Review on Computer Vision Analysis of Aerial Data
by: Tetarwal, Vivek, et al.
Published: (2024)

3D Motion Perception of Binocular Vision Target with PID-CNN
by: Shi, Jiazhao, et al.
Published: (2025)

Unify3D: An Augmented Holistic End-to-end Monocular 3D Human Reconstruction via Anatomy Shaping and Twins Negotiating
by: Yao, Nanjie, et al.
Published: (2025)

AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting
by: Xing, Mingwei, et al.
Published: (2026)

M^3Detection: Multi-Frame Multi-Level Feature Fusion for Multi-Modal 3D Object Detection with Camera and 4D Imaging Radar
by: Li, Xiaozhi, et al.
Published: (2025)

Neural Signed Distance Function Inference through Splatting 3D Gaussians Pulled on Zero-Level Set
by: Zhang, Wenyuan, et al.
Published: (2024)

OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding
by: Wu, Yanmin, et al.
Published: (2024)