:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Xie, Yuechen, Zhang, Xiaoyan, Shan, Yicheng, Zhu, Hao, Tang, Rui, Wei, Rong, Song, Mingli, Wan, Yuanyu, Song, Jie
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition Machine Learning
Online Access:	https://arxiv.org/abs/2602.20901
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Dataset Ownership Verification for Pre-trained Masked Models
by: Xie, Yuechen, et al.
Published: (2025)

Improved Dynamic Regret for Online Frank-Wolfe
by: Wan, Yuanyu, et al.
Published: (2023)

Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?
by: Xie, Yuechen, et al.
Published: (2025)

Sampling-Aware Quantization for Diffusion Models
by: Zeng, Qian, et al.
Published: (2025)

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
by: Wasi, Azmine Toushik, et al.
Published: (2026)

Improved Regret for Bandit Convex Optimization with Delayed Feedback
by: Wan, Yuanyu, et al.
Published: (2024)

Optimal and Efficient Algorithms for Decentralized Online Convex Optimization
by: Wan, Yuanyu, et al.
Published: (2024)

Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting
by: Wan, Yuanyu, et al.
Published: (2023)

Improved Approximate Regret for Decentralized Online Continuous Submodular Maximization via Reductions
by: Wan, Yuanyu, et al.
Published: (2026)

Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning
by: Huang, Qihan, et al.
Published: (2025)

Spatia: Video Generation with Updatable Spatial Memory
by: Zhao, Jinjing, et al.
Published: (2025)

Dataset Ownership Verification in Contrastive Pre-trained Models
by: Xie, Yuechen, et al.
Published: (2025)

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge
by: Wang, Xin, et al.
Published: (2026)

RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing
by: Wang, Jiayu, et al.
Published: (2025)

CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge
by: Zheng, Tianshi, et al.
Published: (2024)

A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models
by: Song, Xiujie, et al.
Published: (2024)

SpatiaLoc: Leveraging Multi-Level Spatial Enhanced Descriptors for Cross-Modal Localization
by: Shang, Tianyi, et al.
Published: (2026)

A Large-scale Universal Evaluation Benchmark For Face Forgery Detection
by: Bei, Yijun, et al.
Published: (2024)

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models
by: Huang, Xinmiao, et al.
Published: (2025)

D$^2$-DPM: Dual Denoising for Quantized Diffusion Probabilistic Models
by: Zeng, Qian, et al.
Published: (2025)

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO
by: Xiao, Yicheng, et al.
Published: (2025)

Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
by: Wu, Zhanglin, et al.
Published: (2025)

Temporal Motif-aware Graph Test-time Adaptation for OOD Blockchain Anomaly Detection
by: He, Runang, et al.
Published: (2026)

HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions
by: Ma, Shaoyin, et al.
Published: (2025)

InSpire: Vision-Language-Action Models with Intrinsic Spatial Reasoning
by: Zhang, Ji, et al.
Published: (2025)

Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
by: Zhou, Yuchen, et al.
Published: (2025)

On the Evaluation Consistency of Attribution-based Explanations
by: Duan, Jiarui, et al.
Published: (2024)

Rethinking Token Reduction for Large Vision-Language Models
by: Wang, Yi, et al.
Published: (2026)

Diffusion Model Quantization: A Review
by: Zeng, Qian, et al.
Published: (2025)

Projection-free Online Learning over Strongly Convex Sets
by: Wan, Yuanyu, et al.
Published: (2020)

Approximate Multiplication of Sparse Matrices with Limited Space
by: Wan, Yuanyu, et al.
Published: (2020)

Boosting MLLM Reasoning with Text-Debiased Hint-GRPO
by: Huang, Qihan, et al.
Published: (2025)

SurgLQA: Scalable Long-Horizon Surgical Video Question Answering
by: Guo, Diandian, et al.
Published: (2026)

Advancing Abductive Reasoning in Knowledge Graphs through Complex Logical Hypothesis Generation
by: Bai, Jiaxin, et al.
Published: (2023)

GTR-Bench: Evaluating Geo-Temporal Reasoning in Vision-Language Models
by: Xie, Qinghongbing, et al.
Published: (2025)

ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers for Interpretable Image Recognition
by: Xue, Mengqi, et al.
Published: (2022)

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
by: Yuan, Tianyuan, et al.
Published: (2025)

Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
by: Xu, Ming, et al.
Published: (2024)

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
by: Yan, Bei, et al.
Published: (2024)

SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models
by: Guo, Xianda, et al.
Published: (2024)