:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhang, Ruizhi, Huang, Ye, Pan, Yuangang, Shen, Chuanfu, Liu, Zhilin, Xie, Ting, Li, Wen, Duan, Lixin
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2604.08340
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Semantic segmentation with reward
par: Ting, Xie, et autres
Publié: (2025)

Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging
par: Liu, Zhilin, et autres
Publié: (2026)

LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
par: Jiang, Wen, et autres
Publié: (2025)

VPNeXt -- Rethinking Dense Decoding for Plain Vision Transformer
par: Tang, Xikai, et autres
Publié: (2025)

Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
par: Song, Xinshuai, et autres
Publié: (2024)

SSR: SAM is a Strong Regularizer for domain adaptive semantic segmentation
par: Ge, Yanqi, et autres
Publié: (2024)

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress
par: Zhang, Yuelin, et autres
Publié: (2026)

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement
par: Qiu, Weikang, et autres
Publié: (2026)

ResCLIP: Residual Attention for Training-free Dense Vision-language Inference
par: Yang, Yuhang, et autres
Publié: (2024)

Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation
par: Fan, Linlong, et autres
Publié: (2024)

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models
par: Rahman, Md Ashikur, et autres
Publié: (2026)

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
par: Ren, Xiyu, et autres
Publié: (2026)

Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models
par: Zhou, Yucheng, et autres
Publié: (2024)

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark
par: Chernyadev, Nikita, et autres
Publié: (2024)

Cross-Covariate Gait Recognition: A Benchmark
par: Zou, Shinan, et autres
Publié: (2023)

Tuning-Free Adaptive Style Incorporation for Structure-Consistent Text-Driven Style Transfer
par: Ge, Yanqi, et autres
Publié: (2024)

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
par: Wang, Yanling, et autres
Publié: (2025)

S-INF: Towards Realistic Indoor Scene Synthesis via Scene Implicit Neural Field
par: Liang, Zixi, et autres
Publié: (2024)

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
par: Jiayang, Cheng, et autres
Publié: (2026)

VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
par: Ruan, Jiacheng, et autres
Publié: (2025)

CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
par: Cai, Jie, et autres
Publié: (2025)

Towards Unsupervised Model Selection for Domain Adaptive Object Detection
par: Yu, Hengfu, et autres
Publié: (2024)

Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method
par: Pan, Bikang, et autres
Publié: (2024)

OpenGait: A Comprehensive Benchmark Study for Gait Recognition towards Better Practicality
par: Fan, Chao, et autres
Publié: (2024)

Exploring the Interplay Between Self‐Identity, Affective Style, Emotion Regulation, and Anxiety: Based on Bayesian Network Model
par: Ruizhi Huang, et autres
Publié: (2025)

How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study
par: Liu, Che, et autres
Publié: (2025)

Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models
par: Zhang, Jiyao, et autres
Publié: (2026)

Structured Preference Optimization for Vision-Language Long-Horizon Task Planning
par: Liang, Xiwen, et autres
Publié: (2025)

ArchSIBench: Benchmarking the Architectural Spatial Intelligence of Vision-Language Models
par: Shen, Qirui, et autres
Publié: (2026)

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
par: Wang, Zhaowei, et autres
Publié: (2026)

Gym-V: A Unified Vision Environment System for Agentic Vision Research
par: Meng, Fanqing, et autres
Publié: (2026)

CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models
par: Chen, Kesheng, et autres
Publié: (2026)

SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models
par: Guo, Xianda, et autres
Publié: (2024)

LVDrive: Latent Visual Representation Enhanced Vision-Language-Action Autonomous Driving Model
par: Mei, Xiaodong, et autres
Publié: (2026)

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
par: Zeng, Yu, et autres
Publié: (2026)

PokeFlex: A Real-World Dataset of Volumetric Deformable Objects for Robotics
par: Obrist, Jan, et autres
Publié: (2024)

ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning
par: Luo, Wen, et autres
Publié: (2026)

EVLM: An Efficient Vision-Language Model for Visual Understanding
par: Chen, Kaibing, et autres
Publié: (2024)

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
par: Xiu, Lixin, et autres
Publié: (2026)

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
par: Geng, Tiantian, et autres
Publié: (2024)