Enregistré dans:
| Auteurs principaux: | Zhang, Ruizhi, Huang, Ye, Pan, Yuangang, Shen, Chuanfu, Liu, Zhilin, Xie, Ting, Li, Wen, Duan, Lixin |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2604.08340 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Semantic segmentation with reward
par: Ting, Xie, et autres
Publié: (2025)
par: Ting, Xie, et autres
Publié: (2025)
Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging
par: Liu, Zhilin, et autres
Publié: (2026)
par: Liu, Zhilin, et autres
Publié: (2026)
LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
par: Jiang, Wen, et autres
Publié: (2025)
par: Jiang, Wen, et autres
Publié: (2025)
VPNeXt -- Rethinking Dense Decoding for Plain Vision Transformer
par: Tang, Xikai, et autres
Publié: (2025)
par: Tang, Xikai, et autres
Publié: (2025)
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
par: Song, Xinshuai, et autres
Publié: (2024)
par: Song, Xinshuai, et autres
Publié: (2024)
SSR: SAM is a Strong Regularizer for domain adaptive semantic segmentation
par: Ge, Yanqi, et autres
Publié: (2024)
par: Ge, Yanqi, et autres
Publié: (2024)
Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress
par: Zhang, Yuelin, et autres
Publié: (2026)
par: Zhang, Yuelin, et autres
Publié: (2026)
Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement
par: Qiu, Weikang, et autres
Publié: (2026)
par: Qiu, Weikang, et autres
Publié: (2026)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference
par: Yang, Yuhang, et autres
Publié: (2024)
par: Yang, Yuhang, et autres
Publié: (2024)
Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation
par: Fan, Linlong, et autres
Publié: (2024)
par: Fan, Linlong, et autres
Publié: (2024)
Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models
par: Rahman, Md Ashikur, et autres
Publié: (2026)
par: Rahman, Md Ashikur, et autres
Publié: (2026)
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
par: Ren, Xiyu, et autres
Publié: (2026)
par: Ren, Xiyu, et autres
Publié: (2026)
Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models
par: Zhou, Yucheng, et autres
Publié: (2024)
par: Zhou, Yucheng, et autres
Publié: (2024)
BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark
par: Chernyadev, Nikita, et autres
Publié: (2024)
par: Chernyadev, Nikita, et autres
Publié: (2024)
Cross-Covariate Gait Recognition: A Benchmark
par: Zou, Shinan, et autres
Publié: (2023)
par: Zou, Shinan, et autres
Publié: (2023)
Tuning-Free Adaptive Style Incorporation for Structure-Consistent Text-Driven Style Transfer
par: Ge, Yanqi, et autres
Publié: (2024)
par: Ge, Yanqi, et autres
Publié: (2024)
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
par: Wang, Yanling, et autres
Publié: (2025)
par: Wang, Yanling, et autres
Publié: (2025)
S-INF: Towards Realistic Indoor Scene Synthesis via Scene Implicit Neural Field
par: Liang, Zixi, et autres
Publié: (2024)
par: Liang, Zixi, et autres
Publié: (2024)
AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
par: Jiayang, Cheng, et autres
Publié: (2026)
par: Jiayang, Cheng, et autres
Publié: (2026)
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
par: Ruan, Jiacheng, et autres
Publié: (2025)
par: Ruan, Jiacheng, et autres
Publié: (2025)
CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
par: Cai, Jie, et autres
Publié: (2025)
par: Cai, Jie, et autres
Publié: (2025)
Towards Unsupervised Model Selection for Domain Adaptive Object Detection
par: Yu, Hengfu, et autres
Publié: (2024)
par: Yu, Hengfu, et autres
Publié: (2024)
Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method
par: Pan, Bikang, et autres
Publié: (2024)
par: Pan, Bikang, et autres
Publié: (2024)
OpenGait: A Comprehensive Benchmark Study for Gait Recognition towards Better Practicality
par: Fan, Chao, et autres
Publié: (2024)
par: Fan, Chao, et autres
Publié: (2024)
Exploring the Interplay Between Self‐Identity, Affective Style, Emotion Regulation, and Anxiety: Based on Bayesian Network Model
par: Ruizhi Huang, et autres
Publié: (2025)
par: Ruizhi Huang, et autres
Publié: (2025)
How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study
par: Liu, Che, et autres
Publié: (2025)
par: Liu, Che, et autres
Publié: (2025)
Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models
par: Zhang, Jiyao, et autres
Publié: (2026)
par: Zhang, Jiyao, et autres
Publié: (2026)
Structured Preference Optimization for Vision-Language Long-Horizon Task Planning
par: Liang, Xiwen, et autres
Publié: (2025)
par: Liang, Xiwen, et autres
Publié: (2025)
ArchSIBench: Benchmarking the Architectural Spatial Intelligence of Vision-Language Models
par: Shen, Qirui, et autres
Publié: (2026)
par: Shen, Qirui, et autres
Publié: (2026)
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
par: Wang, Zhaowei, et autres
Publié: (2026)
par: Wang, Zhaowei, et autres
Publié: (2026)
Gym-V: A Unified Vision Environment System for Agentic Vision Research
par: Meng, Fanqing, et autres
Publié: (2026)
par: Meng, Fanqing, et autres
Publié: (2026)
CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models
par: Chen, Kesheng, et autres
Publié: (2026)
par: Chen, Kesheng, et autres
Publié: (2026)
SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models
par: Guo, Xianda, et autres
Publié: (2024)
par: Guo, Xianda, et autres
Publié: (2024)
LVDrive: Latent Visual Representation Enhanced Vision-Language-Action Autonomous Driving Model
par: Mei, Xiaodong, et autres
Publié: (2026)
par: Mei, Xiaodong, et autres
Publié: (2026)
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
par: Zeng, Yu, et autres
Publié: (2026)
par: Zeng, Yu, et autres
Publié: (2026)
PokeFlex: A Real-World Dataset of Volumetric Deformable Objects for Robotics
par: Obrist, Jan, et autres
Publié: (2024)
par: Obrist, Jan, et autres
Publié: (2024)
ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning
par: Luo, Wen, et autres
Publié: (2026)
par: Luo, Wen, et autres
Publié: (2026)
EVLM: An Efficient Vision-Language Model for Visual Understanding
par: Chen, Kaibing, et autres
Publié: (2024)
par: Chen, Kaibing, et autres
Publié: (2024)
A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
par: Xiu, Lixin, et autres
Publié: (2026)
par: Xiu, Lixin, et autres
Publié: (2026)
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
par: Geng, Tiantian, et autres
Publié: (2024)
par: Geng, Tiantian, et autres
Publié: (2024)
Documents similaires
-
Semantic segmentation with reward
par: Ting, Xie, et autres
Publié: (2025) -
Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging
par: Liu, Zhilin, et autres
Publié: (2026) -
LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
par: Jiang, Wen, et autres
Publié: (2025) -
VPNeXt -- Rethinking Dense Decoding for Plain Vision Transformer
par: Tang, Xikai, et autres
Publié: (2025) -
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
par: Song, Xinshuai, et autres
Publié: (2024)