:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Li, Yang, Wu, Aming, Zhang, Zihao, Han, Yahong
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2601.09111
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning
par: Li, Yang, et autres
Publié: (2025)

Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection
par: Zhang, Zihao, et autres
Publié: (2025)

Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection
par: Zhang, Zihao, et autres
Publié: (2025)

Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation
par: Zhang, Xitie, et autres
Publié: (2026)

Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios
par: Li, Deng, et autres
Publié: (2025)

Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization
par: Li, Deng, et autres
Publié: (2024)

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
par: Wei, Meng, et autres
Publié: (2025)

Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments
par: Hong, Haodong, et autres
Publié: (2024)

Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation
par: Gao, Junyu, et autres
Publié: (2023)

Generalizing to Out-of-Sample Degradations via Model Reprogramming
par: Jiang, Runhua, et autres
Publié: (2024)

Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs
par: Qiao, Yanyuan, et autres
Publié: (2024)

SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model
par: Ding, Zongcan, et autres
Publié: (2025)

Visual Consensus Prompting for Co-Salient Object Detection
par: Wang, Jie, et autres
Publié: (2025)

Fast-Slow Thinking GRPO for Large Vision-Language Model Reasoning
par: Xiao, Wenyi, et autres
Publié: (2025)

PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis
par: Li, Dexiang, et autres
Publié: (2026)

Volumetric Environment Representation for Vision-Language Navigation
par: Liu, Rui, et autres
Publié: (2024)

A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
par: Li, Chenxuan, et autres
Publié: (2024)

World-Consistent Data Generation for Vision-and-Language Navigation
par: Zhong, Yu, et autres
Publié: (2024)

ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation
par: Xue, Wei, et autres
Publié: (2026)

AutoLayout: Closed-Loop Layout Synthesis via Slow-Fast Collaborative Reasoning
par: Chen, Weixing, et autres
Publié: (2025)

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning
par: Li, Xueying, et autres
Publié: (2026)

Learning to Think Fast and Slow for Visual Language Models
par: Lin, Chenyu, et autres
Publié: (2025)

Interactive Continual Learning: Fast and Slow Thinking
par: Qi, Biqing, et autres
Publié: (2024)

Fine-Grained Instruction-Guided Graph Reasoning for Vision-and-Language Navigation
par: Liu, Yaohua, et autres
Publié: (2025)

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning
par: Yang, Jie, et autres
Publié: (2025)

Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations
par: Cui, Yibo, et autres
Publié: (2025)

Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
par: Han, Bin, et autres
Publié: (2024)

SlowFast-SCI: Slow-Fast Deep Unfolding Learning for Spectral Compressive Imaging
par: Zeng, Haijin, et autres
Publié: (2025)

Navigation Instruction Generation with BEV Perception and Large Language Models
par: Fan, Sheng, et autres
Publié: (2024)

Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
par: Song, Xinshuai, et autres
Publié: (2024)

Multi-Source Collaborative Gradient Discrepancy Minimization for Federated Domain Generalization
par: Wei, Yikang, et autres
Publié: (2024)

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
par: Wang, Xiangyu, et autres
Publié: (2024)

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
par: Wang, Jie, et autres
Publié: (2026)

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
par: Zhang, Jianshu, et autres
Publié: (2026)

DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes
par: Wang, Zhaowei, et autres
Publié: (2024)

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
par: Hong, Yining, et autres
Publié: (2024)

FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models
par: Yang, Yiming, et autres
Publié: (2025)

Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning
par: Etesam, Yasaman, et autres
Publié: (2023)

doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation
par: Roy, Parthib, et autres
Publié: (2024)

Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
par: Xu, Ming, et autres
Publié: (2024)