Enregistré dans:
| Auteurs principaux: | Li, Yang, Wu, Aming, Zhang, Zihao, Han, Yahong |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2601.09111 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning
par: Li, Yang, et autres
Publié: (2025)
par: Li, Yang, et autres
Publié: (2025)
Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection
par: Zhang, Zihao, et autres
Publié: (2025)
par: Zhang, Zihao, et autres
Publié: (2025)
Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection
par: Zhang, Zihao, et autres
Publié: (2025)
par: Zhang, Zihao, et autres
Publié: (2025)
Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation
par: Zhang, Xitie, et autres
Publié: (2026)
par: Zhang, Xitie, et autres
Publié: (2026)
Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios
par: Li, Deng, et autres
Publié: (2025)
par: Li, Deng, et autres
Publié: (2025)
Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization
par: Li, Deng, et autres
Publié: (2024)
par: Li, Deng, et autres
Publié: (2024)
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
par: Wei, Meng, et autres
Publié: (2025)
par: Wei, Meng, et autres
Publié: (2025)
Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments
par: Hong, Haodong, et autres
Publié: (2024)
par: Hong, Haodong, et autres
Publié: (2024)
Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation
par: Gao, Junyu, et autres
Publié: (2023)
par: Gao, Junyu, et autres
Publié: (2023)
Generalizing to Out-of-Sample Degradations via Model Reprogramming
par: Jiang, Runhua, et autres
Publié: (2024)
par: Jiang, Runhua, et autres
Publié: (2024)
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs
par: Qiao, Yanyuan, et autres
Publié: (2024)
par: Qiao, Yanyuan, et autres
Publié: (2024)
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model
par: Ding, Zongcan, et autres
Publié: (2025)
par: Ding, Zongcan, et autres
Publié: (2025)
Visual Consensus Prompting for Co-Salient Object Detection
par: Wang, Jie, et autres
Publié: (2025)
par: Wang, Jie, et autres
Publié: (2025)
Fast-Slow Thinking GRPO for Large Vision-Language Model Reasoning
par: Xiao, Wenyi, et autres
Publié: (2025)
par: Xiao, Wenyi, et autres
Publié: (2025)
PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis
par: Li, Dexiang, et autres
Publié: (2026)
par: Li, Dexiang, et autres
Publié: (2026)
Volumetric Environment Representation for Vision-Language Navigation
par: Liu, Rui, et autres
Publié: (2024)
par: Liu, Rui, et autres
Publié: (2024)
A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
par: Li, Chenxuan, et autres
Publié: (2024)
par: Li, Chenxuan, et autres
Publié: (2024)
World-Consistent Data Generation for Vision-and-Language Navigation
par: Zhong, Yu, et autres
Publié: (2024)
par: Zhong, Yu, et autres
Publié: (2024)
ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation
par: Xue, Wei, et autres
Publié: (2026)
par: Xue, Wei, et autres
Publié: (2026)
AutoLayout: Closed-Loop Layout Synthesis via Slow-Fast Collaborative Reasoning
par: Chen, Weixing, et autres
Publié: (2025)
par: Chen, Weixing, et autres
Publié: (2025)
Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning
par: Li, Xueying, et autres
Publié: (2026)
par: Li, Xueying, et autres
Publié: (2026)
Learning to Think Fast and Slow for Visual Language Models
par: Lin, Chenyu, et autres
Publié: (2025)
par: Lin, Chenyu, et autres
Publié: (2025)
Interactive Continual Learning: Fast and Slow Thinking
par: Qi, Biqing, et autres
Publié: (2024)
par: Qi, Biqing, et autres
Publié: (2024)
Fine-Grained Instruction-Guided Graph Reasoning for Vision-and-Language Navigation
par: Liu, Yaohua, et autres
Publié: (2025)
par: Liu, Yaohua, et autres
Publié: (2025)
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning
par: Yang, Jie, et autres
Publié: (2025)
par: Yang, Jie, et autres
Publié: (2025)
Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations
par: Cui, Yibo, et autres
Publié: (2025)
par: Cui, Yibo, et autres
Publié: (2025)
Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper)
par: Han, Bin, et autres
Publié: (2024)
par: Han, Bin, et autres
Publié: (2024)
SlowFast-SCI: Slow-Fast Deep Unfolding Learning for Spectral Compressive Imaging
par: Zeng, Haijin, et autres
Publié: (2025)
par: Zeng, Haijin, et autres
Publié: (2025)
Navigation Instruction Generation with BEV Perception and Large Language Models
par: Fan, Sheng, et autres
Publié: (2024)
par: Fan, Sheng, et autres
Publié: (2024)
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
par: Song, Xinshuai, et autres
Publié: (2024)
par: Song, Xinshuai, et autres
Publié: (2024)
Multi-Source Collaborative Gradient Discrepancy Minimization for Federated Domain Generalization
par: Wei, Yikang, et autres
Publié: (2024)
par: Wei, Yikang, et autres
Publié: (2024)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
par: Wang, Xiangyu, et autres
Publié: (2024)
par: Wang, Xiangyu, et autres
Publié: (2024)
VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
par: Wang, Jie, et autres
Publié: (2026)
par: Wang, Jie, et autres
Publié: (2026)
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
par: Zhang, Jianshu, et autres
Publié: (2026)
par: Zhang, Jianshu, et autres
Publié: (2026)
DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes
par: Wang, Zhaowei, et autres
Publié: (2024)
par: Wang, Zhaowei, et autres
Publié: (2024)
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
par: Hong, Yining, et autres
Publié: (2024)
par: Hong, Yining, et autres
Publié: (2024)
FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models
par: Yang, Yiming, et autres
Publié: (2025)
par: Yang, Yiming, et autres
Publié: (2025)
Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning
par: Etesam, Yasaman, et autres
Publié: (2023)
par: Etesam, Yasaman, et autres
Publié: (2023)
doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation
par: Roy, Parthib, et autres
Publié: (2024)
par: Roy, Parthib, et autres
Publié: (2024)
Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation
par: Xu, Ming, et autres
Publié: (2024)
par: Xu, Ming, et autres
Publié: (2024)
Documents similaires
-
Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning
par: Li, Yang, et autres
Publié: (2025) -
Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection
par: Zhang, Zihao, et autres
Publié: (2025) -
Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection
par: Zhang, Zihao, et autres
Publié: (2025) -
Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation
par: Zhang, Xitie, et autres
Publié: (2026) -
Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios
par: Li, Deng, et autres
Publié: (2025)