Salvato in:
| Autori principali: | Lin, Jinzhou, Gao, Han, Feng, Xuxiang, Xu, Rongtao, Wang, Changwei, Zhang, Man, Guo, Li, Xu, Shibiao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2023
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2311.00530 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Local Feature Matching Using Deep Learning: A Survey
di: Xu, Shibiao, et al.
Pubblicazione: (2024)
di: Xu, Shibiao, et al.
Pubblicazione: (2024)
FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection
di: Xu, Wenhao, et al.
Pubblicazione: (2025)
di: Xu, Wenhao, et al.
Pubblicazione: (2025)
Generalization Boosted Adapter for Open-Vocabulary Segmentation
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
di: Xu, Rongtao, et al.
Pubblicazione: (2025)
di: Xu, Rongtao, et al.
Pubblicazione: (2025)
Vision-Language Navigation with Embodied Intelligence: A Survey
di: Gao, Peng, et al.
Pubblicazione: (2024)
di: Gao, Peng, et al.
Pubblicazione: (2024)
Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation
di: Xu, Wenhao, et al.
Pubblicazione: (2023)
di: Xu, Wenhao, et al.
Pubblicazione: (2023)
EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning
di: Lin, Bingqian, et al.
Pubblicazione: (2025)
di: Lin, Bingqian, et al.
Pubblicazione: (2025)
Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
di: Xu, Rongtao, et al.
Pubblicazione: (2025)
di: Xu, Rongtao, et al.
Pubblicazione: (2025)
A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science
di: Feng, Jie, et al.
Pubblicazione: (2025)
di: Feng, Jie, et al.
Pubblicazione: (2025)
SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition
di: Chen, Shunpeng, et al.
Pubblicazione: (2025)
di: Chen, Shunpeng, et al.
Pubblicazione: (2025)
PSTNet: Enhanced Polyp Segmentation with Multi-scale Alignment and Frequency Domain Integration
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
di: Xu, Wenhao, et al.
Pubblicazione: (2024)
CurriFlow: Curriculum-Guided Depth Fusion with Optical Flow-Based Temporal Alignment for 3D Semantic Scene Completion
di: Lin, Jinzhou, et al.
Pubblicazione: (2025)
di: Lin, Jinzhou, et al.
Pubblicazione: (2025)
Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision
di: Han, Xiaofeng, et al.
Pubblicazione: (2025)
di: Han, Xiaofeng, et al.
Pubblicazione: (2025)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
di: Zhu, Weiye, et al.
Pubblicazione: (2026)
di: Zhu, Weiye, et al.
Pubblicazione: (2026)
LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel
di: Feng, Zhe, et al.
Pubblicazione: (2026)
di: Feng, Zhe, et al.
Pubblicazione: (2026)
ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation
di: Zhang, Zekai, et al.
Pubblicazione: (2025)
di: Zhang, Zekai, et al.
Pubblicazione: (2025)
Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
di: Xu, Huilin, et al.
Pubblicazione: (2025)
di: Xu, Huilin, et al.
Pubblicazione: (2025)
CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes
di: Zhang, Genghao, et al.
Pubblicazione: (2024)
di: Zhang, Genghao, et al.
Pubblicazione: (2024)
Safety of Embodied Navigation: A Survey
di: Wang, Zixia, et al.
Pubblicazione: (2025)
di: Wang, Zixia, et al.
Pubblicazione: (2025)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers
di: Huang, Kaiyu, et al.
Pubblicazione: (2024)
di: Huang, Kaiyu, et al.
Pubblicazione: (2024)
SkinFormer: Learning Statistical Texture Representation with Transformer for Skin Lesion Segmentation
di: Xu, Rongtao, et al.
Pubblicazione: (2024)
di: Xu, Rongtao, et al.
Pubblicazione: (2024)
How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace
di: Zhao, Baining, et al.
Pubblicazione: (2026)
di: Zhao, Baining, et al.
Pubblicazione: (2026)
Image Recognition with Online Lightweight Vision Transformer: A Survey
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
di: Zhang, Zherui, et al.
Pubblicazione: (2025)
Survey of Vision-Language-Action Models for Embodied Manipulation
di: Li, Haoran, et al.
Pubblicazione: (2025)
di: Li, Haoran, et al.
Pubblicazione: (2025)
Navigation-GPT: A Robust and Adaptive Framework Utilizing Large Language Models for Navigation Applications
di: Ma, Feng, et al.
Pubblicazione: (2025)
di: Ma, Feng, et al.
Pubblicazione: (2025)
KVNAND: Efficient On-Device Large Language Model Inference Using DRAM-Free In-Flash Computing
di: Deng, Lishuo, et al.
Pubblicazione: (2025)
di: Deng, Lishuo, et al.
Pubblicazione: (2025)
Lifelong Embodied Navigation Learning
di: Wang, Xudong, et al.
Pubblicazione: (2026)
di: Wang, Xudong, et al.
Pubblicazione: (2026)
A Survey on Robotics with Foundation Models: toward Embodied AI
di: Xu, Zhiyuan, et al.
Pubblicazione: (2024)
di: Xu, Zhiyuan, et al.
Pubblicazione: (2024)
Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models
di: Zhang, Zhen, et al.
Pubblicazione: (2023)
di: Zhang, Zhen, et al.
Pubblicazione: (2023)
Navigating the OverKill in Large Language Models
di: Shi, Chenyu, et al.
Pubblicazione: (2024)
di: Shi, Chenyu, et al.
Pubblicazione: (2024)
Rethinking Data Mixing from the Perspective of Large Language Models
di: Xu, Yuanjian, et al.
Pubblicazione: (2026)
di: Xu, Yuanjian, et al.
Pubblicazione: (2026)
A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI
di: Wong, Lik Hang Kenny, et al.
Pubblicazione: (2025)
di: Wong, Lik Hang Kenny, et al.
Pubblicazione: (2025)
Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment
di: Tang, Jinzhou, et al.
Pubblicazione: (2025)
di: Tang, Jinzhou, et al.
Pubblicazione: (2025)
Segment Anything Model is a Good Teacher for Local Feature Learning
di: Wu, Jingqian, et al.
Pubblicazione: (2023)
di: Wu, Jingqian, et al.
Pubblicazione: (2023)
Trustworthy Large Models in Vision: A Survey
di: Guo, Ziyan, et al.
Pubblicazione: (2023)
di: Guo, Ziyan, et al.
Pubblicazione: (2023)
AINav: Large Language Model-Based Adaptive Interactive Navigation
di: Zhou, Kangjie, et al.
Pubblicazione: (2025)
di: Zhou, Kangjie, et al.
Pubblicazione: (2025)
A Survey of Attacks on Large Language Models
di: Xu, Wenrui, et al.
Pubblicazione: (2025)
di: Xu, Wenrui, et al.
Pubblicazione: (2025)
Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation
di: Zhang, Lingfeng, et al.
Pubblicazione: (2025)
di: Zhang, Lingfeng, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Local Feature Matching Using Deep Learning: A Survey
di: Xu, Shibiao, et al.
Pubblicazione: (2024) -
FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation
di: Zhang, Zherui, et al.
Pubblicazione: (2025) -
SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection
di: Xu, Wenhao, et al.
Pubblicazione: (2025) -
Generalization Boosted Adapter for Open-Vocabulary Segmentation
di: Xu, Wenhao, et al.
Pubblicazione: (2024) -
3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
di: Xu, Rongtao, et al.
Pubblicazione: (2025)