:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Lin, Jinzhou, Gao, Han, Feng, Xuxiang, Xu, Rongtao, Wang, Changwei, Zhang, Man, Guo, Li, Xu, Shibiao
Natura:	Preprint
Pubblicazione:	2023
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2311.00530
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Local Feature Matching Using Deep Learning: A Survey
di: Xu, Shibiao, et al.
Pubblicazione: (2024)

FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation
di: Zhang, Zherui, et al.
Pubblicazione: (2025)

SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection
di: Xu, Wenhao, et al.
Pubblicazione: (2025)

Generalization Boosted Adapter for Open-Vocabulary Segmentation
di: Xu, Wenhao, et al.
Pubblicazione: (2024)

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
di: Xu, Rongtao, et al.
Pubblicazione: (2025)

Vision-Language Navigation with Embodied Intelligence: A Survey
di: Gao, Peng, et al.
Pubblicazione: (2024)

Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation
di: Xu, Wenhao, et al.
Pubblicazione: (2023)

EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning
di: Lin, Bingqian, et al.
Pubblicazione: (2025)

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
di: Xu, Rongtao, et al.
Pubblicazione: (2025)

A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science
di: Feng, Jie, et al.
Pubblicazione: (2025)

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition
di: Chen, Shunpeng, et al.
Pubblicazione: (2025)

PSTNet: Enhanced Polyp Segmentation with Multi-scale Alignment and Frequency Domain Integration
di: Xu, Wenhao, et al.
Pubblicazione: (2024)

CurriFlow: Curriculum-Guided Depth Fusion with Optical Flow-Based Temporal Alignment for 3D Semantic Scene Completion
di: Lin, Jinzhou, et al.
Pubblicazione: (2025)

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision
di: Han, Xiaofeng, et al.
Pubblicazione: (2025)

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
di: Zhu, Weiye, et al.
Pubblicazione: (2026)

LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel
di: Feng, Zhe, et al.
Pubblicazione: (2026)

ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation
di: Zhang, Zekai, et al.
Pubblicazione: (2025)

Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
di: Xu, Huilin, et al.
Pubblicazione: (2025)

CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation
di: Zhang, Zherui, et al.
Pubblicazione: (2025)

FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes
di: Zhang, Genghao, et al.
Pubblicazione: (2024)

Safety of Embodied Navigation: A Survey
di: Wang, Zixia, et al.
Pubblicazione: (2025)

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers
di: Huang, Kaiyu, et al.
Pubblicazione: (2024)

SkinFormer: Learning Statistical Texture Representation with Transformer for Skin Lesion Segmentation
di: Xu, Rongtao, et al.
Pubblicazione: (2024)

How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace
di: Zhao, Baining, et al.
Pubblicazione: (2026)

Image Recognition with Online Lightweight Vision Transformer: A Survey
di: Zhang, Zherui, et al.
Pubblicazione: (2025)

Survey of Vision-Language-Action Models for Embodied Manipulation
di: Li, Haoran, et al.
Pubblicazione: (2025)

Navigation-GPT: A Robust and Adaptive Framework Utilizing Large Language Models for Navigation Applications
di: Ma, Feng, et al.
Pubblicazione: (2025)

KVNAND: Efficient On-Device Large Language Model Inference Using DRAM-Free In-Flash Computing
di: Deng, Lishuo, et al.
Pubblicazione: (2025)

Lifelong Embodied Navigation Learning
di: Wang, Xudong, et al.
Pubblicazione: (2026)

A Survey on Robotics with Foundation Models: toward Embodied AI
di: Xu, Zhiyuan, et al.
Pubblicazione: (2024)

Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models
di: Zhang, Zhen, et al.
Pubblicazione: (2023)

Navigating the OverKill in Large Language Models
di: Shi, Chenyu, et al.
Pubblicazione: (2024)

Rethinking Data Mixing from the Perspective of Large Language Models
di: Xu, Yuanjian, et al.
Pubblicazione: (2026)

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI
di: Wong, Lik Hang Kenny, et al.
Pubblicazione: (2025)

Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment
di: Tang, Jinzhou, et al.
Pubblicazione: (2025)

Segment Anything Model is a Good Teacher for Local Feature Learning
di: Wu, Jingqian, et al.
Pubblicazione: (2023)

Trustworthy Large Models in Vision: A Survey
di: Guo, Ziyan, et al.
Pubblicazione: (2023)

AINav: Large Language Model-Based Adaptive Interactive Navigation
di: Zhou, Kangjie, et al.
Pubblicazione: (2025)

A Survey of Attacks on Large Language Models
di: Xu, Wenrui, et al.
Pubblicazione: (2025)

Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation
di: Zhang, Lingfeng, et al.
Pubblicazione: (2025)