:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Mao, Yiming, Yu, Zixi, Mao, Weixin, Li, Yinhao, Hu, Qirui, Lan, Zihan, Zhu, Minzhao, Chen, Hua
Format:	Preprint
Published:	2026
Subjects:	Robotics Artificial Intelligence Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2604.03037
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation
by: Lan, Zihan, et al.
Published: (2025)

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model
by: Li, Haosheng, et al.
Published: (2026)

VAT: Vision Action Transformer by Unlocking Full Representation of ViT
by: Li, Wenhao, et al.
Published: (2025)

ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
by: Wang, Kaijun, et al.
Published: (2025)

SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
by: Zhou, Zihan, et al.
Published: (2024)

RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World
by: Mao, Weixin, et al.
Published: (2024)

ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation
by: Qian, Jingjing, et al.
Published: (2026)

Generalizable Dense Reward for Long-Horizon Robotic Tasks
by: Yong, Silong, et al.
Published: (2026)

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation
by: Guo, Xinying, et al.
Published: (2026)

WildLMa: Long Horizon Loco-Manipulation in the Wild
by: Qiu, Ri-Zhao, et al.
Published: (2024)

MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
by: Zhang, Ruicheng, et al.
Published: (2025)

LongNav-R1: Horizon-Adaptive Multi-Turn RL for Long-Horizon VLA Navigation
by: Hu, Yue, et al.
Published: (2026)

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
by: Cheang, Chi-Lam, et al.
Published: (2024)

Residual-NeRF: Learning Residual NeRFs for Transparent Object Manipulation
by: Duisterhof, Bardienus P., et al.
Published: (2024)

SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control
by: Huang, Binyuan, et al.
Published: (2024)

SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning
by: Zhang, Haichao, et al.
Published: (2025)

Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation
by: Wu, Yiming, et al.
Published: (2026)

Towards Real-Time Gaussian Splatting: Accelerating 3DGS through Photometric SLAM
by: Hu, Yan Song, et al.
Published: (2024)

Long-Term Memory for VLA-based Agents in Open-World Task Execution
by: Huang, Xu, et al.
Published: (2026)

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning
by: Fu, Jiahui, et al.
Published: (2026)

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation
by: Lian, Shijie, et al.
Published: (2026)

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement
by: Qiu, Weikang, et al.
Published: (2026)

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
by: Zhang, Shiduo, et al.
Published: (2024)

World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks
by: Lin, Zuyao, et al.
Published: (2026)

Multi-GraspLLM: A Multimodal LLM for Multi-Hand Semantic Guided Grasp Generation
by: Li, Haosheng, et al.
Published: (2024)

Vidar: Embodied Video Diffusion Model for Generalist Manipulation
by: Feng, Yao, et al.
Published: (2025)

RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
by: Kuang, Yuxuan, et al.
Published: (2024)

AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation
by: Tan, Hengkai, et al.
Published: (2025)

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models
by: Lei, Zixing, et al.
Published: (2026)

Don't Let Your Robot be Harmful: Responsible Robotic Manipulation via Safety-as-Policy
by: Ni, Minheng, et al.
Published: (2024)

Future Predictive Success-or-Failure Classification for Long-Horizon Robotic Tasks
by: Sogi, Naoya, et al.
Published: (2024)

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation
by: Wang, Zhi, et al.
Published: (2026)

One-Shot Manipulation Strategy Learning by Making Contact Analogies
by: Liu, Yuyao, et al.
Published: (2024)

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation
by: Zhao, Hongxiang, et al.
Published: (2025)

From Instruction to Event: Sound-Triggered Mobile Manipulation
by: Ju, Hao, et al.
Published: (2026)

Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning
by: Escoriza, Adrià López, et al.
Published: (2025)

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation
by: Zhou, Kaichen, et al.
Published: (2026)

DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving
by: Zhang, Lingjun, et al.
Published: (2026)

MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models
by: Zhou, Xunlan, et al.
Published: (2026)

REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation
by: Yuan, Puzhen, et al.
Published: (2025)