Gespeichert in:
| Hauptverfasser: | Cheng, Jintao, Wang, Haozhe, Li, Weibin, Wang, Gang, Zhang, Yipu, Tang, Xiaoyu, Wu, Jin, Chen, Xieyuanli, Liu, Yunhui, Zhang, Wei |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2603.22991 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
von: Yang, Yantai, et al.
Veröffentlicht: (2025)
von: Yang, Yantai, et al.
Veröffentlicht: (2025)
ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
von: Sha, Lin, et al.
Veröffentlicht: (2026)
von: Sha, Lin, et al.
Veröffentlicht: (2026)
RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models
von: Zhang, Hongyin, et al.
Veröffentlicht: (2025)
von: Zhang, Hongyin, et al.
Veröffentlicht: (2025)
Bridging the Semantic-Action Gap in Visual Token Pruning for Efficient VLA Inference
von: Liu, Ziyan, et al.
Veröffentlicht: (2025)
von: Liu, Ziyan, et al.
Veröffentlicht: (2025)
CV-MOS: A Cross-View Model for Motion Segmentation
von: Tang, Xiaoyu, et al.
Veröffentlicht: (2024)
von: Tang, Xiaoyu, et al.
Veröffentlicht: (2024)
SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
von: Wang, Hanzhen, et al.
Veröffentlicht: (2025)
von: Wang, Hanzhen, et al.
Veröffentlicht: (2025)
A Pseudo Global Fusion Paradigm-Based Cross-View Network for LiDAR-Based Place Recognition
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
von: Zhang, Jianke, et al.
Veröffentlicht: (2026)
von: Zhang, Jianke, et al.
Veröffentlicht: (2026)
ST4VLA: Spatially Guided Training for Vision-Language-Action Models
von: Ye, Jinhui, et al.
Veröffentlicht: (2026)
von: Ye, Jinhui, et al.
Veröffentlicht: (2026)
IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
von: Sun, Zhichao, et al.
Veröffentlicht: (2026)
von: Sun, Zhichao, et al.
Veröffentlicht: (2026)
FocusVLA: Focused Visual Utilization for Vision-Language-Action Models
von: Zhang, Yichi, et al.
Veröffentlicht: (2026)
von: Zhang, Yichi, et al.
Veröffentlicht: (2026)
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
von: Zhang, Jingxuan, et al.
Veröffentlicht: (2026)
von: Zhang, Jingxuan, et al.
Veröffentlicht: (2026)
Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)
von: Cheng, Jintao, et al.
Veröffentlicht: (2025)
ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models
von: Kim, Youngeun, et al.
Veröffentlicht: (2025)
von: Kim, Youngeun, et al.
Veröffentlicht: (2025)
CoA-VLA: Improving Vision-Language-Action Models via Visual-Textual Chain-of-Affordance
von: Li, Jinming, et al.
Veröffentlicht: (2024)
von: Li, Jinming, et al.
Veröffentlicht: (2024)
CRL-VLA: Continual Vision-Language-Action Learning
von: Zeng, Qixin, et al.
Veröffentlicht: (2026)
von: Zeng, Qixin, et al.
Veröffentlicht: (2026)
VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models
von: Wang, Hao, et al.
Veröffentlicht: (2026)
von: Wang, Hao, et al.
Veröffentlicht: (2026)
Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
von: Jin, Ruofan, et al.
Veröffentlicht: (2026)
von: Jin, Ruofan, et al.
Veröffentlicht: (2026)
SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
von: Ma, Shilin, et al.
Veröffentlicht: (2026)
von: Ma, Shilin, et al.
Veröffentlicht: (2026)
AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
von: Xiao, Lei, et al.
Veröffentlicht: (2025)
von: Xiao, Lei, et al.
Veröffentlicht: (2025)
EvoVLA: Self-Evolving Vision-Language-Action Model
von: Liu, Zeting, et al.
Veröffentlicht: (2025)
von: Liu, Zeting, et al.
Veröffentlicht: (2025)
OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition
von: Xiang, Qiuchi, et al.
Veröffentlicht: (2024)
von: Xiang, Qiuchi, et al.
Veröffentlicht: (2024)
MF-MOS: A Motion-Focused Model for Moving Object Segmentation
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)
MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)
von: Cheng, Jintao, et al.
Veröffentlicht: (2024)
VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing
von: Shi, Haoyuan, et al.
Veröffentlicht: (2026)
von: Shi, Haoyuan, et al.
Veröffentlicht: (2026)
CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
von: Tang, Zicong, et al.
Veröffentlicht: (2025)
von: Tang, Zicong, et al.
Veröffentlicht: (2025)
IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
von: Jiang, Anqing, et al.
Veröffentlicht: (2025)
von: Jiang, Anqing, et al.
Veröffentlicht: (2025)
FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models
von: Wang, Xin, et al.
Veröffentlicht: (2025)
von: Wang, Xin, et al.
Veröffentlicht: (2025)
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
von: Ye, Angen, et al.
Veröffentlicht: (2025)
von: Ye, Angen, et al.
Veröffentlicht: (2025)
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
von: Xie, Haozhe, et al.
Veröffentlicht: (2026)
von: Xie, Haozhe, et al.
Veröffentlicht: (2026)
VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
von: Wang, Yating, et al.
Veröffentlicht: (2025)
von: Wang, Yating, et al.
Veröffentlicht: (2025)
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
von: Xu, Siyu, et al.
Veröffentlicht: (2025)
von: Xu, Siyu, et al.
Veröffentlicht: (2025)
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
von: Ma, Guoqing, et al.
Veröffentlicht: (2026)
von: Ma, Guoqing, et al.
Veröffentlicht: (2026)
FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies
von: Hu, Xintong, et al.
Veröffentlicht: (2026)
von: Hu, Xintong, et al.
Veröffentlicht: (2026)
StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
von: Deng, Shengliang, et al.
Veröffentlicht: (2025)
von: Deng, Shengliang, et al.
Veröffentlicht: (2025)
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
von: Zhou, Zhongyi, et al.
Veröffentlicht: (2025)
von: Zhou, Zhongyi, et al.
Veröffentlicht: (2025)
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
von: Wang, Zixuan, et al.
Veröffentlicht: (2026)
von: Wang, Zixuan, et al.
Veröffentlicht: (2026)
UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
von: Li, Anqi, et al.
Veröffentlicht: (2025)
von: Li, Anqi, et al.
Veröffentlicht: (2025)
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots
von: Ding, Pengxiang, et al.
Veröffentlicht: (2023)
von: Ding, Pengxiang, et al.
Veröffentlicht: (2023)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
von: Li, Ye, et al.
Veröffentlicht: (2025)
von: Li, Ye, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
von: Yang, Yantai, et al.
Veröffentlicht: (2025) -
ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving
von: Sha, Lin, et al.
Veröffentlicht: (2026) -
RobustVLA: Robustness-Aware Reinforcement Post-Training for Vision-Language-Action Models
von: Zhang, Hongyin, et al.
Veröffentlicht: (2025) -
Bridging the Semantic-Action Gap in Visual Token Pruning for Efficient VLA Inference
von: Liu, Ziyan, et al.
Veröffentlicht: (2025) -
CV-MOS: A Cross-View Model for Motion Segmentation
von: Tang, Xiaoyu, et al.
Veröffentlicht: (2024)