Salvato in:
| Autori principali: | Xu, Yi, Zhang, Yesheng, Liu, Jiajia, Chen, Jingdong |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.16271 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models
di: Xu, Haochuan, et al.
Pubblicazione: (2025)
di: Xu, Haochuan, et al.
Pubblicazione: (2025)
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
di: Guruprasad, Pranav, et al.
Pubblicazione: (2025)
di: Guruprasad, Pranav, et al.
Pubblicazione: (2025)
Assessing Model Generalization in Vicinity
di: Liu, Yuchi, et al.
Pubblicazione: (2024)
di: Liu, Yuchi, et al.
Pubblicazione: (2024)
Improving Vision-Language-Action Model with Online Reinforcement Learning
di: Guo, Yanjiang, et al.
Pubblicazione: (2025)
di: Guo, Yanjiang, et al.
Pubblicazione: (2025)
EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models
di: Jiang, Feng, et al.
Pubblicazione: (2025)
di: Jiang, Feng, et al.
Pubblicazione: (2025)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision
di: Xu, Yi, et al.
Pubblicazione: (2024)
di: Xu, Yi, et al.
Pubblicazione: (2024)
PVI: Plug-in Visual Injection for Vision-Language-Action Models
di: Zhang, Zezhou, et al.
Pubblicazione: (2026)
di: Zhang, Zezhou, et al.
Pubblicazione: (2026)
Android in the Zoo: Chain-of-Action-Thought for GUI Agents
di: Zhang, Jiwen, et al.
Pubblicazione: (2024)
di: Zhang, Jiwen, et al.
Pubblicazione: (2024)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration
di: Fan, Yue, et al.
Pubblicazione: (2025)
di: Fan, Yue, et al.
Pubblicazione: (2025)
Towards Understanding How Knowledge Evolves in Large Vision-Language Models
di: Wang, Sudong, et al.
Pubblicazione: (2025)
di: Wang, Sudong, et al.
Pubblicazione: (2025)
LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization
di: Tang, Jiaqi, et al.
Pubblicazione: (2025)
di: Tang, Jiaqi, et al.
Pubblicazione: (2025)
From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
di: Zhang, Zhengshen, et al.
Pubblicazione: (2025)
di: Zhang, Zhengshen, et al.
Pubblicazione: (2025)
ViTime: Foundation Model for Time Series Forecasting Powered by Vision Intelligence
di: Yang, Luoxiao, et al.
Pubblicazione: (2024)
di: Yang, Luoxiao, et al.
Pubblicazione: (2024)
Tactile Modality Fusion for Vision-Language-Action Models
di: Morissette, Charlotte, et al.
Pubblicazione: (2026)
di: Morissette, Charlotte, et al.
Pubblicazione: (2026)
Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges
di: Li, Jiajia, et al.
Pubblicazione: (2023)
di: Li, Jiajia, et al.
Pubblicazione: (2023)
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
di: Zhou, Zhongyi, et al.
Pubblicazione: (2025)
di: Zhou, Zhongyi, et al.
Pubblicazione: (2025)
Continual GUI Agents
di: Liu, Ziwei, et al.
Pubblicazione: (2026)
di: Liu, Ziwei, et al.
Pubblicazione: (2026)
Sherlock: Self-Correcting Reasoning in Vision-Language Models
di: Ding, Yi, et al.
Pubblicazione: (2025)
di: Ding, Yi, et al.
Pubblicazione: (2025)
Linear Spaces of Meanings: Compositional Structures in Vision-Language Models
di: Trager, Matthew, et al.
Pubblicazione: (2023)
di: Trager, Matthew, et al.
Pubblicazione: (2023)
Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance
di: Liu, Hui, et al.
Pubblicazione: (2025)
di: Liu, Hui, et al.
Pubblicazione: (2025)
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
di: Guruprasad, Pranav, et al.
Pubblicazione: (2024)
di: Guruprasad, Pranav, et al.
Pubblicazione: (2024)
VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
di: Li, Long, et al.
Pubblicazione: (2025)
di: Li, Long, et al.
Pubblicazione: (2025)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
di: Li, Xu, et al.
Pubblicazione: (2024)
di: Li, Xu, et al.
Pubblicazione: (2024)
Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure
di: Chakraborty, Trishna, et al.
Pubblicazione: (2026)
di: Chakraborty, Trishna, et al.
Pubblicazione: (2026)
A Survey on Efficient Vision-Language-Action Models
di: Yu, Zhaoshu, et al.
Pubblicazione: (2025)
di: Yu, Zhaoshu, et al.
Pubblicazione: (2025)
Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects
di: Zhou, Zirun, et al.
Pubblicazione: (2025)
di: Zhou, Zirun, et al.
Pubblicazione: (2025)
Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations
di: Grover, Shresth, et al.
Pubblicazione: (2025)
di: Grover, Shresth, et al.
Pubblicazione: (2025)
SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models
di: Sivakumar, Anushka, et al.
Pubblicazione: (2025)
di: Sivakumar, Anushka, et al.
Pubblicazione: (2025)
Towards Interpreting Visual Information Processing in Vision-Language Models
di: Neo, Clement, et al.
Pubblicazione: (2024)
di: Neo, Clement, et al.
Pubblicazione: (2024)
Towards Compatible Fine-tuning for Vision-Language Model Updates
di: Wang, Zhengbo, et al.
Pubblicazione: (2024)
di: Wang, Zhengbo, et al.
Pubblicazione: (2024)
Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
di: Shandilya, Utkarsh, et al.
Pubblicazione: (2025)
di: Shandilya, Utkarsh, et al.
Pubblicazione: (2025)
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
di: Cheang, Chi-Lam, et al.
Pubblicazione: (2024)
di: Cheang, Chi-Lam, et al.
Pubblicazione: (2024)
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
di: Luo, Hao, et al.
Pubblicazione: (2025)
di: Luo, Hao, et al.
Pubblicazione: (2025)
Test-Time Training for Visual Foresight Vision-Language-Action Models
di: Park, Sangwu, et al.
Pubblicazione: (2026)
di: Park, Sangwu, et al.
Pubblicazione: (2026)
Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
di: Kawaharazuka, Kento, et al.
Pubblicazione: (2025)
di: Kawaharazuka, Kento, et al.
Pubblicazione: (2025)
Vision and Language Integration for Domain Generalization
di: Wang, Yanmei, et al.
Pubblicazione: (2025)
di: Wang, Yanmei, et al.
Pubblicazione: (2025)
Bridging Vision and Language Spaces with Assignment Prediction
di: Park, Jungin, et al.
Pubblicazione: (2024)
di: Park, Jungin, et al.
Pubblicazione: (2024)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
di: Li, Qixiu, et al.
Pubblicazione: (2024)
di: Li, Qixiu, et al.
Pubblicazione: (2024)
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
di: Xu, Siyu, et al.
Pubblicazione: (2025)
di: Xu, Siyu, et al.
Pubblicazione: (2025)
Towards Statistical Factuality Guarantee for Large Vision-Language Models
di: Li, Zhuohang, et al.
Pubblicazione: (2025)
di: Li, Zhuohang, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models
di: Xu, Haochuan, et al.
Pubblicazione: (2025) -
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
di: Guruprasad, Pranav, et al.
Pubblicazione: (2025) -
Assessing Model Generalization in Vicinity
di: Liu, Yuchi, et al.
Pubblicazione: (2024) -
Improving Vision-Language-Action Model with Online Reinforcement Learning
di: Guo, Yanjiang, et al.
Pubblicazione: (2025) -
EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models
di: Jiang, Feng, et al.
Pubblicazione: (2025)