Enregistré dans:
| Auteurs principaux: | Liu, Xunzhuo, He, Bowei, Liu, Xue, Luo, Andy, Zhang, Haichen, Chen, Huamin |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2603.12823 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
Video-Based Reward Modeling for Computer-Use Agents
par: Song, Linxin, et autres
Publié: (2026)
par: Song, Linxin, et autres
Publié: (2026)
Inference Compute-Optimal Video Vision Language Models
par: Wang, Peiqi, et autres
Publié: (2025)
par: Wang, Peiqi, et autres
Publié: (2025)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models
par: Liu, Xinyang, et autres
Publié: (2023)
par: Liu, Xinyang, et autres
Publié: (2023)
A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation
par: Wang, Liuyi, et autres
Publié: (2023)
par: Wang, Liuyi, et autres
Publié: (2023)
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
par: Zhang, Jianshu, et autres
Publié: (2026)
par: Zhang, Jianshu, et autres
Publié: (2026)
Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
par: Chen, Qizhou, et autres
Publié: (2024)
par: Chen, Qizhou, et autres
Publié: (2024)
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
par: Luo, Run, et autres
Publié: (2025)
par: Luo, Run, et autres
Publié: (2025)
Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models
par: Chen, Xinlong, et autres
Publié: (2025)
par: Chen, Xinlong, et autres
Publié: (2025)
SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models
par: Liu, Zheng, et autres
Publié: (2024)
par: Liu, Zheng, et autres
Publié: (2024)
VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
par: Luo, Lingxiao, et autres
Publié: (2024)
par: Luo, Lingxiao, et autres
Publié: (2024)
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
par: Yang, Yuhao, et autres
Publié: (2025)
par: Yang, Yuhao, et autres
Publié: (2025)
Efficient Vision-Language Reasoning via Adaptive Token Pruning
par: Li, Xue, et autres
Publié: (2025)
par: Li, Xue, et autres
Publié: (2025)
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding
par: Luo, Chuwei, et autres
Publié: (2022)
par: Luo, Chuwei, et autres
Publié: (2022)
A Survey on Hallucination in Large Vision-Language Models
par: Liu, Hanchao, et autres
Publié: (2024)
par: Liu, Hanchao, et autres
Publié: (2024)
HyperGVL: Benchmarking and Improving Large Vision-Language Models in Hypergraph Understanding and Reasoning
par: Wei, Yanbin, et autres
Publié: (2026)
par: Wei, Yanbin, et autres
Publié: (2026)
Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts
par: Chen, Qizhou, et autres
Publié: (2024)
par: Chen, Qizhou, et autres
Publié: (2024)
Can Vision-Language Models Solve the Shell Game?
par: Liu, Tiedong, et autres
Publié: (2026)
par: Liu, Tiedong, et autres
Publié: (2026)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
par: Zhu, Tinghui, et autres
Publié: (2024)
par: Zhu, Tinghui, et autres
Publié: (2024)
AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving
par: Qian, Kangan, et autres
Publié: (2025)
par: Qian, Kangan, et autres
Publié: (2025)
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
par: Lei, Xuanyu, et autres
Publié: (2024)
par: Lei, Xuanyu, et autres
Publié: (2024)
ViLBench: A Suite for Vision-Language Process Reward Modeling
par: Tu, Haoqin, et autres
Publié: (2025)
par: Tu, Haoqin, et autres
Publié: (2025)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models
par: Shang, Yuying, et autres
Publié: (2024)
par: Shang, Yuying, et autres
Publié: (2024)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
par: Luo, Run, et autres
Publié: (2024)
par: Luo, Run, et autres
Publié: (2024)
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
par: Wang, Shengkang, et autres
Publié: (2024)
par: Wang, Shengkang, et autres
Publié: (2024)
VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
par: Wang, Zihu, et autres
Publié: (2025)
par: Wang, Zihu, et autres
Publié: (2025)
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions
par: He, Xingwei, et autres
Publié: (2024)
par: He, Xingwei, et autres
Publié: (2024)
AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
par: Lin, Zichuan, et autres
Publié: (2025)
par: Lin, Zichuan, et autres
Publié: (2025)
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models
par: Liang, Qiao, et autres
Publié: (2025)
par: Liang, Qiao, et autres
Publié: (2025)
LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision
par: Ganguly, Debargha, et autres
Publié: (2025)
par: Ganguly, Debargha, et autres
Publié: (2025)
GUICourse: From General Vision Language Models to Versatile GUI Agents
par: Chen, Wentong, et autres
Publié: (2024)
par: Chen, Wentong, et autres
Publié: (2024)
BabyVision: Visual Reasoning Beyond Language
par: Chen, Liang, et autres
Publié: (2026)
par: Chen, Liang, et autres
Publié: (2026)
PUMGPT: A Large Vision-Language Model for Product Understanding
par: Xue, Wei, et autres
Publié: (2023)
par: Xue, Wei, et autres
Publié: (2023)
Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models
par: Luo, Jun, et autres
Publié: (2024)
par: Luo, Jun, et autres
Publié: (2024)
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models
par: Guan, Tianrui, et autres
Publié: (2023)
par: Guan, Tianrui, et autres
Publié: (2023)
Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation
par: Wang, Xintong, et autres
Publié: (2025)
par: Wang, Xintong, et autres
Publié: (2025)
Documents similaires
-
Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
par: Liu, Xunzhuo, et autres
Publié: (2026) -
Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents
par: Liu, Xunzhuo, et autres
Publié: (2026) -
Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving
par: Liu, Xunzhuo, et autres
Publié: (2026) -
98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router
par: Liu, Xunzhuo, et autres
Publié: (2026) -
Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
par: Liu, Xunzhuo, et autres
Publié: (2026)