Enregistré dans:
| Auteurs principaux: | Yang, Yuhao, Yang, Zhen, Dou, Zi-Yi, Nguyen, Anh, You, Keen, Attia, Omar, Szot, Andrew, Feng, Michael, Ramrakhya, Ram, Toshev, Alexander, Huang, Chao, Yang, Yinfei, Gan, Zhe |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.17790 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
par: Yang, Zhen, et autres
Publié: (2025)
par: Yang, Zhen, et autres
Publié: (2025)
Scaling Synthetic Task Generation for Agents via Exploration
par: Ramrakhya, Ram, et autres
Publié: (2025)
par: Ramrakhya, Ram, et autres
Publié: (2025)
Expanding LLM Agent Boundaries with Strategy-Guided Exploration
par: Szot, Andrew, et autres
Publié: (2026)
par: Szot, Andrew, et autres
Publié: (2026)
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
par: You, Keen, et autres
Publié: (2024)
par: You, Keen, et autres
Publié: (2024)
OpenCUA: Open Foundations for Computer-Use Agents
par: Wang, Xinyuan, et autres
Publié: (2025)
par: Wang, Xinyuan, et autres
Publié: (2025)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
par: Qian, Yusu, et autres
Publié: (2024)
par: Qian, Yusu, et autres
Publié: (2024)
Contrastive Localized Language-Image Pre-Training
par: Chen, Hong-You, et autres
Publié: (2024)
par: Chen, Hong-You, et autres
Publié: (2024)
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
par: Li, Zhangheng, et autres
Publié: (2024)
par: Li, Zhangheng, et autres
Publié: (2024)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
par: Szot, Andrew, et autres
Publié: (2024)
par: Szot, Andrew, et autres
Publié: (2024)
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
par: Qian, Yusu, et autres
Publié: (2024)
par: Qian, Yusu, et autres
Publié: (2024)
Guiding Instruction-based Image Editing via Multimodal Large Language Models
par: Fu, Tsu-Jui, et autres
Publié: (2023)
par: Fu, Tsu-Jui, et autres
Publié: (2023)
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
par: Qian, Yusu, et autres
Publié: (2025)
par: Qian, Yusu, et autres
Publié: (2025)
Compressing LLMs: The Truth is Rarely Pure and Never Simple
par: Jaiswal, Ajay, et autres
Publié: (2023)
par: Jaiswal, Ajay, et autres
Publié: (2023)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation
par: Zhang, Yuhui, et autres
Publié: (2023)
par: Zhang, Yuhui, et autres
Publié: (2023)
RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments
par: Liao, Zeyi, et autres
Publié: (2025)
par: Liao, Zeyi, et autres
Publié: (2025)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
par: Fu, Tsu-Jui, et autres
Publié: (2025)
par: Fu, Tsu-Jui, et autres
Publié: (2025)
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
par: Liu, Zhaoyang, et autres
Publié: (2025)
par: Liu, Zhaoyang, et autres
Publié: (2025)
LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS
par: Mei, Kai, et autres
Publié: (2025)
par: Mei, Kai, et autres
Publié: (2025)
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
par: Lai, Zhengfeng, et autres
Publié: (2024)
par: Lai, Zhengfeng, et autres
Publié: (2024)
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
par: Qian, Yusu, et autres
Publié: (2025)
par: Qian, Yusu, et autres
Publié: (2025)
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
par: Zhang, Haotian, et autres
Publié: (2024)
par: Zhang, Haotian, et autres
Publié: (2024)
A11y-CUA Dataset: Characterizing the Accessibility Gap in Computer Use Agents
par: Mohanbabu, Ananya Gubbi, et autres
Publié: (2026)
par: Mohanbabu, Ananya Gubbi, et autres
Publié: (2026)
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
par: Zhang, Haotian, et autres
Publié: (2024)
par: Zhang, Haotian, et autres
Publié: (2024)
Grounding Multimodal Large Language Models in Actions
par: Szot, Andrew, et autres
Publié: (2024)
par: Szot, Andrew, et autres
Publié: (2024)
UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
par: Tian, Rui, et autres
Publié: (2025)
par: Tian, Rui, et autres
Publié: (2025)
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
par: Li, Yanghao, et autres
Publié: (2025)
par: Li, Yanghao, et autres
Publié: (2025)
Large Language Models as Generalizable Policies for Embodied Tasks
par: Szot, Andrew, et autres
Publié: (2023)
par: Szot, Andrew, et autres
Publié: (2023)
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
par: Jian, Xiangru, et autres
Publié: (2026)
par: Jian, Xiangru, et autres
Publié: (2026)
Improve Vision Language Model Chain-of-thought Reasoning
par: Zhang, Ruohong, et autres
Publié: (2024)
par: Zhang, Ruohong, et autres
Publié: (2024)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
par: Qian, Yusu, et autres
Publié: (2025)
par: Qian, Yusu, et autres
Publié: (2025)
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI
par: Elawady, Ahmad, et autres
Publié: (2024)
par: Elawady, Ahmad, et autres
Publié: (2024)
The MUG-10 Framework for Preventing Usability Issues in Mobile Application Development
par: Weichbroth, Pawel, et autres
Publié: (2025)
par: Weichbroth, Pawel, et autres
Publié: (2025)
Seeing the Unseen: Visual Common Sense for Semantic Placement
par: Ramrakhya, Ram, et autres
Publié: (2024)
par: Ramrakhya, Ram, et autres
Publié: (2024)
Learning Next Action Predictors from Human-Computer Interaction
par: Shaikh, Omar, et autres
Publié: (2026)
par: Shaikh, Omar, et autres
Publié: (2026)
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
par: Narayan, Kartik, et autres
Publié: (2025)
par: Narayan, Kartik, et autres
Publié: (2025)
Advancing Egocentric Video Question Answering with Multimodal Large Language Models
par: Patel, Alkesh, et autres
Publié: (2025)
par: Patel, Alkesh, et autres
Publié: (2025)
MOFI: Learning Image Representations from Noisy Entity Annotated Images
par: Wu, Wentao, et autres
Publié: (2023)
par: Wu, Wentao, et autres
Publié: (2023)
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
par: Amirloo, Elmira, et autres
Publié: (2024)
par: Amirloo, Elmira, et autres
Publié: (2024)
Conditional Font Generation With Content Pre‐Train and Style Filter
par: Yang Hong, et autres
Publié: (2024)
par: Yang Hong, et autres
Publié: (2024)
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding
par: Xu, Mingze, et autres
Publié: (2025)
par: Xu, Mingze, et autres
Publié: (2025)
Documents similaires
-
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
par: Yang, Zhen, et autres
Publié: (2025) -
Scaling Synthetic Task Generation for Agents via Exploration
par: Ramrakhya, Ram, et autres
Publié: (2025) -
Expanding LLM Agent Boundaries with Strategy-Guided Exploration
par: Szot, Andrew, et autres
Publié: (2026) -
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
par: You, Keen, et autres
Publié: (2024) -
OpenCUA: Open Foundations for Computer-Use Agents
par: Wang, Xinyuan, et autres
Publié: (2025)