Enregistré dans:
| Auteurs principaux: | Yang, Kaichun, Chen, Jian |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.06782 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT
par: Gao, Nan, et autres
Publié: (2023)
par: Gao, Nan, et autres
Publié: (2023)
Human-Centred Evaluation of Text-to-Image Generation Models for Self-expression of Mental Distress: A Dataset Based on GPT-4o
par: He, Sui, et autres
Publié: (2025)
par: He, Sui, et autres
Publié: (2025)
ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation
par: Xia, Ding, et autres
Publié: (2025)
par: Xia, Ding, et autres
Publié: (2025)
VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
par: Wang, Hao, et autres
Publié: (2024)
par: Wang, Hao, et autres
Publié: (2024)
Can ChatGPT assist visually impaired people with micro-navigation?
par: He, Junxian, et autres
Publié: (2024)
par: He, Junxian, et autres
Publié: (2024)
SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos
par: Huang, Xiyang, et autres
Publié: (2026)
par: Huang, Xiyang, et autres
Publié: (2026)
GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear
par: Konrad, Robert, et autres
Publié: (2024)
par: Konrad, Robert, et autres
Publié: (2024)
A Picture is Worth a Thousand (Correct) Captions: A Vision-Guided Judge-Corrector System for Multimodal Machine Translation
par: Betala, Siddharth, et autres
Publié: (2025)
par: Betala, Siddharth, et autres
Publié: (2025)
AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks
par: Moured, Omar, et autres
Publié: (2024)
par: Moured, Omar, et autres
Publié: (2024)
Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation
par: Moured, Omar, et autres
Publié: (2024)
par: Moured, Omar, et autres
Publié: (2024)
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
par: Luo, Run, et autres
Publié: (2025)
par: Luo, Run, et autres
Publié: (2025)
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
par: Wu, Zhiyong, et autres
Publié: (2024)
par: Wu, Zhiyong, et autres
Publié: (2024)
A Review on Large Language Models for Visual Analytics
par: Agarwal, Navya Sonal, et autres
Publié: (2025)
par: Agarwal, Navya Sonal, et autres
Publié: (2025)
UIClip: A Data-driven Model for Assessing User Interface Design
par: Wu, Jason, et autres
Publié: (2024)
par: Wu, Jason, et autres
Publié: (2024)
ChartGen: Scaling Chart Understanding Via Code-Guided Synthetic Chart Generation
par: Kondic, Jovana, et autres
Publié: (2025)
par: Kondic, Jovana, et autres
Publié: (2025)
CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
par: Verma, Arnav, et autres
Publié: (2025)
par: Verma, Arnav, et autres
Publié: (2025)
Computer-Use Agents as Judges for Generative User Interface
par: Lin, Kevin Qinghong, et autres
Publié: (2025)
par: Lin, Kevin Qinghong, et autres
Publié: (2025)
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
par: You, Keen, et autres
Publié: (2024)
par: You, Keen, et autres
Publié: (2024)
Investigating Disability Representations in Text-to-Image Models
par: Tian, Yang, et autres
Publié: (2026)
par: Tian, Yang, et autres
Publié: (2026)
Long-Term Ad Memorability: Understanding & Generating Memorable Ads
par: SI, Harini, et autres
Publié: (2023)
par: SI, Harini, et autres
Publié: (2023)
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots
par: Hsiao, Yu-Chung, et autres
Publié: (2022)
par: Hsiao, Yu-Chung, et autres
Publié: (2022)
Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness
par: Mukhopadhyay, Srija, et autres
Publié: (2024)
par: Mukhopadhyay, Srija, et autres
Publié: (2024)
Steering Generative Models for Accessibility: EasyRead Image Generation
par: Dickenmann, Nicolas, et autres
Publié: (2026)
par: Dickenmann, Nicolas, et autres
Publié: (2026)
How Good is ChatGPT at Audiovisual Deepfake Detection: A Comparative Study of ChatGPT, AI Models and Human Perception
par: Shahzad, Sahibzada Adil, et autres
Publié: (2024)
par: Shahzad, Sahibzada Adil, et autres
Publié: (2024)
Morae: Proactively Pausing UI Agents for User Choices
par: Peng, Yi-Hao, et autres
Publié: (2025)
par: Peng, Yi-Hao, et autres
Publié: (2025)
UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis
par: Liu, Xinyi, et autres
Publié: (2025)
par: Liu, Xinyi, et autres
Publié: (2025)
Deciphering Emotions in Children Storybooks: A Comparative Analysis of Multimodal LLMs in Educational Applications
par: Asseri, Bushra, et autres
Publié: (2025)
par: Asseri, Bushra, et autres
Publié: (2025)
SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs
par: Wang, Siting, et autres
Publié: (2025)
par: Wang, Siting, et autres
Publié: (2025)
What Color Scheme is More Effective in Assisting Readers to Locate Information in a Color-Coded Article?
par: Ng, Ho Yin, et autres
Publié: (2024)
par: Ng, Ho Yin, et autres
Publié: (2024)
True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies
par: Blasilli, Graziano, et autres
Publié: (2026)
par: Blasilli, Graziano, et autres
Publié: (2026)
Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting
par: Kayser, Maxime, et autres
Publié: (2024)
par: Kayser, Maxime, et autres
Publié: (2024)
What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric
par: Kerkouri, Mohamed Amine, et autres
Publié: (2026)
par: Kerkouri, Mohamed Amine, et autres
Publié: (2026)
VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents
par: Mazumdar, Amrita, et autres
Publié: (2026)
par: Mazumdar, Amrita, et autres
Publié: (2026)
EvoDiagram: Agentic Editable Diagram Creation via Design Expertise Evolution
par: Wang, Tianfu, et autres
Publié: (2026)
par: Wang, Tianfu, et autres
Publié: (2026)
How Can Large Language Models Enable Better Socially Assistive Human-Robot Interaction: A Brief Survey
par: Shi, Zhonghao, et autres
Publié: (2024)
par: Shi, Zhonghao, et autres
Publié: (2024)
GUICourse: From General Vision Language Models to Versatile GUI Agents
par: Chen, Wentong, et autres
Publié: (2024)
par: Chen, Wentong, et autres
Publié: (2024)
AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
par: Fan, Jingru, et autres
Publié: (2025)
par: Fan, Jingru, et autres
Publié: (2025)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent
par: Lin, Kevin Qinghong, et autres
Publié: (2024)
par: Lin, Kevin Qinghong, et autres
Publié: (2024)
AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild
par: Chen, Baiyu, et autres
Publié: (2026)
par: Chen, Baiyu, et autres
Publié: (2026)
Can ChatGPT Read Who You Are?
par: Derner, Erik, et autres
Publié: (2023)
par: Derner, Erik, et autres
Publié: (2023)
Documents similaires
-
GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT
par: Gao, Nan, et autres
Publié: (2023) -
Human-Centred Evaluation of Text-to-Image Generation Models for Self-expression of Mental Distress: A Dataset Based on GPT-4o
par: He, Sui, et autres
Publié: (2025) -
ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation
par: Xia, Ding, et autres
Publié: (2025) -
VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
par: Wang, Hao, et autres
Publié: (2024) -
Can ChatGPT assist visually impaired people with micro-navigation?
par: He, Junxian, et autres
Publié: (2024)