Salvato in:
| Autori principali: | Yang, Yan, Li, Dongxu, Dai, Yutong, Yang, Yuhao, Luo, Ziyang, Zhao, Zirui, Hu, Zhiyuan, Huang, Junzhe, Saha, Amrita, Chen, Zeyuan, Xu, Ran, Pan, Liyuan, Savarese, Silvio, Xiong, Caiming, Li, Junnan |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2507.05791 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
di: Luo, Ziyang, et al.
Pubblicazione: (2025)
di: Luo, Ziyang, et al.
Pubblicazione: (2025)
GPA: Learning GUI Process Automation from Demonstrations
di: Zhao, Zirui, et al.
Pubblicazione: (2026)
di: Zhao, Zirui, et al.
Pubblicazione: (2026)
Aria-UI: Visual Grounding for GUI Instructions
di: Yang, Yuhao, et al.
Pubblicazione: (2024)
di: Yang, Yuhao, et al.
Pubblicazione: (2024)
WALT: Web Agents that Learn Tools
di: Prabhu, Viraj, et al.
Pubblicazione: (2025)
di: Prabhu, Viraj, et al.
Pubblicazione: (2025)
CoAct-1: Computer-using Multi-Agent System with Coding Actions
di: Song, Linxin, et al.
Pubblicazione: (2025)
di: Song, Linxin, et al.
Pubblicazione: (2025)
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2023)
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2023)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
di: Hu, Zhiyuan, et al.
Pubblicazione: (2025)
di: Hu, Zhiyuan, et al.
Pubblicazione: (2025)
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning
di: Zhao, Zirui, et al.
Pubblicazione: (2024)
di: Zhao, Zirui, et al.
Pubblicazione: (2024)
SCUBA: Salesforce Computer Use Benchmark
di: Dai, Yutong, et al.
Pubblicazione: (2025)
di: Dai, Yutong, et al.
Pubblicazione: (2025)
Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
di: Wang, Ziyang, et al.
Pubblicazione: (2025)
di: Wang, Ziyang, et al.
Pubblicazione: (2025)
W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents
di: Lin, Xiaoqiang, et al.
Pubblicazione: (2026)
di: Lin, Xiaoqiang, et al.
Pubblicazione: (2026)
GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
di: Huang, Kung-Hsiang, et al.
Pubblicazione: (2025)
di: Huang, Kung-Hsiang, et al.
Pubblicazione: (2025)
BLIP3o-NEXT: Next Frontier of Native Image Generation
di: Chen, Jiuhai, et al.
Pubblicazione: (2025)
di: Chen, Jiuhai, et al.
Pubblicazione: (2025)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
di: Liao, Baohao, et al.
Pubblicazione: (2025)
di: Liao, Baohao, et al.
Pubblicazione: (2025)
Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research
di: Lan, Tian, et al.
Pubblicazione: (2024)
di: Lan, Tian, et al.
Pubblicazione: (2024)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
di: Wang, Zhenhailong, et al.
Pubblicazione: (2025)
di: Wang, Zhenhailong, et al.
Pubblicazione: (2025)
Shared Imagination: LLMs Hallucinate Alike
di: Zhou, Yilun, et al.
Pubblicazione: (2024)
di: Zhou, Yilun, et al.
Pubblicazione: (2024)
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
di: Yang, Yan, et al.
Pubblicazione: (2025)
di: Yang, Yan, et al.
Pubblicazione: (2025)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction
di: Xu, Yiheng, et al.
Pubblicazione: (2024)
di: Xu, Yiheng, et al.
Pubblicazione: (2024)
Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math
di: Pang, Bo, et al.
Pubblicazione: (2025)
di: Pang, Bo, et al.
Pubblicazione: (2025)
INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness
di: Le, Hung, et al.
Pubblicazione: (2024)
di: Le, Hung, et al.
Pubblicazione: (2024)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models
di: Li, Jierui, et al.
Pubblicazione: (2024)
di: Li, Jierui, et al.
Pubblicazione: (2024)
Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models
di: Liu, Xu, et al.
Pubblicazione: (2025)
di: Liu, Xu, et al.
Pubblicazione: (2025)
Moirai 2.0: When Less Is More for Time Series Forecasting
di: Liu, Chenghao, et al.
Pubblicazione: (2025)
di: Liu, Chenghao, et al.
Pubblicazione: (2025)
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
di: Xue, Le, et al.
Pubblicazione: (2023)
di: Xue, Le, et al.
Pubblicazione: (2023)
EZSR: Event-based Zero-Shot Recognition
di: Yang, Yan, et al.
Pubblicazione: (2024)
di: Yang, Yan, et al.
Pubblicazione: (2024)
ViUniT: Visual Unit Tests for More Robust Visual Programming
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2024)
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2024)
HIVE: Harnessing Human Feedback for Instructional Visual Editing
di: Zhang, Shu, et al.
Pubblicazione: (2023)
di: Zhang, Shu, et al.
Pubblicazione: (2023)
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
di: Pang, Bo, et al.
Pubblicazione: (2025)
di: Pang, Bo, et al.
Pubblicazione: (2025)
Unified Training of Universal Time Series Forecasting Transformers
di: Woo, Gerald, et al.
Pubblicazione: (2024)
di: Woo, Gerald, et al.
Pubblicazione: (2024)
ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models
di: Zhang, Jieyu, et al.
Pubblicazione: (2024)
di: Zhang, Jieyu, et al.
Pubblicazione: (2024)
Test-Time Adaptation for LLM Agents via Environment Interaction
di: Chen, Arthur, et al.
Pubblicazione: (2025)
di: Chen, Arthur, et al.
Pubblicazione: (2025)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback
di: Peng, Yun, et al.
Pubblicazione: (2024)
di: Peng, Yun, et al.
Pubblicazione: (2024)
Asynchronous Tool Usage for Real-Time Agents
di: Ginart, Antonio A., et al.
Pubblicazione: (2024)
di: Ginart, Antonio A., et al.
Pubblicazione: (2024)
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
di: Luo, Ziyang, et al.
Pubblicazione: (2024)
di: Luo, Ziyang, et al.
Pubblicazione: (2024)
Entropy-Based Block Pruning for Efficient Large Language Models
di: Yang, Liangwei, et al.
Pubblicazione: (2025)
di: Yang, Liangwei, et al.
Pubblicazione: (2025)
Text2Data: Low-Resource Data Generation with Textual Control
di: Wang, Shiyu, et al.
Pubblicazione: (2024)
di: Wang, Shiyu, et al.
Pubblicazione: (2024)
How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning
di: Yang, Luyu, et al.
Pubblicazione: (2026)
di: Yang, Luyu, et al.
Pubblicazione: (2026)
LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
di: Ginart, Antonio A., et al.
Pubblicazione: (2025)
di: Ginart, Antonio A., et al.
Pubblicazione: (2025)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval
di: Liu, Ye, et al.
Pubblicazione: (2024)
di: Liu, Ye, et al.
Pubblicazione: (2024)
Documenti analoghi
-
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
di: Luo, Ziyang, et al.
Pubblicazione: (2025) -
GPA: Learning GUI Process Automation from Demonstrations
di: Zhao, Zirui, et al.
Pubblicazione: (2026) -
Aria-UI: Visual Grounding for GUI Instructions
di: Yang, Yuhao, et al.
Pubblicazione: (2024) -
WALT: Web Agents that Learn Tools
di: Prabhu, Viraj, et al.
Pubblicazione: (2025) -
CoAct-1: Computer-using Multi-Agent System with Coding Actions
di: Song, Linxin, et al.
Pubblicazione: (2025)