:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yang, Yan, Li, Dongxu, Dai, Yutong, Yang, Yuhao, Luo, Ziyang, Zhao, Zirui, Hu, Zhiyuan, Huang, Junzhe, Saha, Amrita, Chen, Zeyuan, Xu, Ran, Pan, Liyuan, Savarese, Silvio, Xiong, Caiming, Li, Junnan
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2507.05791
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
di: Luo, Ziyang, et al.
Pubblicazione: (2025)

GPA: Learning GUI Process Automation from Demonstrations
di: Zhao, Zirui, et al.
Pubblicazione: (2026)

Aria-UI: Visual Grounding for GUI Instructions
di: Yang, Yuhao, et al.
Pubblicazione: (2024)

WALT: Web Agents that Learn Tools
di: Prabhu, Viraj, et al.
Pubblicazione: (2025)

CoAct-1: Computer-using Multi-Agent System with Coding Actions
di: Song, Linxin, et al.
Pubblicazione: (2025)

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2023)

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
di: Hu, Zhiyuan, et al.
Pubblicazione: (2025)

Automatic Curriculum Expert Iteration for Reliable LLM Reasoning
di: Zhao, Zirui, et al.
Pubblicazione: (2024)

SCUBA: Salesforce Computer Use Benchmark
di: Dai, Yutong, et al.
Pubblicazione: (2025)

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
di: Wang, Ziyang, et al.
Pubblicazione: (2025)

W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents
di: Lin, Xiaoqiang, et al.
Pubblicazione: (2026)

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
di: Huang, Kung-Hsiang, et al.
Pubblicazione: (2025)

BLIP3o-NEXT: Next Frontier of Native Image Generation
di: Chen, Jiuhai, et al.
Pubblicazione: (2025)

Reward-Guided Speculative Decoding for Efficient LLM Reasoning
di: Liao, Baohao, et al.
Pubblicazione: (2025)

Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research
di: Lan, Tian, et al.
Pubblicazione: (2024)

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
di: Wang, Zhenhailong, et al.
Pubblicazione: (2025)

Shared Imagination: LLMs Hallucinate Alike
di: Zhou, Yilun, et al.
Pubblicazione: (2024)

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
di: Yang, Yan, et al.
Pubblicazione: (2025)

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction
di: Xu, Yiheng, et al.
Pubblicazione: (2024)

Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math
di: Pang, Bo, et al.
Pubblicazione: (2025)

INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness
di: Le, Hung, et al.
Pubblicazione: (2024)

CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models
di: Li, Jierui, et al.
Pubblicazione: (2024)

Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models
di: Liu, Xu, et al.
Pubblicazione: (2025)

Moirai 2.0: When Less Is More for Time Series Forecasting
di: Liu, Chenghao, et al.
Pubblicazione: (2025)

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
di: Xue, Le, et al.
Pubblicazione: (2023)

EZSR: Event-based Zero-Shot Recognition
di: Yang, Yan, et al.
Pubblicazione: (2024)

ViUniT: Visual Unit Tests for More Robust Visual Programming
di: Panagopoulou, Artemis, et al.
Pubblicazione: (2024)

HIVE: Harnessing Human Feedback for Instructional Visual Editing
di: Zhang, Shu, et al.
Pubblicazione: (2023)

BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
di: Pang, Bo, et al.
Pubblicazione: (2025)

Unified Training of Universal Time Series Forecasting Transformers
di: Woo, Gerald, et al.
Pubblicazione: (2024)

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models
di: Zhang, Jieyu, et al.
Pubblicazione: (2024)

Test-Time Adaptation for LLM Agents via Environment Interaction
di: Chen, Arthur, et al.
Pubblicazione: (2025)

PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback
di: Peng, Yun, et al.
Pubblicazione: (2024)

Asynchronous Tool Usage for Real-Time Agents
di: Ginart, Antonio A., et al.
Pubblicazione: (2024)

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
di: Luo, Ziyang, et al.
Pubblicazione: (2024)

Entropy-Based Block Pruning for Efficient Large Language Models
di: Yang, Liangwei, et al.
Pubblicazione: (2025)

Text2Data: Low-Resource Data Generation with Textual Control
di: Wang, Shiyu, et al.
Pubblicazione: (2024)

How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning
di: Yang, Luyu, et al.
Pubblicazione: (2026)

LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
di: Ginart, Antonio A., et al.
Pubblicazione: (2025)

CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval
di: Liu, Ye, et al.
Pubblicazione: (2024)