Gespeichert in:
| Hauptverfasser: | Wang, Zilong, Cui, Yuedong, Zhong, Li, Zhang, Zimin, Yin, Da, Lin, Bill Yuchen, Shang, Jingbo |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2407.19056 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step
von: Zhong, Li, et al.
Veröffentlicht: (2024)
von: Zhong, Li, et al.
Veröffentlicht: (2024)
OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows
von: Wang, Weixuan, et al.
Veröffentlicht: (2025)
von: Wang, Weixuan, et al.
Veröffentlicht: (2025)
Agent Lumos: Unified and Modular Training for Open-Source Language Agents
von: Yin, Da, et al.
Veröffentlicht: (2023)
von: Yin, Da, et al.
Veröffentlicht: (2023)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
von: Song, Yifan, et al.
Veröffentlicht: (2024)
von: Song, Yifan, et al.
Veröffentlicht: (2024)
SimulBench: Evaluating Language Models with Creative Simulation Tasks
von: Jia, Qi, et al.
Veröffentlicht: (2024)
von: Jia, Qi, et al.
Veröffentlicht: (2024)
Multi-agent Application System in Office Collaboration Scenarios
von: Sun, Songtao, et al.
Veröffentlicht: (2025)
von: Sun, Songtao, et al.
Veröffentlicht: (2025)
BenchBench: Benchmarking Automated Benchmark Generation
von: Zheng, Yandan, et al.
Veröffentlicht: (2026)
von: Zheng, Yandan, et al.
Veröffentlicht: (2026)
DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering
von: Nguyen, Alex, et al.
Veröffentlicht: (2024)
von: Nguyen, Alex, et al.
Veröffentlicht: (2024)
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
von: Peng, Letian, et al.
Veröffentlicht: (2025)
von: Peng, Letian, et al.
Veröffentlicht: (2025)
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
von: Li, Lei, et al.
Veröffentlicht: (2024)
von: Li, Lei, et al.
Veröffentlicht: (2024)
Training Language Models to Generate Quality Code with Program Analysis Feedback
von: Yao, Feng, et al.
Veröffentlicht: (2025)
von: Yao, Feng, et al.
Veröffentlicht: (2025)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
von: Liu, Hongwei, et al.
Veröffentlicht: (2024)
von: Liu, Hongwei, et al.
Veröffentlicht: (2024)
JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models
von: Liu, Shuyi, et al.
Veröffentlicht: (2025)
von: Liu, Shuyi, et al.
Veröffentlicht: (2025)
PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination
von: Wang, Qiyao, et al.
Veröffentlicht: (2026)
von: Wang, Qiyao, et al.
Veröffentlicht: (2026)
OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
von: Opsahl-Ong, Krista, et al.
Veröffentlicht: (2026)
von: Opsahl-Ong, Krista, et al.
Veröffentlicht: (2026)
GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
von: Yang, Jingbo, et al.
Veröffentlicht: (2026)
von: Yang, Jingbo, et al.
Veröffentlicht: (2026)
Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation
von: Krishnan, Prashant, et al.
Veröffentlicht: (2023)
von: Krishnan, Prashant, et al.
Veröffentlicht: (2023)
EffiBench: Benchmarking the Efficiency of Automatically Generated Code
von: Huang, Dong, et al.
Veröffentlicht: (2024)
von: Huang, Dong, et al.
Veröffentlicht: (2024)
TaskBench: Benchmarking Large Language Models for Task Automation
von: Shen, Yongliang, et al.
Veröffentlicht: (2023)
von: Shen, Yongliang, et al.
Veröffentlicht: (2023)
Automated Benchmark Auditing for AI Agents and Large Language Models
von: Wang, Junlin, et al.
Veröffentlicht: (2026)
von: Wang, Junlin, et al.
Veröffentlicht: (2026)
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
von: Lin, Bill Yuchen, et al.
Veröffentlicht: (2024)
von: Lin, Bill Yuchen, et al.
Veröffentlicht: (2024)
PST-Bench: Tracing and Benchmarking the Source of Publications
von: Zhang, Fanjin, et al.
Veröffentlicht: (2024)
von: Zhang, Fanjin, et al.
Veröffentlicht: (2024)
MetaIE: Distilling a Meta Model from LLM for All Kinds of Information Extraction Tasks
von: Peng, Letian, et al.
Veröffentlicht: (2024)
von: Peng, Letian, et al.
Veröffentlicht: (2024)
OR-Bench: An Over-Refusal Benchmark for Large Language Models
von: Cui, Justin, et al.
Veröffentlicht: (2024)
von: Cui, Justin, et al.
Veröffentlicht: (2024)
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents
von: Wu, Cheng-Kuang, et al.
Veröffentlicht: (2024)
von: Wu, Cheng-Kuang, et al.
Veröffentlicht: (2024)
The Price of Format: Diversity Collapse in LLMs
von: Yun, Longfei, et al.
Veröffentlicht: (2025)
von: Yun, Longfei, et al.
Veröffentlicht: (2025)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
von: Zhang, Xiaokang, et al.
Veröffentlicht: (2024)
von: Zhang, Xiaokang, et al.
Veröffentlicht: (2024)
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
von: Wang, Yiming, et al.
Veröffentlicht: (2025)
von: Wang, Yiming, et al.
Veröffentlicht: (2025)
BackportBench: A Multilingual Benchmark for Automated Backporting of Patches
von: Zhong, Zhiqing, et al.
Veröffentlicht: (2025)
von: Zhong, Zhiqing, et al.
Veröffentlicht: (2025)
Watermarks for Language Models via Probabilistic Automata
von: Wang, Yangkun, et al.
Veröffentlicht: (2025)
von: Wang, Yangkun, et al.
Veröffentlicht: (2025)
On Memorization of Large Language Models in Logical Reasoning
von: Xie, Chulin, et al.
Veröffentlicht: (2024)
von: Xie, Chulin, et al.
Veröffentlicht: (2024)
BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks
von: Tu, Xinming, et al.
Veröffentlicht: (2026)
von: Tu, Xinming, et al.
Veröffentlicht: (2026)
CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks
von: Lin, Jiayu, et al.
Veröffentlicht: (2026)
von: Lin, Jiayu, et al.
Veröffentlicht: (2026)
Correlation and Navigation in the Vocabulary Key Representation Space of Language Models
von: Peng, Letian, et al.
Veröffentlicht: (2024)
von: Peng, Letian, et al.
Veröffentlicht: (2024)
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications
von: Li, Haijun, et al.
Veröffentlicht: (2025)
von: Li, Haijun, et al.
Veröffentlicht: (2025)
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
von: Du, Yuntao, et al.
Veröffentlicht: (2025)
von: Du, Yuntao, et al.
Veröffentlicht: (2025)
Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
von: Deng, Shihan, et al.
Veröffentlicht: (2024)
Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models
von: Mekala, Dheeraj, et al.
Veröffentlicht: (2024)
von: Mekala, Dheeraj, et al.
Veröffentlicht: (2024)
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
von: Liu, Junpeng, et al.
Veröffentlicht: (2024)
von: Liu, Junpeng, et al.
Veröffentlicht: (2024)
PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
von: Wang, Yuwen, et al.
Veröffentlicht: (2026)
von: Wang, Yuwen, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step
von: Zhong, Li, et al.
Veröffentlicht: (2024) -
OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows
von: Wang, Weixuan, et al.
Veröffentlicht: (2025) -
Agent Lumos: Unified and Modular Training for Open-Source Language Agents
von: Yin, Da, et al.
Veröffentlicht: (2023) -
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
von: Song, Yifan, et al.
Veröffentlicht: (2024) -
SimulBench: Evaluating Language Models with Creative Simulation Tasks
von: Jia, Qi, et al.
Veröffentlicht: (2024)