:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Wang, Zilong, Cui, Yuedong, Zhong, Li, Zhang, Zimin, Yin, Da, Lin, Bill Yuchen, Shang, Jingbo
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2407.19056
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step
von: Zhong, Li, et al.
Veröffentlicht: (2024)

OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows
von: Wang, Weixuan, et al.
Veröffentlicht: (2025)

Agent Lumos: Unified and Modular Training for Open-Source Language Agents
von: Yin, Da, et al.
Veröffentlicht: (2023)

Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
von: Song, Yifan, et al.
Veröffentlicht: (2024)

SimulBench: Evaluating Language Models with Creative Simulation Tasks
von: Jia, Qi, et al.
Veröffentlicht: (2024)

Multi-agent Application System in Office Collaboration Scenarios
von: Sun, Songtao, et al.
Veröffentlicht: (2025)

BenchBench: Benchmarking Automated Benchmark Generation
von: Zheng, Yandan, et al.
Veröffentlicht: (2026)

DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering
von: Nguyen, Alex, et al.
Veröffentlicht: (2024)

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
von: Peng, Letian, et al.
Veröffentlicht: (2025)

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
von: Li, Lei, et al.
Veröffentlicht: (2024)

Training Language Models to Generate Quality Code with Program Analysis Feedback
von: Yao, Feng, et al.
Veröffentlicht: (2025)

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
von: Liu, Hongwei, et al.
Veröffentlicht: (2024)

JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models
von: Liu, Shuyi, et al.
Veröffentlicht: (2025)

PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination
von: Wang, Qiyao, et al.
Veröffentlicht: (2026)

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
von: Opsahl-Ong, Krista, et al.
Veröffentlicht: (2026)

GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
von: Yang, Jingbo, et al.
Veröffentlicht: (2026)

Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation
von: Krishnan, Prashant, et al.
Veröffentlicht: (2023)

EffiBench: Benchmarking the Efficiency of Automatically Generated Code
von: Huang, Dong, et al.
Veröffentlicht: (2024)

TaskBench: Benchmarking Large Language Models for Task Automation
von: Shen, Yongliang, et al.
Veröffentlicht: (2023)

Automated Benchmark Auditing for AI Agents and Large Language Models
von: Wang, Junlin, et al.
Veröffentlicht: (2026)

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
von: Lin, Bill Yuchen, et al.
Veröffentlicht: (2024)

PST-Bench: Tracing and Benchmarking the Source of Publications
von: Zhang, Fanjin, et al.
Veröffentlicht: (2024)

MetaIE: Distilling a Meta Model from LLM for All Kinds of Information Extraction Tasks
von: Peng, Letian, et al.
Veröffentlicht: (2024)

OR-Bench: An Over-Refusal Benchmark for Large Language Models
von: Cui, Justin, et al.
Veröffentlicht: (2024)

StreamBench: Towards Benchmarking Continuous Improvement of Language Agents
von: Wu, Cheng-Kuang, et al.
Veröffentlicht: (2024)

The Price of Format: Diversity Collapse in LLMs
von: Yun, Longfei, et al.
Veröffentlicht: (2025)

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
von: Zhang, Xiaokang, et al.
Veröffentlicht: (2024)

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
von: Wang, Yiming, et al.
Veröffentlicht: (2025)

BackportBench: A Multilingual Benchmark for Automated Backporting of Patches
von: Zhong, Zhiqing, et al.
Veröffentlicht: (2025)

Watermarks for Language Models via Probabilistic Automata
von: Wang, Yangkun, et al.
Veröffentlicht: (2025)

On Memorization of Large Language Models in Logical Reasoning
von: Xie, Chulin, et al.
Veröffentlicht: (2024)

BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks
von: Tu, Xinming, et al.
Veröffentlicht: (2026)

CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks
von: Lin, Jiayu, et al.
Veröffentlicht: (2026)

Correlation and Navigation in the Vocabulary Key Representation Space of Language Models
von: Peng, Letian, et al.
Veröffentlicht: (2024)

TransBench: Benchmarking Machine Translation for Industrial-Scale Applications
von: Li, Haijun, et al.
Veröffentlicht: (2025)

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
von: Du, Yuntao, et al.
Veröffentlicht: (2025)

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
von: Deng, Shihan, et al.
Veröffentlicht: (2024)

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models
von: Mekala, Dheeraj, et al.
Veröffentlicht: (2024)

VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
von: Liu, Junpeng, et al.
Veröffentlicht: (2024)

PALM-Bench: A Comprehensive Benchmark for Personalized Audio-Language Models
von: Wang, Yuwen, et al.
Veröffentlicht: (2026)