:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteur principal:	Thorne, Simon
Format:	Preprint
Publié:	2025
Sujets:	Software Engineering
Accès en ligne:	https://arxiv.org/abs/2506.17330
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
par: Thorne, Simon, et autres
Publié: (2025)

Classification of Spreadsheet Errors
par: Rajalingham, Kamalasen, et autres
Publié: (2008)

SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations
par: Indika, Amila, et autres
Publié: (2025)

Drivers of the Cost of Spreadsheet Audit
par: Colver, David
Publié: (2011)

SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
par: Ma, Zeyao, et autres
Publié: (2024)

User Defined Spreadsheet Functions in Excel
par: Tyszkiewicz, Jerzy, et autres
Publié: (2012)

Consensus-Free Spreadsheet Integration
par: Baylor, Brandon, et autres
Publié: (2022)

In Pursuit of Spreadsheet Excellence
par: Croll, Grenville J.
Publié: (2008)

FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems
par: Hui, Mingxuan, et autres
Publié: (2026)

Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks
par: Hu, Xing, et autres
Publié: (2025)

Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models
par: Das, Gunjan, et autres
Publié: (2025)

Computational Models of Spreadsheet Development: Basis for Educational Approaches
par: Hodnigg, Karin, et autres
Publié: (2008)

Supercharging Federated Learning with Flower and NVIDIA FLARE
par: Roth, Holger R., et autres
Publié: (2024)

FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks
par: Dai, Dekun, et autres
Publié: (2025)

A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models
par: Hu, Ruida, et autres
Publié: (2024)

Spreadsheet Modeling Experiments Using GPTs on Small Problem Statements and the Wall Task
par: Grossman, Thomas A., et autres
Publié: (2026)

Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection
par: Zhang, Ting, et autres
Publié: (2025)

TESTEVAL: Benchmarking Large Language Models for Test Case Generation
par: Wang, Wenhan, et autres
Publié: (2024)

Studying and Benchmarking Large Language Models For Log Level Suggestion
par: Heng, Yi Wen, et autres
Publié: (2024)

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models
par: Wang, Shuai, et autres
Publié: (2025)

AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation
par: Pulavarthi, Vaishnavi, et autres
Publié: (2024)

TableTalk: Scaffolding Spreadsheet Development with a Language Agent
par: Liang, Jenny T., et autres
Publié: (2025)

Large Language Models as Test Case Generators: Performance Evaluation and Enhancement
par: Li, Kefan, et autres
Publié: (2024)

QuanBench: Benchmarking Quantum Code Generation with Large Language Models
par: Guo, Xiaoyu, et autres
Publié: (2025)

COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models
par: Meaden, James, et autres
Publié: (2025)

AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation
par: Zhang, Tanghaoran, et autres
Publié: (2026)

Evaluating Generated Commit Messages with Large Language Models
par: Zeng, Qunhong, et autres
Publié: (2025)

On the Evaluation of Large Language Models in Multilingual Vulnerability Repair
par: wang, Dong, et autres
Publié: (2025)

On the Evaluation of Large Language Models in Unit Test Generation
par: Yang, Lin, et autres
Publié: (2024)

Narrowing the Complexity Gap in the Evaluation of Large Language Models
par: Chen, Yang, et autres
Publié: (2026)

Debugging with Open-Source Large Language Models: An Evaluation
par: Majdoub, Yacine, et autres
Publié: (2024)

Evaluating Large Language Models in Detecting Test Smells
par: Lucas, Keila, et autres
Publié: (2024)

Augmenting the Generality and Performance of Large Language Models for Software Engineering
par: Peña, Fabian C.
Publié: (2025)

Prompt Engineering Guidelines for Using Large Language Models in Requirements Engineering
par: Ronanki, Krishna, et autres
Publié: (2025)

BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models
par: Shang, Xiuwei, et autres
Publié: (2025)

SimpleDevQA: Benchmarking Large Language Models on Development Knowledge QA
par: Zhang, Jing, et autres
Publié: (2025)

A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends
par: Zheng, Zibin, et autres
Publié: (2023)

MCeT: Behavioral Model Correctness Evaluation using Large Language Models
par: Ahmed, Khaled, et autres
Publié: (2025)

Comparative Evaluation of Large Language Models for Test-Skeleton Generation
par: Boorlagadda, Subhang, et autres
Publié: (2025)

Empirical Evaluation of Large Language Models in Automated Program Repair
par: Sun, Jiajun, et autres
Publié: (2025)