Enregistré dans:
| Auteur principal: | Thorne, Simon |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2506.17330 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
par: Thorne, Simon, et autres
Publié: (2025)
par: Thorne, Simon, et autres
Publié: (2025)
Classification of Spreadsheet Errors
par: Rajalingham, Kamalasen, et autres
Publié: (2008)
par: Rajalingham, Kamalasen, et autres
Publié: (2008)
SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations
par: Indika, Amila, et autres
Publié: (2025)
par: Indika, Amila, et autres
Publié: (2025)
Drivers of the Cost of Spreadsheet Audit
par: Colver, David
Publié: (2011)
par: Colver, David
Publié: (2011)
SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
par: Ma, Zeyao, et autres
Publié: (2024)
par: Ma, Zeyao, et autres
Publié: (2024)
User Defined Spreadsheet Functions in Excel
par: Tyszkiewicz, Jerzy, et autres
Publié: (2012)
par: Tyszkiewicz, Jerzy, et autres
Publié: (2012)
Consensus-Free Spreadsheet Integration
par: Baylor, Brandon, et autres
Publié: (2022)
par: Baylor, Brandon, et autres
Publié: (2022)
In Pursuit of Spreadsheet Excellence
par: Croll, Grenville J.
Publié: (2008)
par: Croll, Grenville J.
Publié: (2008)
FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems
par: Hui, Mingxuan, et autres
Publié: (2026)
par: Hui, Mingxuan, et autres
Publié: (2026)
Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks
par: Hu, Xing, et autres
Publié: (2025)
par: Hu, Xing, et autres
Publié: (2025)
Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models
par: Das, Gunjan, et autres
Publié: (2025)
par: Das, Gunjan, et autres
Publié: (2025)
Computational Models of Spreadsheet Development: Basis for Educational Approaches
par: Hodnigg, Karin, et autres
Publié: (2008)
par: Hodnigg, Karin, et autres
Publié: (2008)
Supercharging Federated Learning with Flower and NVIDIA FLARE
par: Roth, Holger R., et autres
Publié: (2024)
par: Roth, Holger R., et autres
Publié: (2024)
FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks
par: Dai, Dekun, et autres
Publié: (2025)
par: Dai, Dekun, et autres
Publié: (2025)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models
par: Hu, Ruida, et autres
Publié: (2024)
par: Hu, Ruida, et autres
Publié: (2024)
Spreadsheet Modeling Experiments Using GPTs on Small Problem Statements and the Wall Task
par: Grossman, Thomas A., et autres
Publié: (2026)
par: Grossman, Thomas A., et autres
Publié: (2026)
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection
par: Zhang, Ting, et autres
Publié: (2025)
par: Zhang, Ting, et autres
Publié: (2025)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation
par: Wang, Wenhan, et autres
Publié: (2024)
par: Wang, Wenhan, et autres
Publié: (2024)
Studying and Benchmarking Large Language Models For Log Level Suggestion
par: Heng, Yi Wen, et autres
Publié: (2024)
par: Heng, Yi Wen, et autres
Publié: (2024)
A Multi-Language Object-Oriented Programming Benchmark for Large Language Models
par: Wang, Shuai, et autres
Publié: (2025)
par: Wang, Shuai, et autres
Publié: (2025)
AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation
par: Pulavarthi, Vaishnavi, et autres
Publié: (2024)
par: Pulavarthi, Vaishnavi, et autres
Publié: (2024)
TableTalk: Scaffolding Spreadsheet Development with a Language Agent
par: Liang, Jenny T., et autres
Publié: (2025)
par: Liang, Jenny T., et autres
Publié: (2025)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement
par: Li, Kefan, et autres
Publié: (2024)
par: Li, Kefan, et autres
Publié: (2024)
QuanBench: Benchmarking Quantum Code Generation with Large Language Models
par: Guo, Xiaoyu, et autres
Publié: (2025)
par: Guo, Xiaoyu, et autres
Publié: (2025)
COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models
par: Meaden, James, et autres
Publié: (2025)
par: Meaden, James, et autres
Publié: (2025)
AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation
par: Zhang, Tanghaoran, et autres
Publié: (2026)
par: Zhang, Tanghaoran, et autres
Publié: (2026)
Evaluating Generated Commit Messages with Large Language Models
par: Zeng, Qunhong, et autres
Publié: (2025)
par: Zeng, Qunhong, et autres
Publié: (2025)
On the Evaluation of Large Language Models in Multilingual Vulnerability Repair
par: wang, Dong, et autres
Publié: (2025)
par: wang, Dong, et autres
Publié: (2025)
On the Evaluation of Large Language Models in Unit Test Generation
par: Yang, Lin, et autres
Publié: (2024)
par: Yang, Lin, et autres
Publié: (2024)
Narrowing the Complexity Gap in the Evaluation of Large Language Models
par: Chen, Yang, et autres
Publié: (2026)
par: Chen, Yang, et autres
Publié: (2026)
Debugging with Open-Source Large Language Models: An Evaluation
par: Majdoub, Yacine, et autres
Publié: (2024)
par: Majdoub, Yacine, et autres
Publié: (2024)
Evaluating Large Language Models in Detecting Test Smells
par: Lucas, Keila, et autres
Publié: (2024)
par: Lucas, Keila, et autres
Publié: (2024)
Augmenting the Generality and Performance of Large Language Models for Software Engineering
par: Peña, Fabian C.
Publié: (2025)
par: Peña, Fabian C.
Publié: (2025)
Prompt Engineering Guidelines for Using Large Language Models in Requirements Engineering
par: Ronanki, Krishna, et autres
Publié: (2025)
par: Ronanki, Krishna, et autres
Publié: (2025)
BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models
par: Shang, Xiuwei, et autres
Publié: (2025)
par: Shang, Xiuwei, et autres
Publié: (2025)
SimpleDevQA: Benchmarking Large Language Models on Development Knowledge QA
par: Zhang, Jing, et autres
Publié: (2025)
par: Zhang, Jing, et autres
Publié: (2025)
A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends
par: Zheng, Zibin, et autres
Publié: (2023)
par: Zheng, Zibin, et autres
Publié: (2023)
MCeT: Behavioral Model Correctness Evaluation using Large Language Models
par: Ahmed, Khaled, et autres
Publié: (2025)
par: Ahmed, Khaled, et autres
Publié: (2025)
Comparative Evaluation of Large Language Models for Test-Skeleton Generation
par: Boorlagadda, Subhang, et autres
Publié: (2025)
par: Boorlagadda, Subhang, et autres
Publié: (2025)
Empirical Evaluation of Large Language Models in Automated Program Repair
par: Sun, Jiajun, et autres
Publié: (2025)
par: Sun, Jiajun, et autres
Publié: (2025)
Documents similaires
-
Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
par: Thorne, Simon, et autres
Publié: (2025) -
Classification of Spreadsheet Errors
par: Rajalingham, Kamalasen, et autres
Publié: (2008) -
SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations
par: Indika, Amila, et autres
Publié: (2025) -
Drivers of the Cost of Spreadsheet Audit
par: Colver, David
Publié: (2011) -
SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
par: Ma, Zeyao, et autres
Publié: (2024)