:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Fang, Sen, Ding, Weiyuan, Mastropaolo, Antonio, Xu, Bowen
Format:	Preprint
Published:	2025
Subjects:	Software Engineering Artificial Intelligence Programming Languages
Online Access:	https://arxiv.org/abs/2506.22776
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation
by: Chen, Le, et al.
Published: (2025)

A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks
by: Dandamudi, Rohit, et al.
Published: (2024)

Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages
by: Zhang, William, et al.
Published: (2024)

Assessing Code Understanding in LLMs
by: Laneve, Cosimo, et al.
Published: (2025)

CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation
by: Wang, Peiding, et al.
Published: (2025)

PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models
by: Chen, Simin, et al.
Published: (2024)

ECO: Enhanced Code Optimization via Performance-Aware Prompting for Code-LLMs
by: Kim, Su-Hyeon, et al.
Published: (2025)

Benchmarking Large Language Models for ABAP Code Generation: An Empirical Study on Iterative Improvement by Compiler Feedback
by: Wallraven, Stephan, et al.
Published: (2026)

AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing
by: Fang, Sen, et al.
Published: (2026)

AInsteinBench: Benchmarking Coding Agents on Scientific Repositories
by: Duston, Titouan, et al.
Published: (2025)

Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks
by: Nyamsuren, Enkhbold
Published: (2024)

AutoCode: LLMs as Problem Setters for Competitive Programming
by: Zhou, Shang, et al.
Published: (2025)

Code Repair with LLMs gives an Exploration-Exploitation Tradeoff
by: Tang, Hao, et al.
Published: (2024)

Dynamic Stability of LLM-Generated Code
by: Rajput, Prateek, et al.
Published: (2025)

JavaBench: A Benchmark of Object-Oriented Code Generation for Evaluating Large Language Models
by: Cao, Jialun, et al.
Published: (2024)

Is Functional Correctness Enough to Evaluate Code Language Models? Exploring Diversity of Generated Codes
by: Chon, Heejae, et al.
Published: (2024)

Effective LLM-Driven Code Generation with Pythoness
by: Levin, Kyla H., et al.
Published: (2025)

Executing as You Generate: Hiding Execution Latency in LLM Code Generation
by: Sun, Zhensu, et al.
Published: (2026)

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities
by: Misra, Diganta, et al.
Published: (2025)

Is Quantization a Deal-breaker? Empirical Insights from Large Code Models
by: Afrin, Saima, et al.
Published: (2025)

EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming
by: Fang, Sen, et al.
Published: (2025)

PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback
by: Peng, Yun, et al.
Published: (2024)

From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging
by: Shi, Yuling, et al.
Published: (2024)

Hydra: Efficient, Correct Code Generation via Checkpoint-and-Rollback Support
by: Du, Alexander, et al.
Published: (2026)

Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation
by: Antal, Gábor, et al.
Published: (2024)

Self-Improving Code Generation via Semantic Entropy and Behavioral Consensus
by: Zhang, Huan, et al.
Published: (2026)

OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification
by: Li, Shangyu, et al.
Published: (2025)

LecPrompt: A Prompt-based Approach for Logical Error Correction with CodeBERT
by: Xu, Zhenyu, et al.
Published: (2024)

From Code Generation to Software Testing: AI Copilot with Context-Based RAG
by: Wang, Yuchen, et al.
Published: (2025)

AutoMCQ -- Automatically Generate Code Comprehension Questions using GenAI
by: Goodfellow, Martin, et al.
Published: (2025)

Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning
by: Zhang, Yinger, et al.
Published: (2023)

Bench4HLS: End-to-End Evaluation of LLMs in High-Level Synthesis Code Generation
by: Khan, M Zafir Sadik, et al.
Published: (2026)

Learning to Guarantee Type Correctness in Code Generation through Type-Guided Program Synthesis
by: Huang, Zhechong, et al.
Published: (2025)

Is Self-Repair a Silver Bullet for Code Generation?
by: Olausson, Theo X., et al.
Published: (2023)

AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation
by: Sun, Zhensu, et al.
Published: (2024)

Perish or Flourish? A Holistic Evaluation of Large Language Models for Code Generation in Functional Programming
by: Lang, Nguyet-Anh H., et al.
Published: (2026)

Agentic Code Reasoning
by: Ugare, Shubham, et al.
Published: (2026)

REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models
by: Saieva, Anthony, et al.
Published: (2023)

Is Programming by Example solved by LLMs?
by: Li, Wen-Ding, et al.
Published: (2024)

AI-Mediated Code Comment Improvement
by: Dhakal, Maria, et al.
Published: (2025)