:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Mu, Wenhan, Xu, Ling, Pei, Shuren, Mi, Le, Zhou, Huichi
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Software Engineering Computation and Language
Accesso online:	https://arxiv.org/abs/2504.19730
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation
di: Moon, Jiwon, et al.
Pubblicazione: (2025)

CodeJudge: Evaluating Code Generation with Large Language Models
di: Tong, Weixi, et al.
Pubblicazione: (2024)

CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?
di: Zhao, Yuwei, et al.
Pubblicazione: (2024)

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
di: Weyssow, Martin, et al.
Pubblicazione: (2024)

ProSec: Fortifying Code LLMs with Proactive Security Alignment
di: Xu, Xiangzhe, et al.
Pubblicazione: (2024)

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks
di: Jiang, Hongchao, et al.
Pubblicazione: (2025)

Stellis: A Strategy Language for Purifying Separation Logic Entailments
di: Wang, Zhiyi, et al.
Pubblicazione: (2025)

Python Symbolic Execution with LLM-powered Code Generation
di: Wang, Wenhan, et al.
Pubblicazione: (2024)

LLM-as-a-Judge for Reference-less Automatic Code Validation and Refinement for Natural Language to Bash in IT Automation
di: Vo, Ngoc Phuoc An, et al.
Pubblicazione: (2025)

Black-Box Adversarial Attacks on LLM-Based Code Completion
di: Jenko, Slobodan, et al.
Pubblicazione: (2024)

Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation
di: Chen, Le, et al.
Pubblicazione: (2025)

Adversarial Attacks on Code Models with Discriminative Graph Patterns
di: Nguyen, Thanh-Dat, et al.
Pubblicazione: (2023)

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation
di: Zhang, Chenchen, et al.
Pubblicazione: (2025)

Evaluating and Achieving Controllable Code Completion in Code LLM
di: Zhang, Jiajun, et al.
Pubblicazione: (2026)

An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks
di: Zhou, Xin, et al.
Pubblicazione: (2025)

CodeMirage: Hallucinations in Code Generated by Large Language Models
di: Agarwal, Vibhor, et al.
Pubblicazione: (2024)

Comparing Developer and LLM Biases in Code Evaluation
di: Mittal, Aditya, et al.
Pubblicazione: (2026)

Learning to Focus: Context Extraction for Efficient Code Vulnerability Detection with Language Models
di: Zheng, Xinran, et al.
Pubblicazione: (2025)

Perish or Flourish? A Holistic Evaluation of Large Language Models for Code Generation in Functional Programming
di: Lang, Nguyet-Anh H., et al.
Pubblicazione: (2026)

Rethinking Code Refinement: Learning to Judge Code Efficiency
di: Seo, Minju, et al.
Pubblicazione: (2024)

AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators
di: Chou, Jason, et al.
Pubblicazione: (2025)

Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval
di: Wang, Jiexin, et al.
Pubblicazione: (2024)

CodeMind: Evaluating Large Language Models for Code Reasoning
di: Liu, Changshu, et al.
Pubblicazione: (2024)

BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
di: Lai, Peng, et al.
Pubblicazione: (2026)

Evaluating Language Models for Efficient Code Generation
di: Liu, Jiawei, et al.
Pubblicazione: (2024)

Adversarial Attack Classification and Robustness Testing for Large Language Models for Code
di: Liu, Yang, et al.
Pubblicazione: (2025)

Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation
di: Fu, Lingyue, et al.
Pubblicazione: (2025)

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
di: Shi, Yuling, et al.
Pubblicazione: (2026)

ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
di: Kammakomati, Mehant, et al.
Pubblicazione: (2024)

SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation
di: Petrukha, Ivan, et al.
Pubblicazione: (2025)

Language Models for Code Completion: A Practical Evaluation
di: Izadi, Maliheh, et al.
Pubblicazione: (2024)

Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model
di: Lin, Yu-Chen, et al.
Pubblicazione: (2023)

Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models
di: Feng, Chengzhe, et al.
Pubblicazione: (2024)

Code Fingerprints: Disentangled Attribution of LLM-Generated Code
di: Guo, Jiaxun, et al.
Pubblicazione: (2026)

LongCodeZip: Compress Long Context for Code Language Models
di: Shi, Yuling, et al.
Pubblicazione: (2025)

Bridging Code Graphs and Large Language Models for Better Code Understanding
di: Chen, Zeqi, et al.
Pubblicazione: (2025)

Mercury: A Code Efficiency Benchmark for Code Large Language Models
di: Du, Mingzhe, et al.
Pubblicazione: (2024)

ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models
di: Zheng, Jiasheng, et al.
Pubblicazione: (2026)

InstructCoder: Instruction Tuning Large Language Models for Code Editing
di: Li, Kaixin, et al.
Pubblicazione: (2023)

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
di: Yu, Zhaojian, et al.
Pubblicazione: (2024)