Salvato in:
| Autori principali: | Mu, Wenhan, Xu, Ling, Pei, Shuren, Mi, Le, Zhou, Huichi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2504.19730 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation
di: Moon, Jiwon, et al.
Pubblicazione: (2025)
di: Moon, Jiwon, et al.
Pubblicazione: (2025)
CodeJudge: Evaluating Code Generation with Large Language Models
di: Tong, Weixi, et al.
Pubblicazione: (2024)
di: Tong, Weixi, et al.
Pubblicazione: (2024)
CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?
di: Zhao, Yuwei, et al.
Pubblicazione: (2024)
di: Zhao, Yuwei, et al.
Pubblicazione: (2024)
CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
di: Weyssow, Martin, et al.
Pubblicazione: (2024)
di: Weyssow, Martin, et al.
Pubblicazione: (2024)
ProSec: Fortifying Code LLMs with Proactive Security Alignment
di: Xu, Xiangzhe, et al.
Pubblicazione: (2024)
di: Xu, Xiangzhe, et al.
Pubblicazione: (2024)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks
di: Jiang, Hongchao, et al.
Pubblicazione: (2025)
di: Jiang, Hongchao, et al.
Pubblicazione: (2025)
Stellis: A Strategy Language for Purifying Separation Logic Entailments
di: Wang, Zhiyi, et al.
Pubblicazione: (2025)
di: Wang, Zhiyi, et al.
Pubblicazione: (2025)
Python Symbolic Execution with LLM-powered Code Generation
di: Wang, Wenhan, et al.
Pubblicazione: (2024)
di: Wang, Wenhan, et al.
Pubblicazione: (2024)
LLM-as-a-Judge for Reference-less Automatic Code Validation and Refinement for Natural Language to Bash in IT Automation
di: Vo, Ngoc Phuoc An, et al.
Pubblicazione: (2025)
di: Vo, Ngoc Phuoc An, et al.
Pubblicazione: (2025)
Black-Box Adversarial Attacks on LLM-Based Code Completion
di: Jenko, Slobodan, et al.
Pubblicazione: (2024)
di: Jenko, Slobodan, et al.
Pubblicazione: (2024)
Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation
di: Chen, Le, et al.
Pubblicazione: (2025)
di: Chen, Le, et al.
Pubblicazione: (2025)
Adversarial Attacks on Code Models with Discriminative Graph Patterns
di: Nguyen, Thanh-Dat, et al.
Pubblicazione: (2023)
di: Nguyen, Thanh-Dat, et al.
Pubblicazione: (2023)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation
di: Zhang, Chenchen, et al.
Pubblicazione: (2025)
di: Zhang, Chenchen, et al.
Pubblicazione: (2025)
Evaluating and Achieving Controllable Code Completion in Code LLM
di: Zhang, Jiajun, et al.
Pubblicazione: (2026)
di: Zhang, Jiajun, et al.
Pubblicazione: (2026)
An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks
di: Zhou, Xin, et al.
Pubblicazione: (2025)
di: Zhou, Xin, et al.
Pubblicazione: (2025)
CodeMirage: Hallucinations in Code Generated by Large Language Models
di: Agarwal, Vibhor, et al.
Pubblicazione: (2024)
di: Agarwal, Vibhor, et al.
Pubblicazione: (2024)
Comparing Developer and LLM Biases in Code Evaluation
di: Mittal, Aditya, et al.
Pubblicazione: (2026)
di: Mittal, Aditya, et al.
Pubblicazione: (2026)
Learning to Focus: Context Extraction for Efficient Code Vulnerability Detection with Language Models
di: Zheng, Xinran, et al.
Pubblicazione: (2025)
di: Zheng, Xinran, et al.
Pubblicazione: (2025)
Perish or Flourish? A Holistic Evaluation of Large Language Models for Code Generation in Functional Programming
di: Lang, Nguyet-Anh H., et al.
Pubblicazione: (2026)
di: Lang, Nguyet-Anh H., et al.
Pubblicazione: (2026)
Rethinking Code Refinement: Learning to Judge Code Efficiency
di: Seo, Minju, et al.
Pubblicazione: (2024)
di: Seo, Minju, et al.
Pubblicazione: (2024)
AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators
di: Chou, Jason, et al.
Pubblicazione: (2025)
di: Chou, Jason, et al.
Pubblicazione: (2025)
Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval
di: Wang, Jiexin, et al.
Pubblicazione: (2024)
di: Wang, Jiexin, et al.
Pubblicazione: (2024)
CodeMind: Evaluating Large Language Models for Code Reasoning
di: Liu, Changshu, et al.
Pubblicazione: (2024)
di: Liu, Changshu, et al.
Pubblicazione: (2024)
BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
di: Lai, Peng, et al.
Pubblicazione: (2026)
di: Lai, Peng, et al.
Pubblicazione: (2026)
Evaluating Language Models for Efficient Code Generation
di: Liu, Jiawei, et al.
Pubblicazione: (2024)
di: Liu, Jiawei, et al.
Pubblicazione: (2024)
Adversarial Attack Classification and Robustness Testing for Large Language Models for Code
di: Liu, Yang, et al.
Pubblicazione: (2025)
di: Liu, Yang, et al.
Pubblicazione: (2025)
Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation
di: Fu, Lingyue, et al.
Pubblicazione: (2025)
di: Fu, Lingyue, et al.
Pubblicazione: (2025)
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
di: Shi, Yuling, et al.
Pubblicazione: (2026)
di: Shi, Yuling, et al.
Pubblicazione: (2026)
ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
di: Kammakomati, Mehant, et al.
Pubblicazione: (2024)
di: Kammakomati, Mehant, et al.
Pubblicazione: (2024)
SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation
di: Petrukha, Ivan, et al.
Pubblicazione: (2025)
di: Petrukha, Ivan, et al.
Pubblicazione: (2025)
Language Models for Code Completion: A Practical Evaluation
di: Izadi, Maliheh, et al.
Pubblicazione: (2024)
di: Izadi, Maliheh, et al.
Pubblicazione: (2024)
Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model
di: Lin, Yu-Chen, et al.
Pubblicazione: (2023)
di: Lin, Yu-Chen, et al.
Pubblicazione: (2023)
Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models
di: Feng, Chengzhe, et al.
Pubblicazione: (2024)
di: Feng, Chengzhe, et al.
Pubblicazione: (2024)
Code Fingerprints: Disentangled Attribution of LLM-Generated Code
di: Guo, Jiaxun, et al.
Pubblicazione: (2026)
di: Guo, Jiaxun, et al.
Pubblicazione: (2026)
LongCodeZip: Compress Long Context for Code Language Models
di: Shi, Yuling, et al.
Pubblicazione: (2025)
di: Shi, Yuling, et al.
Pubblicazione: (2025)
Bridging Code Graphs and Large Language Models for Better Code Understanding
di: Chen, Zeqi, et al.
Pubblicazione: (2025)
di: Chen, Zeqi, et al.
Pubblicazione: (2025)
Mercury: A Code Efficiency Benchmark for Code Large Language Models
di: Du, Mingzhe, et al.
Pubblicazione: (2024)
di: Du, Mingzhe, et al.
Pubblicazione: (2024)
ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models
di: Zheng, Jiasheng, et al.
Pubblicazione: (2026)
di: Zheng, Jiasheng, et al.
Pubblicazione: (2026)
InstructCoder: Instruction Tuning Large Language Models for Code Editing
di: Li, Kaixin, et al.
Pubblicazione: (2023)
di: Li, Kaixin, et al.
Pubblicazione: (2023)
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
di: Yu, Zhaojian, et al.
Pubblicazione: (2024)
di: Yu, Zhaojian, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation
di: Moon, Jiwon, et al.
Pubblicazione: (2025) -
CodeJudge: Evaluating Code Generation with Large Language Models
di: Tong, Weixi, et al.
Pubblicazione: (2024) -
CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?
di: Zhao, Yuwei, et al.
Pubblicazione: (2024) -
CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
di: Weyssow, Martin, et al.
Pubblicazione: (2024) -
ProSec: Fortifying Code LLMs with Proactive Security Alignment
di: Xu, Xiangzhe, et al.
Pubblicazione: (2024)