Salvato in:
| Autori principali: | Huang, Yuheng, Ma, Lei, Nishikino, Keizaburo, Akazaki, Takumi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2504.14640 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models
di: Sun, Ruoyu, et al.
Pubblicazione: (2025)
di: Sun, Ruoyu, et al.
Pubblicazione: (2025)
Evaluating LLMs on Sequential API Call Through Automated Test Generation
di: Huang, Yuheng, et al.
Pubblicazione: (2025)
di: Huang, Yuheng, et al.
Pubblicazione: (2025)
Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward
di: Xie, Xuan, et al.
Pubblicazione: (2024)
di: Xie, Xuan, et al.
Pubblicazione: (2024)
Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models
di: Huang, Yuheng, et al.
Pubblicazione: (2023)
di: Huang, Yuheng, et al.
Pubblicazione: (2023)
LeDex: Training LLMs to Better Self-Debug and Explain Code
di: Jiang, Nan, et al.
Pubblicazione: (2024)
di: Jiang, Nan, et al.
Pubblicazione: (2024)
Search-Based LLMs for Code Optimization
di: Gao, Shuzheng, et al.
Pubblicazione: (2024)
di: Gao, Shuzheng, et al.
Pubblicazione: (2024)
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities
di: Wang, Hanbin, et al.
Pubblicazione: (2025)
di: Wang, Hanbin, et al.
Pubblicazione: (2025)
LLMs for Science: Usage for Code Generation and Data Analysis
di: Nejjar, Mohamed, et al.
Pubblicazione: (2023)
di: Nejjar, Mohamed, et al.
Pubblicazione: (2023)
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct
di: Wu, Yutong, et al.
Pubblicazione: (2024)
di: Wu, Yutong, et al.
Pubblicazione: (2024)
CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment
di: Jiang, Xue, et al.
Pubblicazione: (2025)
di: Jiang, Xue, et al.
Pubblicazione: (2025)
A Critical Study of What Code-LLMs (Do Not) Learn
di: Anand, Abhinav, et al.
Pubblicazione: (2024)
di: Anand, Abhinav, et al.
Pubblicazione: (2024)
CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation
di: Yan, Weixiang, et al.
Pubblicazione: (2023)
di: Yan, Weixiang, et al.
Pubblicazione: (2023)
Code Broker: A Multi-Agent System for Automated Code Quality Assessment
di: Attrah, Samer
Pubblicazione: (2026)
di: Attrah, Samer
Pubblicazione: (2026)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks
di: Chervyakov, Artem, et al.
Pubblicazione: (2025)
di: Chervyakov, Artem, et al.
Pubblicazione: (2025)
To See is Not to Master: Teaching LLMs to Use Private Libraries for Code Generation
di: Zhang, Yitong, et al.
Pubblicazione: (2026)
di: Zhang, Yitong, et al.
Pubblicazione: (2026)
LUNA: A Model-Based Universal Analysis Framework for Large Language Models
di: Song, Da, et al.
Pubblicazione: (2023)
di: Song, Da, et al.
Pubblicazione: (2023)
AutoCode: LLMs as Problem Setters for Competitive Programming
di: Zhou, Shang, et al.
Pubblicazione: (2025)
di: Zhou, Shang, et al.
Pubblicazione: (2025)
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff
di: Tang, Hao, et al.
Pubblicazione: (2024)
di: Tang, Hao, et al.
Pubblicazione: (2024)
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation
di: Ni, Yuansheng, et al.
Pubblicazione: (2025)
di: Ni, Yuansheng, et al.
Pubblicazione: (2025)
Large Language Models (LLMs) for Source Code Analysis: applications, models and datasets
di: Jelodar, Hamed, et al.
Pubblicazione: (2025)
di: Jelodar, Hamed, et al.
Pubblicazione: (2025)
CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback
di: Sun, Qiushi, et al.
Pubblicazione: (2025)
di: Sun, Qiushi, et al.
Pubblicazione: (2025)
B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests
di: Chen, Mouxiang, et al.
Pubblicazione: (2024)
di: Chen, Mouxiang, et al.
Pubblicazione: (2024)
CodeArt: Better Code Models by Attention Regularization When Symbols Are Lacking
di: Su, Zian, et al.
Pubblicazione: (2024)
di: Su, Zian, et al.
Pubblicazione: (2024)
Evaluating Implicit Regulatory Compliance in LLM Tool Invocation via Logic-Guided Synthesis
di: Song, Da, et al.
Pubblicazione: (2026)
di: Song, Da, et al.
Pubblicazione: (2026)
CodeS: Natural Language to Code Repository via Multi-Layer Sketch
di: Zan, Daoguang, et al.
Pubblicazione: (2024)
di: Zan, Daoguang, et al.
Pubblicazione: (2024)
Leveraging LLMs to Automate Energy-Aware Refactoring of Parallel Scientific Codes
di: Dearing, Matthew T., et al.
Pubblicazione: (2025)
di: Dearing, Matthew T., et al.
Pubblicazione: (2025)
Pull Requests as a Training Signal for Repo-Level Code Editing
di: Zhu, Qinglin, et al.
Pubblicazione: (2026)
di: Zhu, Qinglin, et al.
Pubblicazione: (2026)
ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries
di: Maharaj, Kishan, et al.
Pubblicazione: (2024)
di: Maharaj, Kishan, et al.
Pubblicazione: (2024)
Compositional API Recommendation for Library-Oriented Code Generation
di: Ma, Zexiong, et al.
Pubblicazione: (2024)
di: Ma, Zexiong, et al.
Pubblicazione: (2024)
Collaboration is all you need: LLM Assisted Safe Code Translation
di: Karanjai, Rabimba, et al.
Pubblicazione: (2025)
di: Karanjai, Rabimba, et al.
Pubblicazione: (2025)
ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation
di: Liu, Sicong, et al.
Pubblicazione: (2026)
di: Liu, Sicong, et al.
Pubblicazione: (2026)
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
di: Zhuo, Terry Yue, et al.
Pubblicazione: (2025)
di: Zhuo, Terry Yue, et al.
Pubblicazione: (2025)
CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases
di: Liu, Xiangyan, et al.
Pubblicazione: (2024)
di: Liu, Xiangyan, et al.
Pubblicazione: (2024)
CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision
di: Lu, Yifei, et al.
Pubblicazione: (2025)
di: Lu, Yifei, et al.
Pubblicazione: (2025)
AcTracer: Active Testing of Large Language Model via Multi-Stage Sampling
di: Huang, Yuheng, et al.
Pubblicazione: (2024)
di: Huang, Yuheng, et al.
Pubblicazione: (2024)
Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark
di: Zheng, Dewu, et al.
Pubblicazione: (2024)
di: Zheng, Dewu, et al.
Pubblicazione: (2024)
VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation
di: Vijayaraghavan, Prashanth, et al.
Pubblicazione: (2024)
di: Vijayaraghavan, Prashanth, et al.
Pubblicazione: (2024)
Chain of Grounded Objectives: Bridging Process and Goal-oriented Prompting for Code Generation
di: Yeo, Sangyeop, et al.
Pubblicazione: (2025)
di: Yeo, Sangyeop, et al.
Pubblicazione: (2025)
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs
di: Yang, Dayu, et al.
Pubblicazione: (2025)
di: Yang, Dayu, et al.
Pubblicazione: (2025)
CodeV: Issue Resolving with Visual Data
di: Zhang, Linhao, et al.
Pubblicazione: (2024)
di: Zhang, Linhao, et al.
Pubblicazione: (2024)
Documenti analoghi
-
TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models
di: Sun, Ruoyu, et al.
Pubblicazione: (2025) -
Evaluating LLMs on Sequential API Call Through Automated Test Generation
di: Huang, Yuheng, et al.
Pubblicazione: (2025) -
Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward
di: Xie, Xuan, et al.
Pubblicazione: (2024) -
Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models
di: Huang, Yuheng, et al.
Pubblicazione: (2023) -
LeDex: Training LLMs to Better Self-Debug and Explain Code
di: Jiang, Nan, et al.
Pubblicazione: (2024)