:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Lu, Max Hao, Ellegood, Ryan, Rodriguez-Ramirez, Rony, Blumert, Sophia
Format:	Preprint
Publié:	2026
Sujets:	Artificial Intelligence Computation and Language
Accès en ligne:	https://arxiv.org/abs/2604.03820
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

QualEval: Qualitative Evaluation for Model Improvement
par: Murahari, Vishvak, et autres
Publié: (2023)

AutoQual: An LLM Agent for Automated Discovery of Interpretable Features for Review Quality Assessment
par: Lan, Xiaochong, et autres
Publié: (2025)

Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis
par: Cuccarese, Michael
Publié: (2026)

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation
par: Jain, Nilesh, et autres
Publié: (2025)

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation
par: Huang, Junbo, et autres
Publié: (2026)

Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
par: Kapoor, Satya, et autres
Publié: (2024)

Concept-Level Explainability for Auditing & Steering LLM Responses
par: Amara, Kenza, et autres
Publié: (2025)

How Trustworthy Are LLM-as-Judge Ratings for Interpretive Responses? Implications for Qualitative Research Workflows
par: Han, Songhee, et autres
Publié: (2026)

Analyzing And Editing Inner Mechanisms Of Backdoored Language Models
par: Lamparth, Max, et autres
Publié: (2023)

Ace-CEFR -- A Dataset for Automated Evaluation of the Linguistic Difficulty of Conversational Texts for LLM Applications
par: Kogan, David, et autres
Publié: (2025)

BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks
par: Tu, Xinming, et autres
Publié: (2026)

Natural Language Processing for Analyzing Electronic Health Records and Clinical Notes in Cancer Research: A Review
par: Bilal, Muhammad, et autres
Publié: (2024)

Code Comprehension then Auditing for Unsupervised LLM Evaluation
par: Patel, Bhrij, et autres
Publié: (2024)

Equal Access, Unequal Interaction: A Counterfactual Audit of LLM Fairness
par: Amiri-Margavi, Alireza, et autres
Publié: (2026)

Offscript: Automated Auditing of Instruction Adherence in LLMs
par: Clark, Nicholas, et autres
Publié: (2025)

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
par: Zhang, Kangning, et autres
Publié: (2025)

Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents
par: Das, Saswat, et autres
Publié: (2025)

Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents
par: Tan, Weiting, et autres
Publié: (2025)

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning
par: Yue, Murong, et autres
Publié: (2025)

Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends
par: Ramprasad, Sanjana, et autres
Publié: (2024)

Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models
par: Edy, Antoine, et autres
Publié: (2026)

Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing
par: Yuan, Wenhao, et autres
Publié: (2026)

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving
par: Hossain, Md Sifat, et autres
Publié: (2025)

CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
par: Song, Yiliang, et autres
Publié: (2026)

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback
par: Wu, Qinzhuo, et autres
Publié: (2024)

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
par: Lu, Jiarui, et autres
Publié: (2024)

Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization
par: Ko, Miyoung, et autres
Publié: (2024)

Quine: Realizing LLM Agents as Native POSIX Processes
par: Ke, Hao
Publié: (2026)

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision
par: Lu, Yifei, et autres
Publié: (2025)

Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming
par: Wang, Phoebe J., et autres
Publié: (2024)

Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test
par: Zhu, Xiaoyuan, et autres
Publié: (2025)

The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events
par: Gunjan, et autres
Publié: (2026)

Standard Benchmarks Fail -- Auditing LLM Agents in Finance Must Prioritize Risk
par: Chen, Zichen, et autres
Publié: (2025)

Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models
par: Zhao, Lulu, et autres
Publié: (2024)

DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence
par: Venkit, Pranav Narayanan, et autres
Publié: (2025)

SkillGraph: Graph Foundation Priors for LLM Agent Tool Sequence Recommendation
par: Liu, Hao, et autres
Publié: (2026)

Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT
par: Krauss, Patrick, et autres
Publié: (2024)

Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding
par: Borchers, Conrad, et autres
Publié: (2025)

Distilling LLM Agent into Small Models with Retrieval and Code Tools
par: Kang, Minki, et autres
Publié: (2025)

Auditing Stealth Sycophancy in Mental-Health Dialogue: Structured Clinical-State Diagnostics and Clean Matched Benchmarks
par: Han, Tianze, et autres
Publié: (2026)