:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Zhong, Philip, Wang, Don, Zhang, Jason
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Artificial Intelligence Computation and Language
Accesso online:	https://arxiv.org/abs/2604.21345
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
di: Bandel, Elron, et al.
Pubblicazione: (2024)

Is my Meeting Summary Good? Estimating Quality with a Multi-LLM Evaluator
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality
di: Zhong, Philip, et al.
Pubblicazione: (2025)

When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
di: Jeong, Soyeong, et al.
Pubblicazione: (2025)

What's Wrong? Refining Meeting Summaries with LLM Feedback
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)

Toward Reusability of AI Models Using Dynamic Updates of AI Documentation
di: Bajcsy, Peter, et al.
Pubblicazione: (2026)

Ethical and Explainable AI in Reusable MLOps Pipelines
di: Hossain, Rakib, et al.
Pubblicazione: (2026)

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
di: Aggarwal, Shashank, et al.
Pubblicazione: (2026)

Detecting AI-Generated Texts in Cross-Domains
di: Zhou, You, et al.
Pubblicazione: (2024)

Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery
di: Aryal, Shiva, et al.
Pubblicazione: (2024)

Evaluating Novelty in AI-Generated Research Plans Using Multi-Workflow LLM Pipelines
di: Saraogi, Devesh, et al.
Pubblicazione: (2025)

KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs
di: Pei, Aihua, et al.
Pubblicazione: (2024)

Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries
di: Gero, Zelalem, et al.
Pubblicazione: (2024)

Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT
di: Shakil, Hassan, et al.
Pubblicazione: (2024)

AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models
di: Jackson, Declan, et al.
Pubblicazione: (2025)

SCURank: Ranking Multiple Candidate Summaries with Summary Content Units for Enhanced Summarization
di: Wang, Bo-Jyun, et al.
Pubblicazione: (2026)

LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language
di: Wang, Ming, et al.
Pubblicazione: (2024)

LCDS: A Logic-Controlled Discharge Summary Generation System Supporting Source Attribution and Expert Review
di: Yuan, Cheng, et al.
Pubblicazione: (2025)

DIAL-SUMMER: A Structured Evaluation Framework of Hierarchical Errors in Dialogue Summaries
di: Ramnath, Sahana, et al.
Pubblicazione: (2026)

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain
di: De Lange, Matthias, et al.
Pubblicazione: (2026)

Ontology-Constrained Generation of Domain-Specific Clinical Summaries
di: Mehenni, Gaya, et al.
Pubblicazione: (2024)

Evaluation Ethics of LLMs in Legal Domain
di: Zhang, Ruizhe, et al.
Pubblicazione: (2024)

Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages
di: Min, Hyangsuk, et al.
Pubblicazione: (2025)

BEADs: Bias Evaluation Across Domains
di: Raza, Shaina, et al.
Pubblicazione: (2024)

Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability
di: Seegmiller, Parker, et al.
Pubblicazione: (2024)

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems
di: Jin, Haibo, et al.
Pubblicazione: (2026)

When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models
di: Wang, Weilan, et al.
Pubblicazione: (2025)

Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation
di: Chen, Peter Baile, et al.
Pubblicazione: (2025)

Cross-Domain Content Generation with Domain-Specific Small Language Models
di: Maloo, Ankit, et al.
Pubblicazione: (2024)

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features
di: Lee, Bruce W., et al.
Pubblicazione: (2021)

Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI
di: Singh, Saurabh K., et al.
Pubblicazione: (2026)

GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction
di: Bagherifard, Mohammadtaha, et al.
Pubblicazione: (2025)

Decoding Time Series with LLMs: A Multi-Agent Framework for Cross-Domain Annotation
di: Lin, Minhua, et al.
Pubblicazione: (2024)

The Moral Consistency Pipeline: Continuous Ethical Evaluation for Large Language Models
di: Jamshidi, Saeid, et al.
Pubblicazione: (2025)

Reheat Nachos for Dinner? Evaluating AI Support for Cross-Cultural Communication of Neologisms
di: Ki, Dayeon, et al.
Pubblicazione: (2026)

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
di: Tang, Xiangru, et al.
Pubblicazione: (2025)

Large Language Models Meet NLP: A Survey
di: Qin, Libo, et al.
Pubblicazione: (2024)

TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains
di: Wang, Wanying, et al.
Pubblicazione: (2024)

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety
di: Huang, Wei-Chieh, et al.
Pubblicazione: (2025)

A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains
di: Zhang, Xianren, et al.
Pubblicazione: (2025)