Salvato in:
| Autori principali: | Zhong, Philip, Wang, Don, Zhang, Jason |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2604.21345 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
di: Bandel, Elron, et al.
Pubblicazione: (2024)
di: Bandel, Elron, et al.
Pubblicazione: (2024)
Is my Meeting Summary Good? Estimating Quality with a Multi-LLM Evaluator
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)
Evaluating Embedding Models and Pipeline Optimization for AI Search Quality
di: Zhong, Philip, et al.
Pubblicazione: (2025)
di: Zhong, Philip, et al.
Pubblicazione: (2025)
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
di: Jeong, Soyeong, et al.
Pubblicazione: (2025)
di: Jeong, Soyeong, et al.
Pubblicazione: (2025)
What's Wrong? Refining Meeting Summaries with LLM Feedback
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)
Toward Reusability of AI Models Using Dynamic Updates of AI Documentation
di: Bajcsy, Peter, et al.
Pubblicazione: (2026)
di: Bajcsy, Peter, et al.
Pubblicazione: (2026)
Ethical and Explainable AI in Reusable MLOps Pipelines
di: Hossain, Rakib, et al.
Pubblicazione: (2026)
di: Hossain, Rakib, et al.
Pubblicazione: (2026)
Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
di: Aggarwal, Shashank, et al.
Pubblicazione: (2026)
di: Aggarwal, Shashank, et al.
Pubblicazione: (2026)
Detecting AI-Generated Texts in Cross-Domains
di: Zhou, You, et al.
Pubblicazione: (2024)
di: Zhou, You, et al.
Pubblicazione: (2024)
Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery
di: Aryal, Shiva, et al.
Pubblicazione: (2024)
di: Aryal, Shiva, et al.
Pubblicazione: (2024)
Evaluating Novelty in AI-Generated Research Plans Using Multi-Workflow LLM Pipelines
di: Saraogi, Devesh, et al.
Pubblicazione: (2025)
di: Saraogi, Devesh, et al.
Pubblicazione: (2025)
KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs
di: Pei, Aihua, et al.
Pubblicazione: (2024)
di: Pei, Aihua, et al.
Pubblicazione: (2024)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries
di: Gero, Zelalem, et al.
Pubblicazione: (2024)
di: Gero, Zelalem, et al.
Pubblicazione: (2024)
Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT
di: Shakil, Hassan, et al.
Pubblicazione: (2024)
di: Shakil, Hassan, et al.
Pubblicazione: (2024)
AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models
di: Jackson, Declan, et al.
Pubblicazione: (2025)
di: Jackson, Declan, et al.
Pubblicazione: (2025)
SCURank: Ranking Multiple Candidate Summaries with Summary Content Units for Enhanced Summarization
di: Wang, Bo-Jyun, et al.
Pubblicazione: (2026)
di: Wang, Bo-Jyun, et al.
Pubblicazione: (2026)
LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language
di: Wang, Ming, et al.
Pubblicazione: (2024)
di: Wang, Ming, et al.
Pubblicazione: (2024)
LCDS: A Logic-Controlled Discharge Summary Generation System Supporting Source Attribution and Expert Review
di: Yuan, Cheng, et al.
Pubblicazione: (2025)
di: Yuan, Cheng, et al.
Pubblicazione: (2025)
DIAL-SUMMER: A Structured Evaluation Framework of Hierarchical Errors in Dialogue Summaries
di: Ramnath, Sahana, et al.
Pubblicazione: (2026)
di: Ramnath, Sahana, et al.
Pubblicazione: (2026)
WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain
di: De Lange, Matthias, et al.
Pubblicazione: (2026)
di: De Lange, Matthias, et al.
Pubblicazione: (2026)
Ontology-Constrained Generation of Domain-Specific Clinical Summaries
di: Mehenni, Gaya, et al.
Pubblicazione: (2024)
di: Mehenni, Gaya, et al.
Pubblicazione: (2024)
Evaluation Ethics of LLMs in Legal Domain
di: Zhang, Ruizhe, et al.
Pubblicazione: (2024)
di: Zhang, Ruizhe, et al.
Pubblicazione: (2024)
Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages
di: Min, Hyangsuk, et al.
Pubblicazione: (2025)
di: Min, Hyangsuk, et al.
Pubblicazione: (2025)
BEADs: Bias Evaluation Across Domains
di: Raza, Shaina, et al.
Pubblicazione: (2024)
di: Raza, Shaina, et al.
Pubblicazione: (2024)
Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability
di: Seegmiller, Parker, et al.
Pubblicazione: (2024)
di: Seegmiller, Parker, et al.
Pubblicazione: (2024)
Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems
di: Jin, Haibo, et al.
Pubblicazione: (2026)
di: Jin, Haibo, et al.
Pubblicazione: (2026)
When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models
di: Wang, Weilan, et al.
Pubblicazione: (2025)
di: Wang, Weilan, et al.
Pubblicazione: (2025)
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation
di: Chen, Peter Baile, et al.
Pubblicazione: (2025)
di: Chen, Peter Baile, et al.
Pubblicazione: (2025)
Cross-Domain Content Generation with Domain-Specific Small Language Models
di: Maloo, Ankit, et al.
Pubblicazione: (2024)
di: Maloo, Ankit, et al.
Pubblicazione: (2024)
Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features
di: Lee, Bruce W., et al.
Pubblicazione: (2021)
di: Lee, Bruce W., et al.
Pubblicazione: (2021)
Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI
di: Singh, Saurabh K., et al.
Pubblicazione: (2026)
di: Singh, Saurabh K., et al.
Pubblicazione: (2026)
GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction
di: Bagherifard, Mohammadtaha, et al.
Pubblicazione: (2025)
di: Bagherifard, Mohammadtaha, et al.
Pubblicazione: (2025)
Decoding Time Series with LLMs: A Multi-Agent Framework for Cross-Domain Annotation
di: Lin, Minhua, et al.
Pubblicazione: (2024)
di: Lin, Minhua, et al.
Pubblicazione: (2024)
The Moral Consistency Pipeline: Continuous Ethical Evaluation for Large Language Models
di: Jamshidi, Saeid, et al.
Pubblicazione: (2025)
di: Jamshidi, Saeid, et al.
Pubblicazione: (2025)
Reheat Nachos for Dinner? Evaluating AI Support for Cross-Cultural Communication of Neologisms
di: Ki, Dayeon, et al.
Pubblicazione: (2026)
di: Ki, Dayeon, et al.
Pubblicazione: (2026)
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
di: Tang, Xiangru, et al.
Pubblicazione: (2025)
di: Tang, Xiangru, et al.
Pubblicazione: (2025)
Large Language Models Meet NLP: A Survey
di: Qin, Libo, et al.
Pubblicazione: (2024)
di: Qin, Libo, et al.
Pubblicazione: (2024)
TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains
di: Wang, Wanying, et al.
Pubblicazione: (2024)
di: Wang, Wanying, et al.
Pubblicazione: (2024)
Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety
di: Huang, Wei-Chieh, et al.
Pubblicazione: (2025)
di: Huang, Wei-Chieh, et al.
Pubblicazione: (2025)
A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains
di: Zhang, Xianren, et al.
Pubblicazione: (2025)
di: Zhang, Xianren, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
di: Bandel, Elron, et al.
Pubblicazione: (2024) -
Is my Meeting Summary Good? Estimating Quality with a Multi-LLM Evaluator
di: Kirstein, Frederic, et al.
Pubblicazione: (2024) -
Evaluating Embedding Models and Pipeline Optimization for AI Search Quality
di: Zhong, Philip, et al.
Pubblicazione: (2025) -
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
di: Jeong, Soyeong, et al.
Pubblicazione: (2025) -
What's Wrong? Refining Meeting Summaries with LLM Feedback
di: Kirstein, Frederic, et al.
Pubblicazione: (2024)