Salvato in:
| Autori principali: | Kulkarni, Shubham, Lyzhov, Alexander, Joshi, Preetam, Chaitanya, Shiva |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2602.18448 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond
di: Kulkarni, Shubham, et al.
Pubblicazione: (2026)
di: Kulkarni, Shubham, et al.
Pubblicazione: (2026)
HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification
di: Paudel, Bibek, et al.
Pubblicazione: (2025)
di: Paudel, Bibek, et al.
Pubblicazione: (2025)
ClaimDB: A Fact Verification Benchmark over Large Structured Data
di: Theologitis, Michael, et al.
Pubblicazione: (2026)
di: Theologitis, Michael, et al.
Pubblicazione: (2026)
ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark
di: Wakaki, Hiromi, et al.
Pubblicazione: (2024)
di: Wakaki, Hiromi, et al.
Pubblicazione: (2024)
QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
di: Sharma, Preetam, et al.
Pubblicazione: (2026)
di: Sharma, Preetam, et al.
Pubblicazione: (2026)
FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification
di: Chen, Xiangyan, et al.
Pubblicazione: (2025)
di: Chen, Xiangyan, et al.
Pubblicazione: (2025)
L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models
di: Stickland, Asa Cooper, et al.
Pubblicazione: (2024)
di: Stickland, Asa Cooper, et al.
Pubblicazione: (2024)
Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking
di: Hu, Songbo, et al.
Pubblicazione: (2026)
di: Hu, Songbo, et al.
Pubblicazione: (2026)
Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2025)
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2025)
UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities
di: Jia, Qi, et al.
Pubblicazione: (2026)
di: Jia, Qi, et al.
Pubblicazione: (2026)
DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference
di: Rabbani, Parisa, et al.
Pubblicazione: (2026)
di: Rabbani, Parisa, et al.
Pubblicazione: (2026)
HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation
di: Luo, Wen, et al.
Pubblicazione: (2024)
di: Luo, Wen, et al.
Pubblicazione: (2024)
IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages
di: Endait, Sharvi, et al.
Pubblicazione: (2025)
di: Endait, Sharvi, et al.
Pubblicazione: (2025)
EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian
di: Dementieva, Daryna, et al.
Pubblicazione: (2025)
di: Dementieva, Daryna, et al.
Pubblicazione: (2025)
Culturally-Aware Conversations: A Framework & Benchmark for LLMs
di: Havaldar, Shreya, et al.
Pubblicazione: (2025)
di: Havaldar, Shreya, et al.
Pubblicazione: (2025)
SPACER: A Parallel Dataset of Speech Production And Comprehension of Error Repairs
di: Upadhye, Shiva, et al.
Pubblicazione: (2025)
di: Upadhye, Shiva, et al.
Pubblicazione: (2025)
CliniDial: A Naturally Occurring Multimodal Dialogue Dataset for Team Reflection in Action During Clinical Operation
di: Deng, Naihao, et al.
Pubblicazione: (2025)
di: Deng, Naihao, et al.
Pubblicazione: (2025)
Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models
di: Bharadwaj, Anirudh, et al.
Pubblicazione: (2025)
di: Bharadwaj, Anirudh, et al.
Pubblicazione: (2025)
Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation
di: Yuan, Zhangdie, et al.
Pubblicazione: (2025)
di: Yuan, Zhangdie, et al.
Pubblicazione: (2025)
"They are uncultured": Unveiling Covert Harms and Social Threats in LLM Generated Conversations
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)
CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems
di: Yang, Jingbo, et al.
Pubblicazione: (2026)
di: Yang, Jingbo, et al.
Pubblicazione: (2026)
DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
di: Kim, Jiho, et al.
Pubblicazione: (2024)
di: Kim, Jiho, et al.
Pubblicazione: (2024)
Topic-Conversation Relevance (TCR) Dataset and Benchmarks
di: Fan, Yaran, et al.
Pubblicazione: (2024)
di: Fan, Yaran, et al.
Pubblicazione: (2024)
The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG)
di: Cai, Yucheng, et al.
Pubblicazione: (2024)
di: Cai, Yucheng, et al.
Pubblicazione: (2024)
Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages
di: Rachamalla, Neel Prabhanjan, et al.
Pubblicazione: (2025)
di: Rachamalla, Neel Prabhanjan, et al.
Pubblicazione: (2025)
ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)
OmniCompliance-100K: A Multi-Domain, Rule-Grounded, Real-World Safety Compliance Dataset
di: Hu, Wenbin, et al.
Pubblicazione: (2026)
di: Hu, Wenbin, et al.
Pubblicazione: (2026)
MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors
di: Luo, Xiaotian, et al.
Pubblicazione: (2026)
di: Luo, Xiaotian, et al.
Pubblicazione: (2026)
Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)
Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond
di: Sanni, Mardhiyah, et al.
Pubblicazione: (2025)
di: Sanni, Mardhiyah, et al.
Pubblicazione: (2025)
A Challenge Dataset and Effective Models for Conversational Stance Detection
di: Niu, Fuqiang, et al.
Pubblicazione: (2024)
di: Niu, Fuqiang, et al.
Pubblicazione: (2024)
MUTANT: A Recipe for Multilingual Tokenizer Design
di: Rana, Souvik, et al.
Pubblicazione: (2025)
di: Rana, Souvik, et al.
Pubblicazione: (2025)
CA-BED: Conversation-Aware Bayesian Experimental Design
di: Arnould, Daniel, et al.
Pubblicazione: (2026)
di: Arnould, Daniel, et al.
Pubblicazione: (2026)
Speaker Verification in Agent-Generated Conversations
di: Yang, Yizhe, et al.
Pubblicazione: (2024)
di: Yang, Yizhe, et al.
Pubblicazione: (2024)
Memory Dial: A Training Framework for Controllable Memorization in Language Models
di: Zhang, Xiangbo, et al.
Pubblicazione: (2026)
di: Zhang, Xiangbo, et al.
Pubblicazione: (2026)
iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2026)
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2026)
Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset
di: Liu, Rui, et al.
Pubblicazione: (2024)
di: Liu, Rui, et al.
Pubblicazione: (2024)
ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders
di: Meshi, Ofer, et al.
Pubblicazione: (2026)
di: Meshi, Ofer, et al.
Pubblicazione: (2026)
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context
di: Sahoo, Nihar Ranjan, et al.
Pubblicazione: (2024)
di: Sahoo, Nihar Ranjan, et al.
Pubblicazione: (2024)
Documenti analoghi
-
All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond
di: Kulkarni, Shubham, et al.
Pubblicazione: (2026) -
HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification
di: Paudel, Bibek, et al.
Pubblicazione: (2025) -
ClaimDB: A Fact Verification Benchmark over Large Structured Data
di: Theologitis, Michael, et al.
Pubblicazione: (2026) -
ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark
di: Wakaki, Hiromi, et al.
Pubblicazione: (2024) -
QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
di: Sharma, Preetam, et al.
Pubblicazione: (2026)