:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Kulkarni, Shubham, Lyzhov, Alexander, Joshi, Preetam, Chaitanya, Shiva
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computation and Language
Accesso online:	https://arxiv.org/abs/2602.18448
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond
di: Kulkarni, Shubham, et al.
Pubblicazione: (2026)

HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification
di: Paudel, Bibek, et al.
Pubblicazione: (2025)

ClaimDB: A Fact Verification Benchmark over Large Structured Data
di: Theologitis, Michael, et al.
Pubblicazione: (2026)

ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark
di: Wakaki, Hiromi, et al.
Pubblicazione: (2024)

QAM-W: Joint 2D Codebook Quantization for LLM Weights via Hadamard Rotation and Activation-Aware Scaling
di: Sharma, Preetam, et al.
Pubblicazione: (2026)

FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification
di: Chen, Xiangyan, et al.
Pubblicazione: (2025)

L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)

Steering Without Side Effects: Improving Post-Deployment Control of Language Models
di: Stickland, Asa Cooper, et al.
Pubblicazione: (2024)

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking
di: Hu, Songbo, et al.
Pubblicazione: (2026)

Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2025)

UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities
di: Jia, Qi, et al.
Pubblicazione: (2026)

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference
di: Rabbani, Parisa, et al.
Pubblicazione: (2026)

HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation
di: Luo, Wen, et al.
Pubblicazione: (2024)

IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages
di: Endait, Sharvi, et al.
Pubblicazione: (2025)

EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian
di: Dementieva, Daryna, et al.
Pubblicazione: (2025)

Culturally-Aware Conversations: A Framework & Benchmark for LLMs
di: Havaldar, Shreya, et al.
Pubblicazione: (2025)

SPACER: A Parallel Dataset of Speech Production And Comprehension of Error Repairs
di: Upadhye, Shiva, et al.
Pubblicazione: (2025)

CliniDial: A Naturally Occurring Multimodal Dialogue Dataset for Team Reflection in Action During Clinical Operation
di: Deng, Naihao, et al.
Pubblicazione: (2025)

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models
di: Bharadwaj, Anirudh, et al.
Pubblicazione: (2025)

Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation
di: Yuan, Zhangdie, et al.
Pubblicazione: (2025)

"They are uncultured": Unveiling Covert Harms and Social Threats in LLM Generated Conversations
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)

CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems
di: Yang, Jingbo, et al.
Pubblicazione: (2026)

DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
di: Kim, Jiho, et al.
Pubblicazione: (2024)

Topic-Conversation Relevance (TCR) Dataset and Benchmarks
di: Fan, Yaran, et al.
Pubblicazione: (2024)

The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG)
di: Cai, Yucheng, et al.
Pubblicazione: (2024)

Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages
di: Rachamalla, Neel Prabhanjan, et al.
Pubblicazione: (2025)

ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2024)

OmniCompliance-100K: A Multi-Domain, Rule-Grounded, Real-World Safety Compliance Dataset
di: Hu, Wenbin, et al.
Pubblicazione: (2026)

MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors
di: Luo, Xiaotian, et al.
Pubblicazione: (2026)

Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi
di: Deshmukh, Pranita, et al.
Pubblicazione: (2024)

Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond
di: Sanni, Mardhiyah, et al.
Pubblicazione: (2025)

A Challenge Dataset and Effective Models for Conversational Stance Detection
di: Niu, Fuqiang, et al.
Pubblicazione: (2024)

MUTANT: A Recipe for Multilingual Tokenizer Design
di: Rana, Souvik, et al.
Pubblicazione: (2025)

CA-BED: Conversation-Aware Bayesian Experimental Design
di: Arnould, Daniel, et al.
Pubblicazione: (2026)

Speaker Verification in Agent-Generated Conversations
di: Yang, Yizhe, et al.
Pubblicazione: (2024)

Memory Dial: A Training Framework for Controllable Memorization in Language Models
di: Zhang, Xiangbo, et al.
Pubblicazione: (2026)

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics
di: Dammu, Preetam Prabhu Srikar, et al.
Pubblicazione: (2026)

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset
di: Liu, Rui, et al.
Pubblicazione: (2024)

ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders
di: Meshi, Ofer, et al.
Pubblicazione: (2026)

IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context
di: Sahoo, Nihar Ranjan, et al.
Pubblicazione: (2024)