:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Jindal, Madhur, Deshpande, Saurabh
Format:	Preprint
Published:	2025
Subjects:	Computation and Language Artificial Intelligence
Online Access:	https://arxiv.org/abs/2505.04673
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

LLM-as-a-Judge for Time Series Explanations
by: Sivalingam, Preetham, et al.
Published: (2026)

Asymmetric Actor-Critic for Multi-turn LLM Agents
by: Jiang, Shuli, et al.
Published: (2026)

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
by: Ma, Chang, et al.
Published: (2024)

HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment
by: Mekky, Ali, et al.
Published: (2025)

Token Statistics Reveal Conversational Drift in Multi-turn LLM Interaction
by: Hafez, Wael, et al.
Published: (2026)

A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems
by: Yi, Zihao, et al.
Published: (2024)

SOMA: Efficient Multi-turn LLM Serving via Small Language Model
by: Cheng, Xueqi, et al.
Published: (2026)

HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment
by: Yang, Langqi, et al.
Published: (2025)

Self-HarmLLM: Can Large Language Model Harm Itself?
by: Kim, Heehwan, et al.
Published: (2025)

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs
by: Ha, Junwoo, et al.
Published: (2025)

Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types
by: Guo, Ziming, et al.
Published: (2024)

Confidence is Not Competence
by: Sanyal, Debdeep, et al.
Published: (2025)

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
by: Andriushchenko, Maksym, et al.
Published: (2024)

X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates
by: Kim, Hyunjun, et al.
Published: (2025)

MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation
by: Yang, Chenghao, et al.
Published: (2025)

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents
by: Wang, Hao, et al.
Published: (2026)

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback
by: Wang, Xingyao, et al.
Published: (2023)

HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate
by: Zhu, Shenzhe
Published: (2025)

SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests
by: Pandey, Punya Syon, et al.
Published: (2025)

Foot-In-The-Door: A Multi-turn Jailbreak for LLMs
by: Weng, Zixuan, et al.
Published: (2025)

On the Multi-turn Instruction Following for Conversational Web Agents
by: Deng, Yang, et al.
Published: (2024)

Data Selection for Multi-turn Dialogue Instruction Tuning
by: Li, Bo, et al.
Published: (2026)

SAGE: A Generic Framework for LLM Safety Evaluation
by: Jindal, Madhur, et al.
Published: (2025)

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
by: Lu, Miao, et al.
Published: (2025)

Stop Listening to Me! How Multi-turn Conversations Can Degrade LLM Reliability
by: Guo, Kevin H., et al.
Published: (2026)

Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
by: Abdulhai, Marwa, et al.
Published: (2025)

The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus
by: Jindal, Ishan, et al.
Published: (2026)

A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations
by: Tan, Andong, et al.
Published: (2026)

SafeMT: Multi-turn Safety for Multimodal Language Models
by: Zhu, Han, et al.
Published: (2025)

Improving Multi-turn Dialogue Consistency with Self-Recall Thinking
by: Pang, Renning, et al.
Published: (2026)

OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling
by: Bouscary, Maxime, et al.
Published: (2025)

Evaluating Cooperation in LLM Social Groups through Elected Leadership
by: Faulkner, Ryan, et al.
Published: (2026)

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
by: Deshpande, Darshan, et al.
Published: (2025)

Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity
by: Qu, Jiaming, et al.
Published: (2026)

MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations
by: Acikgoz, Emre Can, et al.
Published: (2025)

GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication
by: Tang, Hua, et al.
Published: (2025)

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild
by: Li, Huayang, et al.
Published: (2023)

MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs
by: Hsu, Hsin-Ling, et al.
Published: (2026)

CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling
by: Zhang, Chenhao, et al.
Published: (2024)

MindEval: Benchmarking Language Models on Multi-turn Mental Health Support
by: Pombal, José, et al.
Published: (2025)