:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Karev, Alexey, Xu, Dong
Format:	Preprint
Published:	2025
Subjects:	Computation and Language Artificial Intelligence
Online Access:	https://arxiv.org/abs/2503.13923
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models
by: Elangovan, Aparna, et al.
Published: (2024)

Multi-Perspective Consistency Enhances Confidence Estimation in Large Language Models
by: Wang, Pei, et al.
Published: (2024)

Consistency of Responses and Continuations Generated by Large Language Models on Social Media
by: Xu, Wentao, et al.
Published: (2025)

CLLMs: Consistency Large Language Models
by: Kou, Siqi, et al.
Published: (2024)

Cross-Examiner: Evaluating Consistency of Large Language Model-Generated Explanations
by: Villa, Danielle, et al.
Published: (2025)

A Framework for Real-time Safeguarding the Text Generation of Large Language Model
by: Dong, Ximing, et al.
Published: (2024)

ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees
by: Wang, Zhiyuan, et al.
Published: (2024)

ConQuer: A Framework for Concept-Based Quiz Generation
by: Fu, Yicheng, et al.
Published: (2025)

Emergent Hierarchical Structure in Large Language Models: An Information-Theoretic Framework for Multi-Scale Representation
by: Zhang, Yukin, et al.
Published: (2025)

Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models
by: Yu, Zhiwei, et al.
Published: (2025)

Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency
by: Li, Taiji, et al.
Published: (2024)

Cross-Modal Consistency in Multimodal Large Language Models
by: Zhang, Xiang, et al.
Published: (2024)

Evaluating Consistency and Reasoning Capabilities of Large Language Models
by: Saxena, Yash, et al.
Published: (2024)

DOCS: Quantifying Weight Similarity for Deeper Insights into Large Language Models
by: Min, Zeping, et al.
Published: (2025)

StressPrompt: Does Stress Impact Large Language Models and Human Performance Similarly?
by: Shen, Guobin, et al.
Published: (2024)

DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models
by: Cui, Wendi, et al.
Published: (2024)

IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization
by: Cao, Jie, et al.
Published: (2024)

BiCon-Gate: Consistency-Gated De-colloquialisation for Dialogue Fact-Checking
by: Park, Hyunkyung, et al.
Published: (2026)

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
by: Dong, Yixin, et al.
Published: (2024)

ConDABench: Interactive Evaluation of Language Models for Data Analysis
by: Dutta, Avik, et al.
Published: (2025)

SIMBA UQ: Similarity-Based Aggregation for Uncertainty Quantification in Large Language Models
by: Bhattacharjya, Debarun, et al.
Published: (2025)

Are Large Language Models Consistent over Value-laden Questions?
by: Moore, Jared, et al.
Published: (2024)

SaGE: Evaluating Moral Consistency in Large Language Models
by: Bonagiri, Vamshi Krishna, et al.
Published: (2024)

Semantic Consistency for Assuring Reliability of Large Language Models
by: Raj, Harsh, et al.
Published: (2023)

ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
by: Kammakomati, Mehant, et al.
Published: (2024)

Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models
by: Lee, Kihyuk
Published: (2026)

Comparison of Large Language Models for Generating Contextually Relevant Questions
by: Molina, Ivo Lodovico, et al.
Published: (2024)

CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models
by: Wagner, Eitan, et al.
Published: (2024)

THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models
by: Ma, Zhiqing, et al.
Published: (2026)

Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges
by: Niu, Qian, et al.
Published: (2024)

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models
by: Tan, Haochen, et al.
Published: (2024)

Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models
by: Kim, Jongho, et al.
Published: (2025)

The Moral Consistency Pipeline: Continuous Ethical Evaluation for Large Language Models
by: Jamshidi, Saeid, et al.
Published: (2025)

Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions
by: Li, Yubo, et al.
Published: (2025)

Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency
by: Wang, Haoran, et al.
Published: (2026)

Towards Explainable Temporal Reasoning in Large Language Models: A Structure-Aware Generative Framework
by: Jiang, Zihao, et al.
Published: (2025)

ImF: Implicit Fingerprint for Large Language Models
by: Wu, Jiaxuan, et al.
Published: (2025)

Mitigating Hallucinated Translations in Large Language Models with Hallucination-focused Preference Optimization
by: Tang, Zilu, et al.
Published: (2025)

Multi-Scale Manifold Alignment for Interpreting Large Language Models: A Unified Information-Geometric Framework
by: Zhang, Yukun, et al.
Published: (2025)

Latent Trajectory Dynamics in Large Language Models: A Manifold Evolution Framework with Empirical Validation
by: Zhang, Yukun, et al.
Published: (2025)