:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Panas, D., Seth, S., Belle, V.
Format:	Preprint
Published:	2024
Subjects:	Computation and Language Artificial Intelligence
Online Access:	https://arxiv.org/abs/2404.19432
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Probing for Arithmetic Errors in Language Models
by: Sun, Yucheng, et al.
Published: (2025)

T-REX: Table -- Refute or Entail eXplainer
by: Horstmann, Tim Luka, et al.
Published: (2025)

Zero, Finite, and Infinite Belief History of Theory of Mind Reasoning in Large Language Models
by: Tang, Weizhi, et al.
Published: (2024)

ToM-LM: Delegating Theory of Mind Reasoning to External Symbolic Executors in Large Language Models
by: Tang, Weizhi, et al.
Published: (2024)

LTLBench: Towards Benchmarks for Evaluating Temporal Reasoning in Large Language Models
by: Tang, Weizhi, et al.
Published: (2024)

Talking the Talk Does Not Entail Walking the Walk: On the Limits of Large Language Models in Lexical Entailment Recognition
by: Greco, Candida M., et al.
Published: (2024)

Can Large Language Models Infer Causal Relationships from Real-World Text?
by: Saklad, Ryan, et al.
Published: (2025)

Self-training Language Models for Arithmetic Reasoning
by: Kadlčík, Marek, et al.
Published: (2024)

Arithmetic with Language Models: from Memorization to Computation
by: Maltoni, Davide, et al.
Published: (2023)

Probing Causality Manipulation of Large Language Models
by: Zhang, Chenyang, et al.
Published: (2024)

Probing Neural Topology of Large Language Models
by: Zheng, Yu, et al.
Published: (2025)

Probing the Robustness of Theory of Mind in Large Language Models
by: Nickel, Christian, et al.
Published: (2024)

Probing the Difficulty Perception Mechanism of Large Language Models
by: Lee, Sunbowen, et al.
Published: (2025)

Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback
by: Miao, Zhongtao, et al.
Published: (2024)

Can Large Language Models do Analytical Reasoning?
by: Hu, Yebowen, et al.
Published: (2024)

A Careful Examination of Large Language Model Performance on Grade School Arithmetic
by: Zhang, Hugh, et al.
Published: (2024)

Modular Arithmetic: Language Models Solve Math Digit by Digit
by: Baeumel, Tanja, et al.
Published: (2025)

Stuck in the Matrix: Probing Spatial Reasoning in Large Language Models
by: Bai, Maggie, et al.
Published: (2025)

Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models
by: Mohammadi, Seyedali, et al.
Published: (2026)

Neural Probe-Based Hallucination Detection for Large Language Models
by: Liang, Shize, et al.
Published: (2025)

Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models
by: Feng, Yijun
Published: (2025)

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
by: Wang, Jingyuan, et al.
Published: (2025)

Break the Chain: Large Language Models Can be Shortcut Reasoners
by: Ding, Mengru, et al.
Published: (2024)

Can Large Language Models Predict the Outcome of Judicial Decisions?
by: Kmainasi, Mohamed Bayan, et al.
Published: (2025)

THiNK: Can Large Language Models Think-aloud?
by: Yu, Yongan, et al.
Published: (2025)

Can Large Language Models Express Uncertainty Like Human?
by: Tao, Linwei, et al.
Published: (2025)

Bias Vector: Mitigating Biases in Language Models with Task Arithmetic Approach
by: Shirafuji, Daiki, et al.
Published: (2024)

Probing Multimodal Large Language Models for Global and Local Semantic Representations
by: Tao, Mingxu, et al.
Published: (2024)

Chain-of-Description: What I can understand, I can put into words
by: Guo, Jiaxin, et al.
Published: (2025)

Language Models are Few-Shot Graders
by: Zhao, Chenyan, et al.
Published: (2025)

Task Arithmetic for Language Expansion in Speech Translation
by: Cheng, Yao-Fei, et al.
Published: (2024)

Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks
by: Gambardella, Andrew, et al.
Published: (2024)

Large Language Models Fall Short: Understanding Complex Relationships in Detective Narratives
by: Zhao, Runcong, et al.
Published: (2024)

Large Language Models Can Self-Improve in Long-context Reasoning
by: Li, Siheng, et al.
Published: (2024)

Importance Weighting Can Help Large Language Models Self-Improve
by: Jiang, Chunyang, et al.
Published: (2024)

Can Large Language Models Automatically Score Proficiency of Written Essays?
by: Mansour, Watheq, et al.
Published: (2024)

Cause and Effect: Can Large Language Models Truly Understand Causality?
by: Ashwani, Swagata, et al.
Published: (2024)

Can Large Language Models Understand Real-World Complex Instructions?
by: He, Qianyu, et al.
Published: (2023)

Self-HarmLLM: Can Large Language Model Harm Itself?
by: Kim, Heehwan, et al.
Published: (2025)

Can Large Language Models Predict Associations Among Human Attitudes?
by: Ma, Ana, et al.
Published: (2025)