:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Qiu, Linlu, Zhang, Cedegao E., Tenenbaum, Joshua B., Kim, Yoon, Levy, Roger P.
Format:	Preprint
Published:	2025
Subjects:	Computation and Language
Online Access:	https://arxiv.org/abs/2509.06952
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers
by: Olausson, Theo X., et al.
Published: (2023)

Implicit Representations of Grammaticality in Language Models
by: Wang, Yingshan Susan, et al.
Published: (2026)

Code-enabled language models can outperform reasoning models on diverse tasks
by: Zhang, Cedegao E., et al.
Published: (2025)

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models
by: Qiu, Linlu, et al.
Published: (2025)

Language-Informed Synthesis of Rational Agent Models for Grounded Theory-of-Mind Reasoning On-The-Fly
by: Ying, Lance, et al.
Published: (2025)

Scaling up the think-aloud method
by: Wurgaft, Daniel, et al.
Published: (2025)

Evaluating Language Models' Evaluations of Games
by: Collins, Katherine M., et al.
Published: (2025)

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
by: Wu, Zhaofeng, et al.
Published: (2023)

Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning
by: Zhi-Xuan, Tan, et al.
Published: (2024)

Conditional and Modal Reasoning in Large Language Models
by: Holliday, Wesley H., et al.
Published: (2024)

Neuro-Symbolic Concepts
by: Mao, Jiayuan, et al.
Published: (2025)

Finding structure in logographic writing with library learning
by: Jiang, Guangyuan, et al.
Published: (2024)

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
by: In, Yeonjun, et al.
Published: (2025)

Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement
by: Qiu, Linlu, et al.
Published: (2023)

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
by: Levy, Mosh, et al.
Published: (2024)

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
by: Chuang, Yung-Sung, et al.
Published: (2024)

Controlled Evaluation of Syntactic Knowledge in Multilingual Language Models
by: Kryvosheieva, Daria, et al.
Published: (2024)

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
by: Chun, Jon, et al.
Published: (2026)

Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models
by: Kim, Hyunwoo, et al.
Published: (2025)

Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models
by: Wong, Lionel, et al.
Published: (2025)

Evaluating Pragmatic Reasoning in Large Language Models: Evidence from Scalar Diversity
by: Cho, Ye-eun
Published: (2026)

ELF: Embedded Language Flows
by: Hu, Keya, et al.
Published: (2026)

Learning to Reason via Program Generation, Emulation, and Search
by: Weir, Nathaniel, et al.
Published: (2024)

Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization
by: Liu, Guangliang, et al.
Published: (2025)

Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads
by: Cherian, Anoop, et al.
Published: (2024)

Pragmatic Competence Evaluation of Large Language Models for the Korean Language
by: Park, Dojun, et al.
Published: (2024)

N-gram-like Language Models Predict Reading Time Best
by: Michaelov, James A., et al.
Published: (2026)

Bias Amplification in Language Model Evolution: An Iterated Learning Perspective
by: Ren, Yi, et al.
Published: (2024)

Self-Steering Language Models
by: Grand, Gabriel, et al.
Published: (2025)

Accounting Reasoning in Large Language Models: Concepts, Evaluation, and Empirical Analysis
by: Zhou, Jie, et al.
Published: (2025)

Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling
by: Grand, Gabriel, et al.
Published: (2024)

STAR: A Benchmark for Situated Reasoning in Real-World Videos
by: Wu, Bo, et al.
Published: (2024)

AmbigDocs: Reasoning across Documents on Different Entities under the Same Name
by: Lee, Yoonsang, et al.
Published: (2024)

M3-SLU: Evaluating Speaker-Attributed Reasoning in Multimodal Large Language Models
by: Kwon, Yejin, et al.
Published: (2025)

Towards an Analysis of Discourse and Interactional Pragmatic Reasoning Capabilities of Large Language Models
by: Robrecht, Amelie, et al.
Published: (2024)

Cognitive Models and AI Algorithms Provide Templates for Designing Language Agents
by: Liu, Ryan, et al.
Published: (2026)

MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models
by: Park, Dojun, et al.
Published: (2024)

RPM: Reasoning-Level Personalization for Black-Box Large Language Models
by: Kim, Jieyong, et al.
Published: (2025)

The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
by: Akyürek, Ekin, et al.
Published: (2024)

The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
by: Yu, Kefan, et al.
Published: (2025)