:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Schlatter, Jeremy, Weinstein-Raun, Benjamin, Ladish, Jeffrey
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2509.14260
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Frontier LLMs Still Struggle with Simple Reasoning Tasks
par: Malek, Alan, et autres
Publié: (2025)

MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
par: Sirdeshmukh, Ved, et autres
Publié: (2025)

Quantifying and Mitigating Premature Closure in Frontier LLMs
par: Handler, Rebecca, et autres
Publié: (2026)

Forecasting Frontier Language Model Agent Capabilities
par: Pimpale, Govind, et autres
Publié: (2025)

Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks
par: Dunivin, Zackary Okun
Publié: (2024)

Password-Activated Shutdown Protocols for Misaligned Frontier Agents
par: Williams, Kai, et autres
Publié: (2025)

Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks
par: Mohanty, Dikshya, et autres
Publié: (2026)

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
par: Hong, Joey, et autres
Publié: (2025)

Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning
par: Juvekar, Kush, et autres
Publié: (2025)

Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
par: Chi, Yizhe, et autres
Publié: (2026)

WHBench: Evaluating Frontier LLMs with Expert-in-the-Loop Validation on Women's Health Topics
par: Maurya, Sneha, et autres
Publié: (2026)

Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
par: Zhao, Sihang, et autres
Publié: (2024)

Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs
par: Park, Jungsoo, et autres
Publié: (2025)

Early Signs of Steganographic Capabilities in Frontier LLMs
par: Zolkowski, Artur, et autres
Publié: (2025)

Two-stage Incomplete Utterance Rewriting on Editing Operation
par: Cao, Zhiyu, et autres
Publié: (2025)

Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
par: Huang, Fan, et autres
Publié: (2026)

Conditioning LLMs to Generate Code-Switched Text
par: Heredia, Maite, et autres
Publié: (2025)

Position: Avoid Overstretching LLMs for every Enterprise Task
par: Singh, Kuldeep, et autres
Publié: (2026)

ArgBench: Benchmarking LLMs on Computational Argumentation Tasks
par: Ajjour, Yamen, et autres
Publié: (2026)

Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks
par: Karia, Rushang, et autres
Publié: (2024)

Are Long-LLMs A Necessity For Long-Context Tasks?
par: Qian, Hongjin, et autres
Publié: (2024)

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation
par: Cao, Zhiyu, et autres
Publié: (2025)

Active Task Disambiguation with LLMs
par: Kobalczyk, Katarzyna, et autres
Publié: (2025)

Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs
par: Arabelly, Abhinav, et autres
Publié: (2025)

Can LLMs Generate High-Quality Task-Specific Conversations?
par: Li, Shengqi, et autres
Publié: (2025)

PsychiatryBench: A Multi-Task Benchmark for LLMs in Psychiatry
par: Fouda, Aya E., et autres
Publié: (2025)

SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition
par: Wu, Mengsong, et autres
Publié: (2025)

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions
par: Murugadoss, Bhuvanashree, et autres
Publié: (2024)

Identifying Good and Bad Neurons for Task-Level Controllable LLMs
par: Li, Wenjie, et autres
Publié: (2026)

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
par: Pires, Ramon, et autres
Publié: (2026)

Tamper-Resistant Safeguards for Open-Weight LLMs
par: Tamirisa, Rishub, et autres
Publié: (2024)

NVLM: Open Frontier-Class Multimodal LLMs
par: Dai, Wenliang, et autres
Publié: (2024)

RSMLP: A light Sampled MLP Structure for Incomplete Utterance Rewrite
par: Liu, Lunjun, et autres
Publié: (2025)

An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models
par: Naik, Riya, et autres
Publié: (2025)

Bottom-Up and Top-Down Analysis of Values, Agendas, and Observations in Corpora and LLMs
par: Friedman, Scott E., et autres
Publié: (2024)

Multi-Task Learning with LLMs for Implicit Sentiment Analysis: Data-level and Task-level Automatic Weight Learning
par: Lai, Wenna, et autres
Publié: (2024)

Towards Robust Multimodal Sentiment Analysis with Incomplete Data
par: Zhang, Haoyu, et autres
Publié: (2024)

Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks
par: Sun, Wentao, et autres
Publié: (2025)

Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
par: Fei, Zhaoye, et autres
Publié: (2025)

Pseudocode-Injection Magic: Enabling LLMs to Tackle Graph Computational Tasks
par: Gong, Chang, et autres
Publié: (2025)