Enregistré dans:
| Auteurs principaux: | Schlatter, Jeremy, Weinstein-Raun, Benjamin, Ladish, Jeffrey |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.14260 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Frontier LLMs Still Struggle with Simple Reasoning Tasks
par: Malek, Alan, et autres
Publié: (2025)
par: Malek, Alan, et autres
Publié: (2025)
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
par: Sirdeshmukh, Ved, et autres
Publié: (2025)
par: Sirdeshmukh, Ved, et autres
Publié: (2025)
Quantifying and Mitigating Premature Closure in Frontier LLMs
par: Handler, Rebecca, et autres
Publié: (2026)
par: Handler, Rebecca, et autres
Publié: (2026)
Forecasting Frontier Language Model Agent Capabilities
par: Pimpale, Govind, et autres
Publié: (2025)
par: Pimpale, Govind, et autres
Publié: (2025)
Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks
par: Dunivin, Zackary Okun
Publié: (2024)
par: Dunivin, Zackary Okun
Publié: (2024)
Password-Activated Shutdown Protocols for Misaligned Frontier Agents
par: Williams, Kai, et autres
Publié: (2025)
par: Williams, Kai, et autres
Publié: (2025)
Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks
par: Mohanty, Dikshya, et autres
Publié: (2026)
par: Mohanty, Dikshya, et autres
Publié: (2026)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
par: Hong, Joey, et autres
Publié: (2025)
par: Hong, Joey, et autres
Publié: (2025)
Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning
par: Juvekar, Kush, et autres
Publié: (2025)
par: Juvekar, Kush, et autres
Publié: (2025)
Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
par: Chi, Yizhe, et autres
Publié: (2026)
par: Chi, Yizhe, et autres
Publié: (2026)
WHBench: Evaluating Frontier LLMs with Expert-in-the-Loop Validation on Women's Health Topics
par: Maurya, Sneha, et autres
Publié: (2026)
par: Maurya, Sneha, et autres
Publié: (2026)
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
par: Zhao, Sihang, et autres
Publié: (2024)
par: Zhao, Sihang, et autres
Publié: (2024)
Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs
par: Park, Jungsoo, et autres
Publié: (2025)
par: Park, Jungsoo, et autres
Publié: (2025)
Early Signs of Steganographic Capabilities in Frontier LLMs
par: Zolkowski, Artur, et autres
Publié: (2025)
par: Zolkowski, Artur, et autres
Publié: (2025)
Two-stage Incomplete Utterance Rewriting on Editing Operation
par: Cao, Zhiyu, et autres
Publié: (2025)
par: Cao, Zhiyu, et autres
Publié: (2025)
Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
par: Huang, Fan, et autres
Publié: (2026)
par: Huang, Fan, et autres
Publié: (2026)
Conditioning LLMs to Generate Code-Switched Text
par: Heredia, Maite, et autres
Publié: (2025)
par: Heredia, Maite, et autres
Publié: (2025)
Position: Avoid Overstretching LLMs for every Enterprise Task
par: Singh, Kuldeep, et autres
Publié: (2026)
par: Singh, Kuldeep, et autres
Publié: (2026)
ArgBench: Benchmarking LLMs on Computational Argumentation Tasks
par: Ajjour, Yamen, et autres
Publié: (2026)
par: Ajjour, Yamen, et autres
Publié: (2026)
Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks
par: Karia, Rushang, et autres
Publié: (2024)
par: Karia, Rushang, et autres
Publié: (2024)
Are Long-LLMs A Necessity For Long-Context Tasks?
par: Qian, Hongjin, et autres
Publié: (2024)
par: Qian, Hongjin, et autres
Publié: (2024)
Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation
par: Cao, Zhiyu, et autres
Publié: (2025)
par: Cao, Zhiyu, et autres
Publié: (2025)
Active Task Disambiguation with LLMs
par: Kobalczyk, Katarzyna, et autres
Publié: (2025)
par: Kobalczyk, Katarzyna, et autres
Publié: (2025)
Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs
par: Arabelly, Abhinav, et autres
Publié: (2025)
par: Arabelly, Abhinav, et autres
Publié: (2025)
Can LLMs Generate High-Quality Task-Specific Conversations?
par: Li, Shengqi, et autres
Publié: (2025)
par: Li, Shengqi, et autres
Publié: (2025)
PsychiatryBench: A Multi-Task Benchmark for LLMs in Psychiatry
par: Fouda, Aya E., et autres
Publié: (2025)
par: Fouda, Aya E., et autres
Publié: (2025)
SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition
par: Wu, Mengsong, et autres
Publié: (2025)
par: Wu, Mengsong, et autres
Publié: (2025)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions
par: Murugadoss, Bhuvanashree, et autres
Publié: (2024)
par: Murugadoss, Bhuvanashree, et autres
Publié: (2024)
Identifying Good and Bad Neurons for Task-Level Controllable LLMs
par: Li, Wenjie, et autres
Publié: (2026)
par: Li, Wenjie, et autres
Publié: (2026)
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
par: Pires, Ramon, et autres
Publié: (2026)
par: Pires, Ramon, et autres
Publié: (2026)
Tamper-Resistant Safeguards for Open-Weight LLMs
par: Tamirisa, Rishub, et autres
Publié: (2024)
par: Tamirisa, Rishub, et autres
Publié: (2024)
NVLM: Open Frontier-Class Multimodal LLMs
par: Dai, Wenliang, et autres
Publié: (2024)
par: Dai, Wenliang, et autres
Publié: (2024)
RSMLP: A light Sampled MLP Structure for Incomplete Utterance Rewrite
par: Liu, Lunjun, et autres
Publié: (2025)
par: Liu, Lunjun, et autres
Publié: (2025)
An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models
par: Naik, Riya, et autres
Publié: (2025)
par: Naik, Riya, et autres
Publié: (2025)
Bottom-Up and Top-Down Analysis of Values, Agendas, and Observations in Corpora and LLMs
par: Friedman, Scott E., et autres
Publié: (2024)
par: Friedman, Scott E., et autres
Publié: (2024)
Multi-Task Learning with LLMs for Implicit Sentiment Analysis: Data-level and Task-level Automatic Weight Learning
par: Lai, Wenna, et autres
Publié: (2024)
par: Lai, Wenna, et autres
Publié: (2024)
Towards Robust Multimodal Sentiment Analysis with Incomplete Data
par: Zhang, Haoyu, et autres
Publié: (2024)
par: Zhang, Haoyu, et autres
Publié: (2024)
Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks
par: Sun, Wentao, et autres
Publié: (2025)
par: Sun, Wentao, et autres
Publié: (2025)
Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
par: Fei, Zhaoye, et autres
Publié: (2025)
par: Fei, Zhaoye, et autres
Publié: (2025)
Pseudocode-Injection Magic: Enabling LLMs to Tackle Graph Computational Tasks
par: Gong, Chang, et autres
Publié: (2025)
par: Gong, Chang, et autres
Publié: (2025)
Documents similaires
-
Frontier LLMs Still Struggle with Simple Reasoning Tasks
par: Malek, Alan, et autres
Publié: (2025) -
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
par: Sirdeshmukh, Ved, et autres
Publié: (2025) -
Quantifying and Mitigating Premature Closure in Frontier LLMs
par: Handler, Rebecca, et autres
Publié: (2026) -
Forecasting Frontier Language Model Agent Capabilities
par: Pimpale, Govind, et autres
Publié: (2025) -
Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks
par: Dunivin, Zackary Okun
Publié: (2024)