Gespeichert in:
| Hauptverfasser: | West, Robert, Anderson, Ashton, Kamar, Ece, Horvitz, Eric |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2510.13551 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
The Collaboration Gap
von: Davidson, Tim R., et al.
Veröffentlicht: (2025)
von: Davidson, Tim R., et al.
Veröffentlicht: (2025)
From Model Training to Model Raising
von: Aydin, Roland, et al.
Veröffentlicht: (2025)
von: Aydin, Roland, et al.
Veröffentlicht: (2025)
JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models
von: Geng, Saibo, et al.
Veröffentlicht: (2025)
von: Geng, Saibo, et al.
Veröffentlicht: (2025)
Challenging the Machine: Contestability in Government AI Systems
von: Landau, Susan, et al.
Veröffentlicht: (2024)
von: Landau, Susan, et al.
Veröffentlicht: (2024)
Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
von: Horvitz, Zachary, et al.
Veröffentlicht: (2024)
von: Horvitz, Zachary, et al.
Veröffentlicht: (2024)
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models
von: Yuksekgonul, Mert, et al.
Veröffentlicht: (2023)
von: Yuksekgonul, Mert, et al.
Veröffentlicht: (2023)
ChessQA: Evaluating Large Language Models for Chess Understanding
von: Wen, Qianfeng, et al.
Veröffentlicht: (2025)
von: Wen, Qianfeng, et al.
Veröffentlicht: (2025)
Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts
von: Bo, Jessica Y., et al.
Veröffentlicht: (2026)
von: Bo, Jessica Y., et al.
Veröffentlicht: (2026)
Improving Instruction-Following in Language Models through Activation Steering
von: Stolfo, Alessandro, et al.
Veröffentlicht: (2024)
von: Stolfo, Alessandro, et al.
Veröffentlicht: (2024)
Accurate Measures of Vaccination and Concerns of Vaccine Holdouts from Web Search Logs
von: Chang, Serina, et al.
Veröffentlicht: (2023)
von: Chang, Serina, et al.
Veröffentlicht: (2023)
Recommendations for Government Development and Use of Advanced Automated Systems to Make Decisions about Individuals
von: Landau, Susan, et al.
Veröffentlicht: (2024)
von: Landau, Susan, et al.
Veröffentlicht: (2024)
ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
von: Jiao, Difan, et al.
Veröffentlicht: (2026)
von: Jiao, Difan, et al.
Veröffentlicht: (2026)
SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
von: Tang, Zhenwei, et al.
Veröffentlicht: (2025)
von: Tang, Zhenwei, et al.
Veröffentlicht: (2025)
Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning
von: Vilas, Martina G., et al.
Veröffentlicht: (2025)
von: Vilas, Martina G., et al.
Veröffentlicht: (2025)
Grounded Chess Reasoning in Language Models via Master Distillation
von: Tang, Zhenwei, et al.
Veröffentlicht: (2026)
von: Tang, Zhenwei, et al.
Veröffentlicht: (2026)
"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration
von: Bohus, Dan, et al.
Veröffentlicht: (2024)
von: Bohus, Dan, et al.
Veröffentlicht: (2024)
Learning to Imitate with Less: Efficient Individual Behavior Modeling in Chess
von: Tang, Zhenwei, et al.
Veröffentlicht: (2025)
von: Tang, Zhenwei, et al.
Veröffentlicht: (2025)
When Agents Say One Thing and Do Another: Validating Elicited Beliefs from LLMs
von: Yamin, Khurram, et al.
Veröffentlicht: (2026)
von: Yamin, Khurram, et al.
Veröffentlicht: (2026)
Estimating Tail Risks in Language Model Output Distributions
von: Angell, Rico, et al.
Veröffentlicht: (2026)
von: Angell, Rico, et al.
Veröffentlicht: (2026)
SPIN: Sparsifying and Integrating Internal Neurons in Large Language Models for Text Classification
von: Jiao, Difan, et al.
Veröffentlicht: (2023)
von: Jiao, Difan, et al.
Veröffentlicht: (2023)
Model-Free RL Agents Demonstrate System 1-Like Intentionality
von: Ashton, Hal, et al.
Veröffentlicht: (2025)
von: Ashton, Hal, et al.
Veröffentlicht: (2025)
Level Up: Defining and Exploiting Transitional Problems for Curriculum Learning
von: Tang, Zhenwei, et al.
Veröffentlicht: (2026)
von: Tang, Zhenwei, et al.
Veröffentlicht: (2026)
Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks
von: Rontogiannis, Dimitrios, et al.
Veröffentlicht: (2025)
von: Rontogiannis, Dimitrios, et al.
Veröffentlicht: (2025)
Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks
von: Fourney, Adam, et al.
Veröffentlicht: (2024)
von: Fourney, Adam, et al.
Veröffentlicht: (2024)
Tandem: Riding Together with Large and Small Language Models for Efficient Reasoning
von: Fu, Zichuan, et al.
Veröffentlicht: (2026)
von: Fu, Zichuan, et al.
Veröffentlicht: (2026)
Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing
von: Holtzman, Ari, et al.
Veröffentlicht: (2026)
von: Holtzman, Ari, et al.
Veröffentlicht: (2026)
Creating General User Models from Computer Use
von: Shaikh, Omar, et al.
Veröffentlicht: (2025)
von: Shaikh, Omar, et al.
Veröffentlicht: (2025)
Activation Scaling for Steering and Interpreting Language Models
von: Stoehr, Niklas, et al.
Veröffentlicht: (2024)
von: Stoehr, Niklas, et al.
Veröffentlicht: (2024)
Maia-2: A Unified Model for Human-AI Alignment in Chess
von: Tang, Zhenwei, et al.
Veröffentlicht: (2024)
von: Tang, Zhenwei, et al.
Veröffentlicht: (2024)
Assessing Social Alignment: Do Personality-Prompted Large Language Models Behave Like Humans?
von: Zakazov, Ivan, et al.
Veröffentlicht: (2024)
von: Zakazov, Ivan, et al.
Veröffentlicht: (2024)
A Hybrid Approach of Transfer Learning and Physics-Informed Modeling: Improving Dissolved Oxygen Concentration Prediction in an Industrial Wastewater Treatment Plant
von: Koksal, Ece S., et al.
Veröffentlicht: (2024)
von: Koksal, Ece S., et al.
Veröffentlicht: (2024)
The AI Alignment Paradox
von: West, Robert, et al.
Veröffentlicht: (2024)
von: West, Robert, et al.
Veröffentlicht: (2024)
Automated Generation of Microfluidic Netlists using Large Language Models
von: Davidson, Jasper, et al.
Veröffentlicht: (2026)
von: Davidson, Jasper, et al.
Veröffentlicht: (2026)
Self-Recognition in Language Models
von: Davidson, Tim R., et al.
Veröffentlicht: (2024)
von: Davidson, Tim R., et al.
Veröffentlicht: (2024)
ChatBench: From Static Benchmarks to Human-AI Evaluation
von: Chang, Serina, et al.
Veröffentlicht: (2025)
von: Chang, Serina, et al.
Veröffentlicht: (2025)
Parallel Multi-Circuit Quantum Feature Fusion in Hybrid Quantum-Classical Convolutional Neural Networks for Breast Tumor Classification
von: Yurtseven, Ece
Veröffentlicht: (2025)
von: Yurtseven, Ece
Veröffentlicht: (2025)
LLM Safety From Within: Detecting Harmful Content with Internal Representations
von: Jiao, Difan, et al.
Veröffentlicht: (2026)
von: Jiao, Difan, et al.
Veröffentlicht: (2026)
Separating Tongue from Thought: Activation Patching Reveals Language-Agnostic Concept Representations in Transformers
von: Dumas, Clément, et al.
Veröffentlicht: (2024)
von: Dumas, Clément, et al.
Veröffentlicht: (2024)
Evaluating Language Model Agency through Negotiations
von: Davidson, Tim R., et al.
Veröffentlicht: (2024)
von: Davidson, Tim R., et al.
Veröffentlicht: (2024)
Challenges in Human-Agent Communication
von: Bansal, Gagan, et al.
Veröffentlicht: (2024)
von: Bansal, Gagan, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
The Collaboration Gap
von: Davidson, Tim R., et al.
Veröffentlicht: (2025) -
From Model Training to Model Raising
von: Aydin, Roland, et al.
Veröffentlicht: (2025) -
JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models
von: Geng, Saibo, et al.
Veröffentlicht: (2025) -
Challenging the Machine: Contestability in Government AI Systems
von: Landau, Susan, et al.
Veröffentlicht: (2024) -
Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
von: Horvitz, Zachary, et al.
Veröffentlicht: (2024)