:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Krakovna, Victoria, Lindner, David, Ho, Lewis, Farquhar, Sebastian, Shah, Rohin
Format:	Preprint
Publié:	2026
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2605.29729
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Gram: Assessing sabotage propensities via automated alignment auditing
par: Lindner, David, et autres
Publié: (2026)

Evaluating Frontier Models for Stealth and Situational Awareness
par: Phuong, Mary, et autres
Publié: (2025)

MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking
par: Farquhar, Sebastian, et autres
Publié: (2025)

Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?
par: Kaufmann, Max, et autres
Publié: (2026)

Evaluating Frontier Models for Dangerous Capabilities
par: Phuong, Mary, et autres
Publié: (2024)

An Approach to Technical AGI Safety and Security
par: Shah, Rohin, et autres
Publié: (2025)

A Pragmatic Way to Measure Chain-of-Thought Monitorability
par: Emmons, Scott, et autres
Publié: (2025)

AtP*: An efficient and scalable method for localizing LLM behaviour to components
par: Kramár, János, et autres
Publié: (2024)

Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs
par: Easley, Eric, et autres
Publié: (2026)

Improving Water Quality Time-Series Prediction in Hong Kong using Sentinel-2 MSI Data and Google Earth Engine Cloud Computing
par: Sood, Rohin, et autres
Publié: (2024)

Improving Dictionary Learning with Gated Sparse Autoencoders
par: Rajamanoharan, Senthooran, et autres
Publié: (2024)

Consistency Training Helps Stop Sycophancy and Jailbreaks
par: Irpan, Alex, et autres
Publié: (2025)

Do Multilingual LLMs Think In English?
par: Schut, Lisa, et autres
Publié: (2025)

On scalable oversight with weak LLMs judging strong LLMs
par: Kenton, Zachary, et autres
Publié: (2024)

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth
par: Brown-Cohen, Jonah, et autres
Publié: (2026)

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
par: Lieberum, Tom, et autres
Publié: (2024)

Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation
par: Manvi, Rohin, et autres
Publié: (2024)

Building Production-Ready Probes For Gemini
par: Kramár, János, et autres
Publié: (2026)

Evaluating the Goal-Directedness of Large Language Models
par: Everitt, Tom, et autres
Publié: (2025)

GeoLLM: Extracting Geospatial Knowledge from Large Language Models
par: Manvi, Rohin, et autres
Publié: (2023)

Learning Safety Constraints from Demonstrations with Unknown Rewards
par: Lindner, David, et autres
Publié: (2023)

Large Language Models are Geographically Biased
par: Manvi, Rohin, et autres
Publié: (2024)

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
par: Korbak, Tomek, et autres
Publié: (2025)

Frontier Models Can Take Actions at Low Probabilities
par: Serrano, Alex, et autres
Publié: (2026)

MISR: Measuring Instrumental Self-Reasoning in Frontier Models
par: Fronsdal, Kai, et autres
Publié: (2024)

Predicting Fault-Ride-Through Probability of Inverter-Dominated Power Grids using Machine Learning
par: Nauck, Christian, et autres
Publié: (2024)

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception
par: Daniels, Oliver, et autres
Publié: (2026)

Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection
par: Cygert, Sebastian, et autres
Publié: (2024)

Zero-Overhead Introspection for Adaptive Test-Time Compute
par: Manvi, Rohin, et autres
Publié: (2025)

Holistic Safety and Responsibility Evaluations of Advanced AI Models
par: Weidinger, Laura, et autres
Publié: (2024)

Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
par: Schmotz, David, et autres
Publié: (2025)

SportsNGEN: Sustained Generation of Realistic Multi-player Sports Gameplay
par: Thorpe, Lachlan, et autres
Publié: (2024)

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
par: Hathidara, Ashutosh, et autres
Publié: (2025)

SynthSAEBench: Evaluating Sparse Autoencoders on Scalable Realistic Synthetic Data
par: Chanin, David, et autres
Publié: (2026)

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation
par: Klearman, Andrew, et autres
Publié: (2026)

Scalable Meta-Learning via Mixed-Mode Differentiation
par: Kemaev, Iurii, et autres
Publié: (2025)

Evaluating Language-Model Agents on Realistic Autonomous Tasks
par: Kinniment, Megan, et autres
Publié: (2023)

Revisiting the LiRA Membership Inference Attack Under Realistic Assumptions
par: Jebreel, Najeeb, et autres
Publié: (2026)

The recursive scheme of clustering
par: Miniak-Górecka, Alicja, et autres
Publié: (2024)

Synthesizing Realistic Test Data without Breaking Privacy
par: Plein, Laura, et autres
Publié: (2026)