Enregistré dans:
| Auteurs principaux: | Krakovna, Victoria, Lindner, David, Ho, Lewis, Farquhar, Sebastian, Shah, Rohin |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.29729 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Gram: Assessing sabotage propensities via automated alignment auditing
par: Lindner, David, et autres
Publié: (2026)
par: Lindner, David, et autres
Publié: (2026)
Evaluating Frontier Models for Stealth and Situational Awareness
par: Phuong, Mary, et autres
Publié: (2025)
par: Phuong, Mary, et autres
Publié: (2025)
MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking
par: Farquhar, Sebastian, et autres
Publié: (2025)
par: Farquhar, Sebastian, et autres
Publié: (2025)
Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?
par: Kaufmann, Max, et autres
Publié: (2026)
par: Kaufmann, Max, et autres
Publié: (2026)
Evaluating Frontier Models for Dangerous Capabilities
par: Phuong, Mary, et autres
Publié: (2024)
par: Phuong, Mary, et autres
Publié: (2024)
An Approach to Technical AGI Safety and Security
par: Shah, Rohin, et autres
Publié: (2025)
par: Shah, Rohin, et autres
Publié: (2025)
A Pragmatic Way to Measure Chain-of-Thought Monitorability
par: Emmons, Scott, et autres
Publié: (2025)
par: Emmons, Scott, et autres
Publié: (2025)
AtP*: An efficient and scalable method for localizing LLM behaviour to components
par: Kramár, János, et autres
Publié: (2024)
par: Kramár, János, et autres
Publié: (2024)
Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs
par: Easley, Eric, et autres
Publié: (2026)
par: Easley, Eric, et autres
Publié: (2026)
Improving Water Quality Time-Series Prediction in Hong Kong using Sentinel-2 MSI Data and Google Earth Engine Cloud Computing
par: Sood, Rohin, et autres
Publié: (2024)
par: Sood, Rohin, et autres
Publié: (2024)
Improving Dictionary Learning with Gated Sparse Autoencoders
par: Rajamanoharan, Senthooran, et autres
Publié: (2024)
par: Rajamanoharan, Senthooran, et autres
Publié: (2024)
Consistency Training Helps Stop Sycophancy and Jailbreaks
par: Irpan, Alex, et autres
Publié: (2025)
par: Irpan, Alex, et autres
Publié: (2025)
Do Multilingual LLMs Think In English?
par: Schut, Lisa, et autres
Publié: (2025)
par: Schut, Lisa, et autres
Publié: (2025)
On scalable oversight with weak LLMs judging strong LLMs
par: Kenton, Zachary, et autres
Publié: (2024)
par: Kenton, Zachary, et autres
Publié: (2024)
Quantifying the Necessity of Chain of Thought through Opaque Serial Depth
par: Brown-Cohen, Jonah, et autres
Publié: (2026)
par: Brown-Cohen, Jonah, et autres
Publié: (2026)
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
par: Lieberum, Tom, et autres
Publié: (2024)
par: Lieberum, Tom, et autres
Publié: (2024)
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation
par: Manvi, Rohin, et autres
Publié: (2024)
par: Manvi, Rohin, et autres
Publié: (2024)
Building Production-Ready Probes For Gemini
par: Kramár, János, et autres
Publié: (2026)
par: Kramár, János, et autres
Publié: (2026)
Evaluating the Goal-Directedness of Large Language Models
par: Everitt, Tom, et autres
Publié: (2025)
par: Everitt, Tom, et autres
Publié: (2025)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models
par: Manvi, Rohin, et autres
Publié: (2023)
par: Manvi, Rohin, et autres
Publié: (2023)
Learning Safety Constraints from Demonstrations with Unknown Rewards
par: Lindner, David, et autres
Publié: (2023)
par: Lindner, David, et autres
Publié: (2023)
Large Language Models are Geographically Biased
par: Manvi, Rohin, et autres
Publié: (2024)
par: Manvi, Rohin, et autres
Publié: (2024)
Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
par: Korbak, Tomek, et autres
Publié: (2025)
par: Korbak, Tomek, et autres
Publié: (2025)
Frontier Models Can Take Actions at Low Probabilities
par: Serrano, Alex, et autres
Publié: (2026)
par: Serrano, Alex, et autres
Publié: (2026)
MISR: Measuring Instrumental Self-Reasoning in Frontier Models
par: Fronsdal, Kai, et autres
Publié: (2024)
par: Fronsdal, Kai, et autres
Publié: (2024)
Predicting Fault-Ride-Through Probability of Inverter-Dominated Power Grids using Machine Learning
par: Nauck, Christian, et autres
Publié: (2024)
par: Nauck, Christian, et autres
Publié: (2024)
Stress-Testing Alignment Audits With Prompt-Level Strategic Deception
par: Daniels, Oliver, et autres
Publié: (2026)
par: Daniels, Oliver, et autres
Publié: (2026)
Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection
par: Cygert, Sebastian, et autres
Publié: (2024)
par: Cygert, Sebastian, et autres
Publié: (2024)
Zero-Overhead Introspection for Adaptive Test-Time Compute
par: Manvi, Rohin, et autres
Publié: (2025)
par: Manvi, Rohin, et autres
Publié: (2025)
Holistic Safety and Responsibility Evaluations of Advanced AI Models
par: Weidinger, Laura, et autres
Publié: (2024)
par: Weidinger, Laura, et autres
Publié: (2024)
Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections
par: Schmotz, David, et autres
Publié: (2025)
par: Schmotz, David, et autres
Publié: (2025)
SportsNGEN: Sustained Generation of Realistic Multi-player Sports Gameplay
par: Thorpe, Lachlan, et autres
Publié: (2024)
par: Thorpe, Lachlan, et autres
Publié: (2024)
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky
par: Hathidara, Ashutosh, et autres
Publié: (2025)
par: Hathidara, Ashutosh, et autres
Publié: (2025)
SynthSAEBench: Evaluating Sparse Autoencoders on Scalable Realistic Synthetic Data
par: Chanin, David, et autres
Publié: (2026)
par: Chanin, David, et autres
Publié: (2026)
Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation
par: Klearman, Andrew, et autres
Publié: (2026)
par: Klearman, Andrew, et autres
Publié: (2026)
Scalable Meta-Learning via Mixed-Mode Differentiation
par: Kemaev, Iurii, et autres
Publié: (2025)
par: Kemaev, Iurii, et autres
Publié: (2025)
Evaluating Language-Model Agents on Realistic Autonomous Tasks
par: Kinniment, Megan, et autres
Publié: (2023)
par: Kinniment, Megan, et autres
Publié: (2023)
Revisiting the LiRA Membership Inference Attack Under Realistic Assumptions
par: Jebreel, Najeeb, et autres
Publié: (2026)
par: Jebreel, Najeeb, et autres
Publié: (2026)
The recursive scheme of clustering
par: Miniak-Górecka, Alicja, et autres
Publié: (2024)
par: Miniak-Górecka, Alicja, et autres
Publié: (2024)
Synthesizing Realistic Test Data without Breaking Privacy
par: Plein, Laura, et autres
Publié: (2026)
par: Plein, Laura, et autres
Publié: (2026)
Documents similaires
-
Gram: Assessing sabotage propensities via automated alignment auditing
par: Lindner, David, et autres
Publié: (2026) -
Evaluating Frontier Models for Stealth and Situational Awareness
par: Phuong, Mary, et autres
Publié: (2025) -
MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking
par: Farquhar, Sebastian, et autres
Publié: (2025) -
Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?
par: Kaufmann, Max, et autres
Publié: (2026) -
Evaluating Frontier Models for Dangerous Capabilities
par: Phuong, Mary, et autres
Publié: (2024)