Gespeichert in:
| Hauptverfasser: | Foerster, Hanna, Blanchard, Tom, Nikolić, Kristina, Shumailov, Ilia, Zhang, Cheng, Mullins, Robert, Papernot, Nicolas, Tramèr, Florian, Zhao, Yiren |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.09923 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Architectural Neural Backdoors from First Principles
von: Langford, Harry, et al.
Veröffentlicht: (2024)
von: Langford, Harry, et al.
Veröffentlicht: (2024)
Hardware and Software Platform Inference
von: Zhang, Cheng, et al.
Veröffentlicht: (2024)
von: Zhang, Cheng, et al.
Veröffentlicht: (2024)
Quantamination: Dynamic Quantization Leaks Your Data Across the Batch
von: Foerster, Hanna, et al.
Veröffentlicht: (2026)
von: Foerster, Hanna, et al.
Veröffentlicht: (2026)
Beyond Slow Signs in High-fidelity Model Extraction
von: Foerster, Hanna, et al.
Veröffentlicht: (2024)
von: Foerster, Hanna, et al.
Veröffentlicht: (2024)
Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
von: Foerster, Hanna, et al.
Veröffentlicht: (2025)
von: Foerster, Hanna, et al.
Veröffentlicht: (2025)
Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias
von: Wyllie, Sierra, et al.
Veröffentlicht: (2024)
von: Wyllie, Sierra, et al.
Veröffentlicht: (2024)
The Curse of Recursion: Training on Generated Data Makes Models Forget
von: Shumailov, Ilia, et al.
Veröffentlicht: (2023)
von: Shumailov, Ilia, et al.
Veröffentlicht: (2023)
ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks
von: Clifford, Eleanor, et al.
Veröffentlicht: (2022)
von: Clifford, Eleanor, et al.
Veröffentlicht: (2022)
Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?
von: Aerni, Michael, et al.
Veröffentlicht: (2025)
von: Aerni, Michael, et al.
Veröffentlicht: (2025)
Beyond Labeling Oracles: What does it mean to steal ML models?
von: Shafran, Avital, et al.
Veröffentlicht: (2023)
von: Shafran, Avital, et al.
Veröffentlicht: (2023)
Beyond Laplace and Gaussian: Exploring the Generalized Gaussian Mechanism for Private Machine Learning
von: Rinberg, Roy, et al.
Veröffentlicht: (2025)
von: Rinberg, Roy, et al.
Veröffentlicht: (2025)
Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses
von: Glukhov, David, et al.
Veröffentlicht: (2024)
von: Glukhov, David, et al.
Veröffentlicht: (2024)
Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy
von: Hayes, Jamie, et al.
Veröffentlicht: (2024)
von: Hayes, Jamie, et al.
Veröffentlicht: (2024)
Gradients Look Alike: Sensitivity is Often Overestimated in DP-SGD
von: Thudi, Anvith, et al.
Veröffentlicht: (2023)
von: Thudi, Anvith, et al.
Veröffentlicht: (2023)
When Vision Fails: Text Attacks Against ViT and OCR
von: Boucher, Nicholas, et al.
Veröffentlicht: (2023)
von: Boucher, Nicholas, et al.
Veröffentlicht: (2023)
Operationalizing CaMeL: Strengthening LLM Defenses for Enterprise Deployment
von: Tallam, Krti, et al.
Veröffentlicht: (2025)
von: Tallam, Krti, et al.
Veröffentlicht: (2025)
RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics
von: Zhang, Jie, et al.
Veröffentlicht: (2025)
von: Zhang, Jie, et al.
Veröffentlicht: (2025)
The Jailbreak Tax: How Useful are Your Jailbreak Outputs?
von: Nikolić, Kristina, et al.
Veröffentlicht: (2025)
von: Nikolić, Kristina, et al.
Veröffentlicht: (2025)
Watermarking Needs Input Repetition Masking
von: Khachaturov, David, et al.
Veröffentlicht: (2025)
von: Khachaturov, David, et al.
Veröffentlicht: (2025)
Locking Machine Learning Models into Hardware
von: Clifford, Eleanor, et al.
Veröffentlicht: (2024)
von: Clifford, Eleanor, et al.
Veröffentlicht: (2024)
Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference?
von: Zhang, Cheng, et al.
Veröffentlicht: (2023)
von: Zhang, Cheng, et al.
Veröffentlicht: (2023)
Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models
von: Chaudhari, Harsh, et al.
Veröffentlicht: (2026)
von: Chaudhari, Harsh, et al.
Veröffentlicht: (2026)
A Systematization of Security Vulnerabilities in Computer Use Agents
von: Jones, Daniel, et al.
Veröffentlicht: (2025)
von: Jones, Daniel, et al.
Veröffentlicht: (2025)
ceLLMate: Sandboxing Browser AI Agents
von: Meng, Luoxi, et al.
Veröffentlicht: (2025)
von: Meng, Luoxi, et al.
Veröffentlicht: (2025)
Evaluating the Robustness of the "Ensemble Everything Everywhere" Defense
von: Zhang, Jie, et al.
Veröffentlicht: (2024)
von: Zhang, Jie, et al.
Veröffentlicht: (2024)
Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation
von: Küchler, Nicolas, et al.
Veröffentlicht: (2025)
von: Küchler, Nicolas, et al.
Veröffentlicht: (2025)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI
von: Shumailov, Ilia, et al.
Veröffentlicht: (2024)
von: Shumailov, Ilia, et al.
Veröffentlicht: (2024)
Scaling Agents for Computer Use
von: Gonzalez-Pumariega, Gonzalo, et al.
Veröffentlicht: (2025)
von: Gonzalez-Pumariega, Gonzalo, et al.
Veröffentlicht: (2025)
On the Reliability of Computer Use Agents
von: Gonzalez-Pumariega, Gonzalo, et al.
Veröffentlicht: (2026)
von: Gonzalez-Pumariega, Gonzalo, et al.
Veröffentlicht: (2026)
Multi-Agent Computer Use
von: Koh, Jing Yu, et al.
Veröffentlicht: (2026)
von: Koh, Jing Yu, et al.
Veröffentlicht: (2026)
Programming with Pixels: Can Computer-Use Agents do Software Engineering?
von: Aggarwal, Pranjal, et al.
Veröffentlicht: (2025)
von: Aggarwal, Pranjal, et al.
Veröffentlicht: (2025)
Defeating Prompt Injections by Design
von: Debenedetti, Edoardo, et al.
Veröffentlicht: (2025)
von: Debenedetti, Edoardo, et al.
Veröffentlicht: (2025)
SEA: Shareable and Explainable Attribution for Query-based Black-box Attacks
von: Gao, Yue, et al.
Veröffentlicht: (2023)
von: Gao, Yue, et al.
Veröffentlicht: (2023)
Machine Learning needs Better Randomness Standards: Randomised Smoothing and PRNG-based attacks
von: Dahiya, Pranav, et al.
Veröffentlicht: (2023)
von: Dahiya, Pranav, et al.
Veröffentlicht: (2023)
Buffer Overflow in Mixture of Experts
von: Hayes, Jamie, et al.
Veröffentlicht: (2024)
von: Hayes, Jamie, et al.
Veröffentlicht: (2024)
Grounding Computer Use Agents on Human Demonstrations
von: Feizi, Aarash, et al.
Veröffentlicht: (2025)
von: Feizi, Aarash, et al.
Veröffentlicht: (2025)
Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference
von: Zhao, Yiren, et al.
Veröffentlicht: (2026)
von: Zhao, Yiren, et al.
Veröffentlicht: (2026)
Secure and Efficient Access Control for Computer-Use Agents via Context Space
von: Gong, Haochen, et al.
Veröffentlicht: (2025)
von: Gong, Haochen, et al.
Veröffentlicht: (2025)
Efficient Agent Training for Computer Use
von: He, Yanheng, et al.
Veröffentlicht: (2025)
von: He, Yanheng, et al.
Veröffentlicht: (2025)
Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too
von: Lawrence, Logan, et al.
Veröffentlicht: (2025)
von: Lawrence, Logan, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Architectural Neural Backdoors from First Principles
von: Langford, Harry, et al.
Veröffentlicht: (2024) -
Hardware and Software Platform Inference
von: Zhang, Cheng, et al.
Veröffentlicht: (2024) -
Quantamination: Dynamic Quantization Leaks Your Data Across the Batch
von: Foerster, Hanna, et al.
Veröffentlicht: (2026) -
Beyond Slow Signs in High-fidelity Model Extraction
von: Foerster, Hanna, et al.
Veröffentlicht: (2024) -
Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
von: Foerster, Hanna, et al.
Veröffentlicht: (2025)