Enregistré dans:
| Auteurs principaux: | Zhong, Ziqian, Raghunathan, Aditi, Carlini, Nicholas |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.20270 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
par: Zhong, Ziqian, et autres
Publié: (2025)
par: Zhong, Ziqian, et autres
Publié: (2025)
Base Models Look Human To AI Detectors
par: Xu, Yixuan Even, et autres
Publié: (2026)
par: Xu, Yixuan Even, et autres
Publié: (2026)
Self-Trained Verification for Training- and Test-Time Self-Improvement
par: Wu, Chen Henry, et autres
Publié: (2026)
par: Wu, Chen Henry, et autres
Publié: (2026)
Testing the Limits of Jailbreaking Defenses with the Purple Problem
par: Kim, Taeyoun, et autres
Publié: (2024)
par: Kim, Taeyoun, et autres
Publié: (2024)
Mode-Conditioning Unlocks Superior Test-Time Scaling
par: Wu, Chen Henry, et autres
Publié: (2025)
par: Wu, Chen Henry, et autres
Publié: (2025)
Jailbreaking in the Haystack
par: Shah, Rishi Rajesh, et autres
Publié: (2025)
par: Shah, Rishi Rajesh, et autres
Publié: (2025)
Understanding Finetuning for Factual Knowledge Extraction
par: Ghosal, Gaurav, et autres
Publié: (2024)
par: Ghosal, Gaurav, et autres
Publié: (2024)
Understanding Catastrophic Forgetting in Language Models via Implicit Inference
par: Kotha, Suhas, et autres
Publié: (2023)
par: Kotha, Suhas, et autres
Publié: (2023)
Mitigating Bias in RAG: Controlling the Embedder
par: Kim, Taeyoun, et autres
Publié: (2025)
par: Kim, Taeyoun, et autres
Publié: (2025)
The Impossibility of Fair LLMs
par: Anthis, Jacy, et autres
Publié: (2024)
par: Anthis, Jacy, et autres
Publié: (2024)
Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance
par: Goyal, Sachin, et autres
Publié: (2024)
par: Goyal, Sachin, et autres
Publié: (2024)
Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting
par: Watts, Ishaan, et autres
Publié: (2026)
par: Watts, Ishaan, et autres
Publié: (2026)
Repetition Improves Language Model Embeddings
par: Springer, Jacob Mitchell, et autres
Publié: (2024)
par: Springer, Jacob Mitchell, et autres
Publié: (2024)
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
par: Nagarajan, Vaishnavh, et autres
Publié: (2025)
par: Nagarajan, Vaishnavh, et autres
Publié: (2025)
Measuring Non-Adversarial Reproduction of Training Data in Large Language Models
par: Aerni, Michael, et autres
Publié: (2024)
par: Aerni, Michael, et autres
Publié: (2024)
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
par: Su, Jingtong, et autres
Publié: (2024)
par: Su, Jingtong, et autres
Publié: (2024)
Algorithmic Capabilities of Random Transformers
par: Zhong, Ziqian, et autres
Publié: (2024)
par: Zhong, Ziqian, et autres
Publié: (2024)
T-MARS: Improving Visual Representations by Circumventing Text Feature Learning
par: Maini, Pratyush, et autres
Publié: (2023)
par: Maini, Pratyush, et autres
Publié: (2023)
Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?
par: Zhong, Ziqian, et autres
Publié: (2026)
par: Zhong, Ziqian, et autres
Publié: (2026)
Forcing Diffuse Distributions out of Language Models
par: Zhang, Yiming, et autres
Publié: (2024)
par: Zhang, Yiming, et autres
Publié: (2024)
Mission: Impossible Language Models
par: Kallini, Julie, et autres
Publié: (2024)
par: Kallini, Julie, et autres
Publié: (2024)
Scaling Laws for Precision
par: Kumar, Tanishq, et autres
Publié: (2024)
par: Kumar, Tanishq, et autres
Publié: (2024)
TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?
par: Ahmed, Toufique, et autres
Publié: (2024)
par: Ahmed, Toufique, et autres
Publié: (2024)
Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias
par: Chen, Yuen, et autres
Publié: (2022)
par: Chen, Yuen, et autres
Publié: (2022)
The Impossibility Triangle of Long-Context Modeling
par: Zhou, Yan
Publié: (2026)
par: Zhou, Yan
Publié: (2026)
OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
par: Aggarwal, Pranjal, et autres
Publié: (2025)
par: Aggarwal, Pranjal, et autres
Publié: (2025)
Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs
par: Farashah, Alireza Dehghanpour, et autres
Publié: (2026)
par: Farashah, Alireza Dehghanpour, et autres
Publié: (2026)
Early Data Exposure Improves Robustness to Subsequent Fine-Tuning
par: Feng, Lawrence, et autres
Publié: (2026)
par: Feng, Lawrence, et autres
Publié: (2026)
Exploiting Synergistic Cognitive Biases to Bypass Safety in LLMs
par: Yang, Xikang, et autres
Publié: (2025)
par: Yang, Xikang, et autres
Publié: (2025)
Non-Halting Queries: Exploiting Fixed Points in LLMs
par: Hammouri, Ghaith, et autres
Publié: (2024)
par: Hammouri, Ghaith, et autres
Publié: (2024)
Dissecting Adversarial Robustness of Multimodal LM Agents
par: Wu, Chen Henry, et autres
Publié: (2024)
par: Wu, Chen Henry, et autres
Publié: (2024)
Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs
par: Mendu, Sai Krishna, et autres
Publié: (2025)
par: Mendu, Sai Krishna, et autres
Publié: (2025)
Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior
par: Gong, Yue, et autres
Publié: (2025)
par: Gong, Yue, et autres
Publié: (2025)
AgentBench: Evaluating LLMs as Agents
par: Liu, Xiao, et autres
Publié: (2023)
par: Liu, Xiao, et autres
Publié: (2023)
XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning
par: Zhang, Zhihan, et autres
Publié: (2025)
par: Zhang, Zhihan, et autres
Publié: (2025)
From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench
par: Shi, Weikang, et autres
Publié: (2026)
par: Shi, Weikang, et autres
Publié: (2026)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs
par: Zhou, Yujun, et autres
Publié: (2024)
par: Zhou, Yujun, et autres
Publié: (2024)
Stealing User Prompts from Mixture of Experts
par: Yona, Itay, et autres
Publié: (2024)
par: Yona, Itay, et autres
Publié: (2024)
Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models
par: Zhang, Hanlin, et autres
Publié: (2023)
par: Zhang, Hanlin, et autres
Publié: (2023)
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications
par: Li, Xin, et autres
Publié: (2025)
par: Li, Xin, et autres
Publié: (2025)
Documents similaires
-
Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
par: Zhong, Ziqian, et autres
Publié: (2025) -
Base Models Look Human To AI Detectors
par: Xu, Yixuan Even, et autres
Publié: (2026) -
Self-Trained Verification for Training- and Test-Time Self-Improvement
par: Wu, Chen Henry, et autres
Publié: (2026) -
Testing the Limits of Jailbreaking Defenses with the Purple Problem
par: Kim, Taeyoun, et autres
Publié: (2024) -
Mode-Conditioning Unlocks Superior Test-Time Scaling
par: Wu, Chen Henry, et autres
Publié: (2025)