:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhong, Ziqian, Raghunathan, Aditi, Carlini, Nicholas
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning Computation and Language
Accès en ligne:	https://arxiv.org/abs/2510.20270
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
par: Zhong, Ziqian, et autres
Publié: (2025)

Base Models Look Human To AI Detectors
par: Xu, Yixuan Even, et autres
Publié: (2026)

Self-Trained Verification for Training- and Test-Time Self-Improvement
par: Wu, Chen Henry, et autres
Publié: (2026)

Testing the Limits of Jailbreaking Defenses with the Purple Problem
par: Kim, Taeyoun, et autres
Publié: (2024)

Mode-Conditioning Unlocks Superior Test-Time Scaling
par: Wu, Chen Henry, et autres
Publié: (2025)

Jailbreaking in the Haystack
par: Shah, Rishi Rajesh, et autres
Publié: (2025)

Understanding Finetuning for Factual Knowledge Extraction
par: Ghosal, Gaurav, et autres
Publié: (2024)

Understanding Catastrophic Forgetting in Language Models via Implicit Inference
par: Kotha, Suhas, et autres
Publié: (2023)

Mitigating Bias in RAG: Controlling the Embedder
par: Kim, Taeyoun, et autres
Publié: (2025)

The Impossibility of Fair LLMs
par: Anthis, Jacy, et autres
Publié: (2024)

Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance
par: Goyal, Sachin, et autres
Publié: (2024)

Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting
par: Watts, Ishaan, et autres
Publié: (2026)

Repetition Improves Language Model Embeddings
par: Springer, Jacob Mitchell, et autres
Publié: (2024)

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction
par: Nagarajan, Vaishnavh, et autres
Publié: (2025)

Measuring Non-Adversarial Reproduction of Training Data in Large Language Models
par: Aerni, Michael, et autres
Publié: (2024)

Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
par: Su, Jingtong, et autres
Publié: (2024)

Algorithmic Capabilities of Random Transformers
par: Zhong, Ziqian, et autres
Publié: (2024)

T-MARS: Improving Visual Representations by Circumventing Text Feature Learning
par: Maini, Pratyush, et autres
Publié: (2023)

Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?
par: Zhong, Ziqian, et autres
Publié: (2026)

Forcing Diffuse Distributions out of Language Models
par: Zhang, Yiming, et autres
Publié: (2024)

Mission: Impossible Language Models
par: Kallini, Julie, et autres
Publié: (2024)

Scaling Laws for Precision
par: Kumar, Tanishq, et autres
Publié: (2024)

TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?
par: Ahmed, Toufique, et autres
Publié: (2024)

Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias
par: Chen, Yuen, et autres
Publié: (2022)

The Impossibility Triangle of Long-Context Modeling
par: Zhou, Yan
Publié: (2026)

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
par: Aggarwal, Pranjal, et autres
Publié: (2025)

Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs
par: Farashah, Alireza Dehghanpour, et autres
Publié: (2026)

Early Data Exposure Improves Robustness to Subsequent Fine-Tuning
par: Feng, Lawrence, et autres
Publié: (2026)

Exploiting Synergistic Cognitive Biases to Bypass Safety in LLMs
par: Yang, Xikang, et autres
Publié: (2025)

Non-Halting Queries: Exploiting Fixed Points in LLMs
par: Hammouri, Ghaith, et autres
Publié: (2024)

Dissecting Adversarial Robustness of Multimodal LM Agents
par: Wu, Chen Henry, et autres
Publié: (2024)

Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs
par: Mendu, Sai Krishna, et autres
Publié: (2025)

Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior
par: Gong, Yue, et autres
Publié: (2025)

AgentBench: Evaluating LLMs as Agents
par: Liu, Xiao, et autres
Publié: (2023)

XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning
par: Zhang, Zhihan, et autres
Publié: (2025)

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench
par: Shi, Weikang, et autres
Publié: (2026)

LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs
par: Zhou, Yujun, et autres
Publié: (2024)

Stealing User Prompts from Mixture of Experts
par: Yona, Itay, et autres
Publié: (2024)

Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models
par: Zhang, Hanlin, et autres
Publié: (2023)

WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications
par: Li, Xin, et autres
Publié: (2025)