Enregistré dans:
| Auteurs principaux: | Joseph, Sonia, Suresh, Praneet, Hufe, Lorenz, Stevinson, Edward, Graham, Robert, Vadi, Yash, Bzdok, Danilo, Lapuschkin, Sebastian, Sharkey, Lee, Richards, Blake Aaron |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2504.19475 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Steering CLIP's vision transformer with sparse autoencoders
par: Joseph, Sonia, et autres
Publié: (2025)
par: Joseph, Sonia, et autres
Publié: (2025)
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
par: Suresh, Praneet, et autres
Publié: (2025)
par: Suresh, Praneet, et autres
Publié: (2025)
Quantifying LLM Attention-Head Stability: Implications for Circuit Universality
par: Bali, Karan, et autres
Publié: (2026)
par: Bali, Karan, et autres
Publié: (2026)
Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP
par: Hufe, Lorenz, et autres
Publié: (2025)
par: Hufe, Lorenz, et autres
Publié: (2025)
From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance
par: Dreyer, Maximilian, et autres
Publié: (2025)
par: Dreyer, Maximilian, et autres
Publié: (2025)
The Uncanny Valley: A Comprehensive Analysis of Diffusion Models
par: Ghanem, Karam, et autres
Publié: (2024)
par: Ghanem, Karam, et autres
Publié: (2024)
Estimating Unknown Population Sizes Using the Hypergeometric Distribution
par: Hodgson, Liam, et autres
Publié: (2024)
par: Hodgson, Liam, et autres
Publié: (2024)
Transformer-based Joint Modelling for Automatic Essay Scoring and Off-Topic Detection
par: Das, Sourya Dipta, et autres
Publié: (2024)
par: Das, Sourya Dipta, et autres
Publié: (2024)
ContextBench: Modifying Contexts for Targeted Latent Activation
par: Graham, Robert, et autres
Publié: (2025)
par: Graham, Robert, et autres
Publié: (2025)
Towards the AI Historian: Agentic Information Extraction from Primary Sources
par: Hufe, Lorenz, et autres
Publié: (2026)
par: Hufe, Lorenz, et autres
Publié: (2026)
Open Problems in Mechanistic Interpretability
par: Sharkey, Lee, et autres
Publié: (2025)
par: Sharkey, Lee, et autres
Publié: (2025)
Cultural Heritage in International Economic Law
par: Vadi, Valentina
Publié: (2024)
par: Vadi, Valentina
Publié: (2024)
Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
par: Bareeva, Dilyara, et autres
Publié: (2024)
par: Bareeva, Dilyara, et autres
Publié: (2024)
Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance
par: Das, Sourya Dipta, et autres
Publié: (2023)
par: Das, Sourya Dipta, et autres
Publié: (2023)
Prismas
Publié: (2012)
Publié: (2012)
Prisma
Publié: (2003)
Publié: (2003)
Adversarial Attacks Leverage Interference Between Features in Superposition
par: Stevinson, Edward, et autres
Publié: (2025)
par: Stevinson, Edward, et autres
Publié: (2025)
Interpretability in Parameter Space: Minimizing Mechanistic Description Length with Attribution-based Parameter Decomposition
par: Braun, Dan, et autres
Publié: (2025)
par: Braun, Dan, et autres
Publié: (2025)
Granulomatous mural folliculitis and cytotoxic interface dermatitis in a pygmy goat associated with ovine herpesvirus‐2 and systemic lesions of malignant catarrhal fever
par: Peter Richards‐Rios, et autres
Publié: (2025)
par: Peter Richards‐Rios, et autres
Publié: (2025)
Demographic Dataset on Race, Ethnicity, Age and Sex in Neuromuscular Disease Studies (2004-2024)
par: Fontanelli, Lorenzo, et autres
Publié: (2025)
par: Fontanelli, Lorenzo, et autres
Publié: (2025)
Interpreting Physics in Video World Models
par: Joseph, Sonia, et autres
Publié: (2026)
par: Joseph, Sonia, et autres
Publié: (2026)
Prisma Tecnológico
Publié: (2021)
Publié: (2021)
Prisma Social
Publié: (2012)
Publié: (2012)
Prisma Jurídico
Publié: (2019)
Publié: (2019)
Mitochondria‐nucleus crosstalk characterizes Alzheimer's disease across 1,5 million brain cells
par: Chloé Savignac, et autres
Publié: (2025)
par: Chloé Savignac, et autres
Publié: (2025)
Declaración para Prismas
par: Charles A. Hale
Publié: (2007)
par: Charles A. Hale
Publié: (2007)
Qualitätsmessung als Prisma
Publié: (2024)
Publié: (2024)
BERT vs GPT for financial engineering
par: Sharkey, Edward, et autres
Publié: (2024)
par: Sharkey, Edward, et autres
Publié: (2024)
SIREN: An Open Source Neutrino Injection Toolkit
par: Schneider, Austin, et autres
Publié: (2024)
par: Schneider, Austin, et autres
Publié: (2024)
Brain Age Prediction: Deep Models Need a Hand to Generalize
par: Reza Rajabli, et autres
Publié: (2025)
par: Reza Rajabli, et autres
Publié: (2025)
3D-Speaker-Toolkit: An Open-Source Toolkit for Multimodal Speaker Verification and Diarization
par: Chen, Yafeng, et autres
Publié: (2024)
par: Chen, Yafeng, et autres
Publié: (2024)
PyEncode: An Open-Source Library for Structured Quantum State Preparation
par: Suresh, Krishnan, et autres
Publié: (2026)
par: Suresh, Krishnan, et autres
Publié: (2026)
MarkLLM: An Open-Source Toolkit for LLM Watermarking
par: Pan, Leyi, et autres
Publié: (2024)
par: Pan, Leyi, et autres
Publié: (2024)
SocialPulse: An Open-Source Subreddit Sensemaking Toolkit
par: Birkelbach, Stephanie, et autres
Publié: (2026)
par: Birkelbach, Stephanie, et autres
Publié: (2026)
From Data Statistics to Feature Geometry: How Correlations Shape Superposition
par: Prieto, Lucas, et autres
Publié: (2026)
par: Prieto, Lucas, et autres
Publié: (2026)
Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability
par: Huang, Xiaoyu, et autres
Publié: (2026)
par: Huang, Xiaoyu, et autres
Publié: (2026)
Interpretability in Action: Exploratory Analysis of VPT, a Minecraft Agent
par: Jucys, Karolis, et autres
Publié: (2024)
par: Jucys, Karolis, et autres
Publié: (2024)
PGLearn -- An Open-Source Learning Toolkit for Optimal Power Flow
par: Klamkin, Michael, et autres
Publié: (2025)
par: Klamkin, Michael, et autres
Publié: (2025)
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit
par: Zhang, Xueyao, et autres
Publié: (2023)
par: Zhang, Xueyao, et autres
Publié: (2023)
Groupy: An Open‐Source Toolkit for Molecular Simulation and Property Calculation
par: Ruichen Liu, et autres
Publié: (2024)
par: Ruichen Liu, et autres
Publié: (2024)
Documents similaires
-
Steering CLIP's vision transformer with sparse autoencoders
par: Joseph, Sonia, et autres
Publié: (2025) -
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
par: Suresh, Praneet, et autres
Publié: (2025) -
Quantifying LLM Attention-Head Stability: Implications for Circuit Universality
par: Bali, Karan, et autres
Publié: (2026) -
Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP
par: Hufe, Lorenz, et autres
Publié: (2025) -
From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance
par: Dreyer, Maximilian, et autres
Publié: (2025)