:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhang, Shuyi, Shi, Wei, Li, Sihang, Liao, Jiayi, Cai, Hengxing, Wang, Xiang
Format:	Preprint
Publié:	2025
Sujets:	Machine Learning
Accès en ligne:	https://arxiv.org/abs/2508.08746
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Route Sparse Autoencoder to Interpret Large Language Models
par: Shi, Wei, et autres
Publié: (2025)

SAFER: Probing Safety in Reward Models with Sparse Autoencoder
par: Shi, Wei, et autres
Publié: (2025)

Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling
par: Luo, Yanchen, et autres
Publié: (2025)

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
par: Li, Sihang, et autres
Publié: (2024)

Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders
par: Liu, Shunchang, et autres
Publié: (2026)

Transcoders Beat Sparse Autoencoders for Interpretability
par: Paulo, Gonçalo, et autres
Publié: (2025)

Interpreting Attention Layer Outputs with Sparse Autoencoders
par: Kissane, Connor, et autres
Publié: (2024)

AdaptiveK: Complexity-Driven Sparse Autoencoders for Interpretable Language Model Representations
par: Yao, Yifei, et autres
Publié: (2025)

IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
par: Li, Yuhan, et autres
Publié: (2026)

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders
par: Wang, Xu, et autres
Publié: (2026)

Interpretable and Steerable Concept Bottleneck Sparse Autoencoders
par: Kulkarni, Akshay, et autres
Publié: (2025)

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
par: Lehn-Schiøler, William, et autres
Publié: (2026)

Mechanistic Interpretability of Code Correctness in LLMs via Sparse Autoencoders
par: Tahimic, Kriz, et autres
Publié: (2025)

Interpreting and Steering Protein Language Models through Sparse Autoencoders
par: Garcia, Edith Natalia Villegas, et autres
Publié: (2025)

Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders
par: Paek, Nathan, et autres
Publié: (2025)

Step-Level Sparse Autoencoder for Reasoning Process Interpretation
par: Yang, Xuan, et autres
Publié: (2026)

Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control
par: Makelov, Aleksandar, et autres
Publié: (2024)

Model Unlearning via Sparse Autoencoder Subspace Guided Projections
par: Wang, Xu, et autres
Publié: (2025)

Interpretable Company Similarity with Sparse Autoencoders
par: Molinari, Marco, et autres
Publié: (2024)

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
par: Wang, Haoxiang, et autres
Publié: (2024)

Residualized Temporal Sparse Autoencoders for Interpreting Diffusion Models
par: Yeung, Calvin, et autres
Publié: (2026)

Interpreting CLIP with Hierarchical Sparse Autoencoders
par: Zaigrajew, Vladimir, et autres
Publié: (2025)

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
par: Cywiński, Bartosz, et autres
Publié: (2025)

SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability
par: Karvonen, Adam, et autres
Publié: (2025)

Group Equivariance Meets Mechanistic Interpretability: Equivariant Sparse Autoencoders
par: Erdogan, Ege, et autres
Publié: (2025)

Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
par: Ye, Mengyu, et autres
Publié: (2025)

Sparse Autoencoders for Sequential Recommendation Models: Interpretation and Flexible Control
par: Klenitskiy, Anton, et autres
Publié: (2025)

Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment
par: Thasarathan, Harrish, et autres
Publié: (2025)

Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders
par: Marks, Luke, et autres
Publié: (2024)

Interpreting CFD Surrogates through Sparse Autoencoders
par: Hu, Yeping, et autres
Publié: (2025)

Mechanistic Interpretability with Sparse Autoencoder Neural Operators
par: Tolooshams, Bahareh, et autres
Publié: (2025)

Kronecker Factorization Improves Efficiency and Interpretability of Sparse Autoencoders
par: Kurochkin, Vadim, et autres
Publié: (2025)

Unlocking the Address Book: Dissecting the Sparse Semantic Structure of LLM Key-Value Caches via Sparse Autoencoders
par: Ma, Qingsen, et autres
Publié: (2025)

Intelligent System for Automated Molecular Patent Infringement Assessment
par: Shi, Yaorui, et autres
Publié: (2024)

Towards Interpretable Protein Structure Prediction with Sparse Autoencoders
par: Parsan, Nithin, et autres
Publié: (2025)

InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders
par: Simon, Elana, et autres
Publié: (2024)

MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs
par: Zhao, Guojiang, et autres
Publié: (2025)

Resurrecting the Salmon: Rethinking Mechanistic Interpretability with Domain-Specific Sparse Autoencoders
par: O'Neill, Charles, et autres
Publié: (2025)

XNNTab -- Interpretable Neural Networks for Tabular Data using Sparse Autoencoders
par: Elhadri, Khawla, et autres
Publié: (2025)

PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders
par: Frikha, Ahmed, et autres
Publié: (2025)