Enregistré dans:
| Auteurs principaux: | Zhang, Shuyi, Shi, Wei, Li, Sihang, Liao, Jiayi, Cai, Hengxing, Wang, Xiang |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2508.08746 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Route Sparse Autoencoder to Interpret Large Language Models
par: Shi, Wei, et autres
Publié: (2025)
par: Shi, Wei, et autres
Publié: (2025)
SAFER: Probing Safety in Reward Models with Sparse Autoencoder
par: Shi, Wei, et autres
Publié: (2025)
par: Shi, Wei, et autres
Publié: (2025)
Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling
par: Luo, Yanchen, et autres
Publié: (2025)
par: Luo, Yanchen, et autres
Publié: (2025)
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
par: Li, Sihang, et autres
Publié: (2024)
par: Li, Sihang, et autres
Publié: (2024)
Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders
par: Liu, Shunchang, et autres
Publié: (2026)
par: Liu, Shunchang, et autres
Publié: (2026)
Transcoders Beat Sparse Autoencoders for Interpretability
par: Paulo, Gonçalo, et autres
Publié: (2025)
par: Paulo, Gonçalo, et autres
Publié: (2025)
Interpreting Attention Layer Outputs with Sparse Autoencoders
par: Kissane, Connor, et autres
Publié: (2024)
par: Kissane, Connor, et autres
Publié: (2024)
AdaptiveK: Complexity-Driven Sparse Autoencoders for Interpretable Language Model Representations
par: Yao, Yifei, et autres
Publié: (2025)
par: Yao, Yifei, et autres
Publié: (2025)
IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
par: Li, Yuhan, et autres
Publié: (2026)
par: Li, Yuhan, et autres
Publié: (2026)
DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders
par: Wang, Xu, et autres
Publié: (2026)
par: Wang, Xu, et autres
Publié: (2026)
Interpretable and Steerable Concept Bottleneck Sparse Autoencoders
par: Kulkarni, Akshay, et autres
Publié: (2025)
par: Kulkarni, Akshay, et autres
Publié: (2025)
Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
par: Lehn-Schiøler, William, et autres
Publié: (2026)
par: Lehn-Schiøler, William, et autres
Publié: (2026)
Mechanistic Interpretability of Code Correctness in LLMs via Sparse Autoencoders
par: Tahimic, Kriz, et autres
Publié: (2025)
par: Tahimic, Kriz, et autres
Publié: (2025)
Interpreting and Steering Protein Language Models through Sparse Autoencoders
par: Garcia, Edith Natalia Villegas, et autres
Publié: (2025)
par: Garcia, Edith Natalia Villegas, et autres
Publié: (2025)
Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders
par: Paek, Nathan, et autres
Publié: (2025)
par: Paek, Nathan, et autres
Publié: (2025)
Step-Level Sparse Autoencoder for Reasoning Process Interpretation
par: Yang, Xuan, et autres
Publié: (2026)
par: Yang, Xuan, et autres
Publié: (2026)
Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control
par: Makelov, Aleksandar, et autres
Publié: (2024)
par: Makelov, Aleksandar, et autres
Publié: (2024)
Model Unlearning via Sparse Autoencoder Subspace Guided Projections
par: Wang, Xu, et autres
Publié: (2025)
par: Wang, Xu, et autres
Publié: (2025)
Interpretable Company Similarity with Sparse Autoencoders
par: Molinari, Marco, et autres
Publié: (2024)
par: Molinari, Marco, et autres
Publié: (2024)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
par: Wang, Haoxiang, et autres
Publié: (2024)
par: Wang, Haoxiang, et autres
Publié: (2024)
Residualized Temporal Sparse Autoencoders for Interpreting Diffusion Models
par: Yeung, Calvin, et autres
Publié: (2026)
par: Yeung, Calvin, et autres
Publié: (2026)
Interpreting CLIP with Hierarchical Sparse Autoencoders
par: Zaigrajew, Vladimir, et autres
Publié: (2025)
par: Zaigrajew, Vladimir, et autres
Publié: (2025)
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
par: Cywiński, Bartosz, et autres
Publié: (2025)
par: Cywiński, Bartosz, et autres
Publié: (2025)
SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability
par: Karvonen, Adam, et autres
Publié: (2025)
par: Karvonen, Adam, et autres
Publié: (2025)
Group Equivariance Meets Mechanistic Interpretability: Equivariant Sparse Autoencoders
par: Erdogan, Ege, et autres
Publié: (2025)
par: Erdogan, Ege, et autres
Publié: (2025)
Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
par: Ye, Mengyu, et autres
Publié: (2025)
par: Ye, Mengyu, et autres
Publié: (2025)
Sparse Autoencoders for Sequential Recommendation Models: Interpretation and Flexible Control
par: Klenitskiy, Anton, et autres
Publié: (2025)
par: Klenitskiy, Anton, et autres
Publié: (2025)
Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment
par: Thasarathan, Harrish, et autres
Publié: (2025)
par: Thasarathan, Harrish, et autres
Publié: (2025)
Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders
par: Marks, Luke, et autres
Publié: (2024)
par: Marks, Luke, et autres
Publié: (2024)
Interpreting CFD Surrogates through Sparse Autoencoders
par: Hu, Yeping, et autres
Publié: (2025)
par: Hu, Yeping, et autres
Publié: (2025)
Mechanistic Interpretability with Sparse Autoencoder Neural Operators
par: Tolooshams, Bahareh, et autres
Publié: (2025)
par: Tolooshams, Bahareh, et autres
Publié: (2025)
Kronecker Factorization Improves Efficiency and Interpretability of Sparse Autoencoders
par: Kurochkin, Vadim, et autres
Publié: (2025)
par: Kurochkin, Vadim, et autres
Publié: (2025)
Unlocking the Address Book: Dissecting the Sparse Semantic Structure of LLM Key-Value Caches via Sparse Autoencoders
par: Ma, Qingsen, et autres
Publié: (2025)
par: Ma, Qingsen, et autres
Publié: (2025)
Intelligent System for Automated Molecular Patent Infringement Assessment
par: Shi, Yaorui, et autres
Publié: (2024)
par: Shi, Yaorui, et autres
Publié: (2024)
Towards Interpretable Protein Structure Prediction with Sparse Autoencoders
par: Parsan, Nithin, et autres
Publié: (2025)
par: Parsan, Nithin, et autres
Publié: (2025)
InterPLM: Discovering Interpretable Features in Protein Language Models via Sparse Autoencoders
par: Simon, Elana, et autres
Publié: (2024)
par: Simon, Elana, et autres
Publié: (2024)
MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs
par: Zhao, Guojiang, et autres
Publié: (2025)
par: Zhao, Guojiang, et autres
Publié: (2025)
Resurrecting the Salmon: Rethinking Mechanistic Interpretability with Domain-Specific Sparse Autoencoders
par: O'Neill, Charles, et autres
Publié: (2025)
par: O'Neill, Charles, et autres
Publié: (2025)
XNNTab -- Interpretable Neural Networks for Tabular Data using Sparse Autoencoders
par: Elhadri, Khawla, et autres
Publié: (2025)
par: Elhadri, Khawla, et autres
Publié: (2025)
PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders
par: Frikha, Ahmed, et autres
Publié: (2025)
par: Frikha, Ahmed, et autres
Publié: (2025)
Documents similaires
-
Route Sparse Autoencoder to Interpret Large Language Models
par: Shi, Wei, et autres
Publié: (2025) -
SAFER: Probing Safety in Reward Models with Sparse Autoencoder
par: Shi, Wei, et autres
Publié: (2025) -
Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling
par: Luo, Yanchen, et autres
Publié: (2025) -
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
par: Li, Sihang, et autres
Publié: (2024) -
Preference Instability in Reward Models: Detection and Mitigation via Sparse Autoencoders
par: Liu, Shunchang, et autres
Publié: (2026)