Staff View: :: Library Catalog

Saved in:

Bibliographic Details
Main Authors:	Liu, Weiqi, Miao, Yongliang, Zhao, Haiyan, Liu, Yanguang, Du, Mengnan
Format:	Preprint
Published:	2026
Subjects:	Computation and Language Machine Learning
Online Access:	https://arxiv.org/abs/2601.03671
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1866914238168039424
author	Liu, Weiqi Miao, Yongliang Zhao, Haiyan Liu, Yanguang Du, Mengnan
author_facet	Liu, Weiqi Miao, Yongliang Zhao, Haiyan Liu, Yanguang Du, Mengnan
contents	Neuron-level interpretation in large language models (LLMs) is fundamentally challenged by widespread polysemanticity, where individual neurons respond to multiple distinct semantic concepts. Existing single-pass interpretation methods struggle to faithfully capture such multi-concept behavior. In this work, we propose NeuronScope, a multi-agent framework that reformulates neuron interpretation as an iterative, activation-guided process. NeuronScope explicitly deconstructs neuron activations into atomic semantic components, clusters them into distinct semantic modes, and iteratively refines each explanation using neuron activation feedback. Experiments demonstrate that NeuronScope uncovers hidden polysemanticity and produces explanations with significantly higher activation correlation compared to single-pass baselines.
format	Preprint
id	arxiv_https___arxiv_org_abs_2601_03671
institution	arXiv
publishDate	2026
record_format	arxiv
spellingShingle	NeuronScope: A Multi-Agent Framework for Explaining Polysemantic Neurons in Language Models Liu, Weiqi Miao, Yongliang Zhao, Haiyan Liu, Yanguang Du, Mengnan Computation and Language Machine Learning Neuron-level interpretation in large language models (LLMs) is fundamentally challenged by widespread polysemanticity, where individual neurons respond to multiple distinct semantic concepts. Existing single-pass interpretation methods struggle to faithfully capture such multi-concept behavior. In this work, we propose NeuronScope, a multi-agent framework that reformulates neuron interpretation as an iterative, activation-guided process. NeuronScope explicitly deconstructs neuron activations into atomic semantic components, clusters them into distinct semantic modes, and iteratively refines each explanation using neuron activation feedback. Experiments demonstrate that NeuronScope uncovers hidden polysemanticity and produces explanations with significantly higher activation correlation compared to single-pass baselines.
title	NeuronScope: A Multi-Agent Framework for Explaining Polysemantic Neurons in Language Models
topic	Computation and Language Machine Learning
url	https://arxiv.org/abs/2601.03671

Similar Items