:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Musil, Tomáš, Mareček, David
Format:	Preprint
Publié:	2024
Sujets:	Computation and Language
Accès en ligne:	https://arxiv.org/abs/2409.19813
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test
par: Musil, Tomáš, et autres
Publié: (2022)

Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation
par: Limisiewicz, Tomasz, et autres
Publié: (2025)

Debiasing Algorithm through Model Adaptation
par: Limisiewicz, Tomasz, et autres
Publié: (2023)

Suppressing Final Layer Hidden State Jumps in Transformer Pretraining
par: Shibata, Keigo, et autres
Publié: (2026)

States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
par: Chen, Junhao, et autres
Publié: (2024)

Teaching LLMs at Charles University: Assignments and Activities
par: Helcl, Jindřich, et autres
Publié: (2024)

Mixture of Hidden-Dimensions Transformer
par: Chen, Yilong, et autres
Publié: (2024)

The Hidden Space of Transformer Language Adapters
par: Alabi, Jesujoba O., et autres
Publié: (2024)

From Associations to Activations: Comparing Behavioral and Hidden-State Semantic Geometry in LLMs
par: Schiekiera, Louis, et autres
Publié: (2026)

LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States
par: Zhang, Yeqin, et autres
Publié: (2026)

Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders
par: Chanin, David, et autres
Publié: (2025)

HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States
par: Jiang, Yilei, et autres
Publié: (2025)

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
par: Park, Jihyung, et autres
Publié: (2026)

Mechanistic Interpretability of Binary and Ternary Transformers
par: Li, Jason
Publié: (2024)

Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
par: Pal, Koyena, et autres
Publié: (2023)

What Am I Missing? Question-Answering as Hidden State Probing
par: Luo, Chu Fei, et autres
Publié: (2026)

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing
par: Wei, Kai, et autres
Publié: (2026)

Do LLMs Know about Hallucination? An Empirical Investigation of LLM's Hidden States
par: Duan, Hanyu, et autres
Publié: (2024)

CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
par: Liang, Zhenwen, et autres
Publié: (2025)

Evolutionary Feature-wise Thresholding for Binary Representation of NLP Embeddings
par: Sinha, Soumen, et autres
Publié: (2025)

Beyond Semantics: How Temporal Biases Shape Retrieval in Transformer and State-Space Models
par: Bajaj, Anooshka, et autres
Publié: (2025)

Improving Interpretability of Lexical Semantic Change with Neurobiological Features
par: Oda, Kohei, et autres
Publié: (2026)

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
par: Razzhigaev, Anton, et autres
Publié: (2025)

Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning
par: Yang, Haolin, et autres
Publié: (2025)

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
par: Mercier, Alexandre Le, et autres
Publié: (2026)

Semformer: Transformer Language Models with Semantic Planning
par: Yin, Yongjing, et autres
Publié: (2024)

TRACE for Tracking the Emergence of Semantic Representations in Transformers
par: Aljaafari, Nura, et autres
Publié: (2025)

Explicit Grammar Semantic Feature Fusion for Robust Text Classification
par: Sultana, Azrin, et autres
Publié: (2026)

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs
par: Yang, Rui, et autres
Publié: (2024)

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
par: Chanin, David, et autres
Publié: (2024)

Monitoring Transformative Technological Convergence Through LLM-Extracted Semantic Entity Triple Graphs
par: Sternfeld, Alexander, et autres
Publié: (2025)

Inside-Out: Hidden Factual Knowledge in LLMs
par: Gekhman, Zorik, et autres
Publié: (2025)

LLM Hallucination Detection: A Fast Fourier Transform Method Based on Hidden Layer Temporal Signals
par: Li, Jinxin, et autres
Publié: (2025)

Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach
par: Zhang, Chong, et autres
Publié: (2025)

When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?
par: Liu, Tianyu, et autres
Publié: (2026)

Comateformer: Combined Attention Transformer for Semantic Sentence Matching
par: Li, Bo, et autres
Publié: (2024)

Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features
par: Bu, Mengyu, et autres
Publié: (2024)

CSF: Contrastive Semantic Features for Direct Multilingual Sign Language Generation
par: Bao, Tran Sy
Publié: (2026)

Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
par: Boggust, Angie, et autres
Publié: (2025)

Transformers are Multi-State RNNs
par: Oren, Matanel, et autres
Publié: (2024)