Enregistré dans:
| Auteurs principaux: | Musil, Tomáš, Mareček, David |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2409.19813 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test
par: Musil, Tomáš, et autres
Publié: (2022)
par: Musil, Tomáš, et autres
Publié: (2022)
Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation
par: Limisiewicz, Tomasz, et autres
Publié: (2025)
par: Limisiewicz, Tomasz, et autres
Publié: (2025)
Debiasing Algorithm through Model Adaptation
par: Limisiewicz, Tomasz, et autres
Publié: (2023)
par: Limisiewicz, Tomasz, et autres
Publié: (2023)
Suppressing Final Layer Hidden State Jumps in Transformer Pretraining
par: Shibata, Keigo, et autres
Publié: (2026)
par: Shibata, Keigo, et autres
Publié: (2026)
States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
par: Chen, Junhao, et autres
Publié: (2024)
par: Chen, Junhao, et autres
Publié: (2024)
Teaching LLMs at Charles University: Assignments and Activities
par: Helcl, Jindřich, et autres
Publié: (2024)
par: Helcl, Jindřich, et autres
Publié: (2024)
Mixture of Hidden-Dimensions Transformer
par: Chen, Yilong, et autres
Publié: (2024)
par: Chen, Yilong, et autres
Publié: (2024)
The Hidden Space of Transformer Language Adapters
par: Alabi, Jesujoba O., et autres
Publié: (2024)
par: Alabi, Jesujoba O., et autres
Publié: (2024)
From Associations to Activations: Comparing Behavioral and Hidden-State Semantic Geometry in LLMs
par: Schiekiera, Louis, et autres
Publié: (2026)
par: Schiekiera, Louis, et autres
Publié: (2026)
LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States
par: Zhang, Yeqin, et autres
Publié: (2026)
par: Zhang, Yeqin, et autres
Publié: (2026)
Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders
par: Chanin, David, et autres
Publié: (2025)
par: Chanin, David, et autres
Publié: (2025)
HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States
par: Jiang, Yilei, et autres
Publié: (2025)
par: Jiang, Yilei, et autres
Publié: (2025)
AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue
par: Park, Jihyung, et autres
Publié: (2026)
par: Park, Jihyung, et autres
Publié: (2026)
Mechanistic Interpretability of Binary and Ternary Transformers
par: Li, Jason
Publié: (2024)
par: Li, Jason
Publié: (2024)
Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
par: Pal, Koyena, et autres
Publié: (2023)
par: Pal, Koyena, et autres
Publié: (2023)
What Am I Missing? Question-Answering as Hidden State Probing
par: Luo, Chu Fei, et autres
Publié: (2026)
par: Luo, Chu Fei, et autres
Publié: (2026)
Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing
par: Wei, Kai, et autres
Publié: (2026)
par: Wei, Kai, et autres
Publié: (2026)
Do LLMs Know about Hallucination? An Empirical Investigation of LLM's Hidden States
par: Duan, Hanyu, et autres
Publié: (2024)
par: Duan, Hanyu, et autres
Publié: (2024)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering
par: Liang, Zhenwen, et autres
Publié: (2025)
par: Liang, Zhenwen, et autres
Publié: (2025)
Evolutionary Feature-wise Thresholding for Binary Representation of NLP Embeddings
par: Sinha, Soumen, et autres
Publié: (2025)
par: Sinha, Soumen, et autres
Publié: (2025)
Beyond Semantics: How Temporal Biases Shape Retrieval in Transformer and State-Space Models
par: Bajaj, Anooshka, et autres
Publié: (2025)
par: Bajaj, Anooshka, et autres
Publié: (2025)
Improving Interpretability of Lexical Semantic Change with Neurobiological Features
par: Oda, Kohei, et autres
Publié: (2026)
par: Oda, Kohei, et autres
Publié: (2026)
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
par: Razzhigaev, Anton, et autres
Publié: (2025)
par: Razzhigaev, Anton, et autres
Publié: (2025)
Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning
par: Yang, Haolin, et autres
Publié: (2025)
par: Yang, Haolin, et autres
Publié: (2025)
CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks
par: Mercier, Alexandre Le, et autres
Publié: (2026)
par: Mercier, Alexandre Le, et autres
Publié: (2026)
Semformer: Transformer Language Models with Semantic Planning
par: Yin, Yongjing, et autres
Publié: (2024)
par: Yin, Yongjing, et autres
Publié: (2024)
TRACE for Tracking the Emergence of Semantic Representations in Transformers
par: Aljaafari, Nura, et autres
Publié: (2025)
par: Aljaafari, Nura, et autres
Publié: (2025)
Explicit Grammar Semantic Feature Fusion for Robust Text Classification
par: Sultana, Azrin, et autres
Publié: (2026)
par: Sultana, Azrin, et autres
Publié: (2026)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs
par: Yang, Rui, et autres
Publié: (2024)
par: Yang, Rui, et autres
Publié: (2024)
A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
par: Chanin, David, et autres
Publié: (2024)
par: Chanin, David, et autres
Publié: (2024)
Monitoring Transformative Technological Convergence Through LLM-Extracted Semantic Entity Triple Graphs
par: Sternfeld, Alexander, et autres
Publié: (2025)
par: Sternfeld, Alexander, et autres
Publié: (2025)
Inside-Out: Hidden Factual Knowledge in LLMs
par: Gekhman, Zorik, et autres
Publié: (2025)
par: Gekhman, Zorik, et autres
Publié: (2025)
LLM Hallucination Detection: A Fast Fourier Transform Method Based on Hidden Layer Temporal Signals
par: Li, Jinxin, et autres
Publié: (2025)
par: Li, Jinxin, et autres
Publié: (2025)
Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach
par: Zhang, Chong, et autres
Publié: (2025)
par: Zhang, Chong, et autres
Publié: (2025)
When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?
par: Liu, Tianyu, et autres
Publié: (2026)
par: Liu, Tianyu, et autres
Publié: (2026)
Comateformer: Combined Attention Transformer for Semantic Sentence Matching
par: Li, Bo, et autres
Publié: (2024)
par: Li, Bo, et autres
Publié: (2024)
Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features
par: Bu, Mengyu, et autres
Publié: (2024)
par: Bu, Mengyu, et autres
Publié: (2024)
CSF: Contrastive Semantic Features for Direct Multilingual Sign Language Generation
par: Bao, Tran Sy
Publié: (2026)
par: Bao, Tran Sy
Publié: (2026)
Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
par: Boggust, Angie, et autres
Publié: (2025)
par: Boggust, Angie, et autres
Publié: (2025)
Transformers are Multi-State RNNs
par: Oren, Matanel, et autres
Publié: (2024)
par: Oren, Matanel, et autres
Publié: (2024)
Documents similaires
-
Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test
par: Musil, Tomáš, et autres
Publié: (2022) -
Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation
par: Limisiewicz, Tomasz, et autres
Publié: (2025) -
Debiasing Algorithm through Model Adaptation
par: Limisiewicz, Tomasz, et autres
Publié: (2023) -
Suppressing Final Layer Hidden State Jumps in Transformer Pretraining
par: Shibata, Keigo, et autres
Publié: (2026) -
States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
par: Chen, Junhao, et autres
Publié: (2024)