Salvato in:
| Autori principali: | Levy, Amit Arnold, Geva, Mor |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2410.11781 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations
di: Huang, Jing, et al.
Pubblicazione: (2024)
di: Huang, Jing, et al.
Pubblicazione: (2024)
Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models
di: Ghandeharioun, Asma, et al.
Pubblicazione: (2024)
di: Ghandeharioun, Asma, et al.
Pubblicazione: (2024)
Constructing Interpretable Features from Compositional Neuron Groups
di: Shafran, Or, et al.
Pubblicazione: (2025)
di: Shafran, Or, et al.
Pubblicazione: (2025)
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
di: Katz, Shahar, et al.
Pubblicazione: (2024)
di: Katz, Shahar, et al.
Pubblicazione: (2024)
Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts
di: Ahrac, Sagi, et al.
Pubblicazione: (2026)
di: Ahrac, Sagi, et al.
Pubblicazione: (2026)
Mechanistically Interpretable Neural Encoding Reveals Fine-Grained Functional Selectivity in Human Visual Cortex
di: Grosbard, Idan Daniel, et al.
Pubblicazione: (2026)
di: Grosbard, Idan Daniel, et al.
Pubblicazione: (2026)
Towards Interpreting Visual Information Processing in Vision-Language Models
di: Neo, Clement, et al.
Pubblicazione: (2024)
di: Neo, Clement, et al.
Pubblicazione: (2024)
Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions
di: Parmar, Mihir, et al.
Pubblicazione: (2022)
di: Parmar, Mihir, et al.
Pubblicazione: (2022)
Inferring Functionality of Attention Heads from their Parameters
di: Elhelo, Amit, et al.
Pubblicazione: (2024)
di: Elhelo, Amit, et al.
Pubblicazione: (2024)
On Encoding Matrices using Quantum Circuits
di: Yosef, Liron Mor, et al.
Pubblicazione: (2025)
di: Yosef, Liron Mor, et al.
Pubblicazione: (2025)
Comparison of Autoencoder Encodings for ECG Representation in Downstream Prediction Tasks
di: Harvey, Christopher J., et al.
Pubblicazione: (2024)
di: Harvey, Christopher J., et al.
Pubblicazione: (2024)
When Can Transformers Count to n?
di: Yehudai, Gilad, et al.
Pubblicazione: (2024)
di: Yehudai, Gilad, et al.
Pubblicazione: (2024)
Estimating Knowledge in Large Language Models Without Generating a Single Token
di: Gottesman, Daniela, et al.
Pubblicazione: (2024)
di: Gottesman, Daniela, et al.
Pubblicazione: (2024)
Large Language Models Encode Semantics and Alignment in Linearly Separable Representations
di: Saglam, Baturay, et al.
Pubblicazione: (2025)
di: Saglam, Baturay, et al.
Pubblicazione: (2025)
An Analytical Model for Overparameterized Learning Under Class Imbalance
di: Mor, Eliav, et al.
Pubblicazione: (2025)
di: Mor, Eliav, et al.
Pubblicazione: (2025)
Blurred Encoding for Trajectory Representation Learning
di: Zhou, Silin, et al.
Pubblicazione: (2025)
di: Zhou, Silin, et al.
Pubblicazione: (2025)
Transpose Attack: Stealing Datasets with Bidirectional Training
di: Amit, Guy, et al.
Pubblicazione: (2023)
di: Amit, Guy, et al.
Pubblicazione: (2023)
Data-driven Circuit Discovery for Interpretability of Language Models
di: Rai, Daking, et al.
Pubblicazione: (2026)
di: Rai, Daking, et al.
Pubblicazione: (2026)
Eliciting Textual Descriptions from Representations of Continuous Prompts
di: Ramati, Dana, et al.
Pubblicazione: (2024)
di: Ramati, Dana, et al.
Pubblicazione: (2024)
On the Power of Randomization in Fair Classification and Representation
di: Agarwal, Sushant, et al.
Pubblicazione: (2024)
di: Agarwal, Sushant, et al.
Pubblicazione: (2024)
Pre-trained Language Models Learn Remarkably Accurate Representations of Numbers
di: Kadlčík, Marek, et al.
Pubblicazione: (2025)
di: Kadlčík, Marek, et al.
Pubblicazione: (2025)
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?
di: Yona, Gal, et al.
Pubblicazione: (2024)
di: Yona, Gal, et al.
Pubblicazione: (2024)
Group Representational Position Encoding
di: Zhang, Yifan, et al.
Pubblicazione: (2025)
di: Zhang, Yifan, et al.
Pubblicazione: (2025)
Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation
di: Messina, Pablo, et al.
Pubblicazione: (2024)
di: Messina, Pablo, et al.
Pubblicazione: (2024)
The Condition Number as a Scale-Invariant Proxy for Information Encoding in Neural Units
di: Ludwig, Oswaldo
Pubblicazione: (2025)
di: Ludwig, Oswaldo
Pubblicazione: (2025)
Physics Encoded Blocks in Residual Neural Network Architectures for Digital Twin Models
di: Zia, Muhammad Saad, et al.
Pubblicazione: (2024)
di: Zia, Muhammad Saad, et al.
Pubblicazione: (2024)
Convergent Evolution: How Different Language Models Learn Similar Number Representations
di: Fu, Deqing, et al.
Pubblicazione: (2026)
di: Fu, Deqing, et al.
Pubblicazione: (2026)
Semimage: HSV-Based Semantic Image Encoding for Disentangled Text Representation
di: Zare, Mohammad
Pubblicazione: (2025)
di: Zare, Mohammad
Pubblicazione: (2025)
Evaluating Large Language Models for Gait Classification Using Text-Encoded Kinematic Waveforms
di: Dindorf, Carlo, et al.
Pubblicazione: (2026)
di: Dindorf, Carlo, et al.
Pubblicazione: (2026)
Transferability Ranking of Adversarial Examples
di: Levy, Mosh, et al.
Pubblicazione: (2022)
di: Levy, Mosh, et al.
Pubblicazione: (2022)
LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling
di: Li, Xin, et al.
Pubblicazione: (2024)
di: Li, Xin, et al.
Pubblicazione: (2024)
Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features
di: Xu, Kaichen, et al.
Pubblicazione: (2025)
di: Xu, Kaichen, et al.
Pubblicazione: (2025)
AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies
di: Sharma, Amit
Pubblicazione: (2025)
di: Sharma, Amit
Pubblicazione: (2025)
Dataset Distillation Efficiently Encodes Low-Dimensional Representations from Gradient-Based Learning of Non-Linear Tasks
di: Kinoshita, Yuri, et al.
Pubblicazione: (2026)
di: Kinoshita, Yuri, et al.
Pubblicazione: (2026)
Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning
di: Harmanani, Mohamed, et al.
Pubblicazione: (2026)
di: Harmanani, Mohamed, et al.
Pubblicazione: (2026)
Emergent Stack Representations in Modeling Counter Languages Using Transformers
di: Tiwari, Utkarsh, et al.
Pubblicazione: (2025)
di: Tiwari, Utkarsh, et al.
Pubblicazione: (2025)
Detecting (Un)answerability in Large Language Models with Linear Directions
di: Lavi, Maor Juliet, et al.
Pubblicazione: (2025)
di: Lavi, Maor Juliet, et al.
Pubblicazione: (2025)
Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context
di: Gur-Arieh, Yoav, et al.
Pubblicazione: (2025)
di: Gur-Arieh, Yoav, et al.
Pubblicazione: (2025)
Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift
di: Pandey, Amit
Pubblicazione: (2025)
di: Pandey, Amit
Pubblicazione: (2025)
Encoding Agent Trajectories as Representations with Sequence Transformers
di: Tsiligkaridis, Athanasios, et al.
Pubblicazione: (2024)
di: Tsiligkaridis, Athanasios, et al.
Pubblicazione: (2024)
Documenti analoghi
-
RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations
di: Huang, Jing, et al.
Pubblicazione: (2024) -
Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models
di: Ghandeharioun, Asma, et al.
Pubblicazione: (2024) -
Constructing Interpretable Features from Compositional Neuron Groups
di: Shafran, Or, et al.
Pubblicazione: (2025) -
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
di: Katz, Shahar, et al.
Pubblicazione: (2024) -
Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts
di: Ahrac, Sagi, et al.
Pubblicazione: (2026)