Salvato in:
| Autori principali: | He, Zhengfu, Ge, Xuyang, Tang, Qiong, Sun, Tianxiang, Cheng, Qinyuan, Qiu, Xipeng |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2402.12201 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures
di: Wang, Junxuan, et al.
Pubblicazione: (2024)
di: Wang, Junxuan, et al.
Pubblicazione: (2024)
Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning
di: Wang, Junxuan, et al.
Pubblicazione: (2025)
di: Wang, Junxuan, et al.
Pubblicazione: (2025)
Automatically Identifying Local and Global Circuits with Linear Computation Graphs
di: Ge, Xuyang, et al.
Pubblicazione: (2024)
di: Ge, Xuyang, et al.
Pubblicazione: (2024)
A Distributional View for Visual Mechanistic Interpretability: KL-Minimal Soft-Constraint Principle
di: Zhou, Guancheng, et al.
Pubblicazione: (2026)
di: Zhou, Guancheng, et al.
Pubblicazione: (2026)
Agent Alignment in Evolving Social Norms
di: Li, Shimin, et al.
Pubblicazione: (2024)
di: Li, Shimin, et al.
Pubblicazione: (2024)
Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition
di: He, Zhengfu, et al.
Pubblicazione: (2025)
di: He, Zhengfu, et al.
Pubblicazione: (2025)
Evolution of Concepts in Language Model Pre-Training
di: Ge, Xuyang, et al.
Pubblicazione: (2025)
di: Ge, Xuyang, et al.
Pubblicazione: (2025)
Can AI Assistants Know What They Don't Know?
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)
Tracing the Thought of a Grandmaster-level Chess-Playing Transformer
di: Lin, Rui, et al.
Pubblicazione: (2026)
di: Lin, Rui, et al.
Pubblicazione: (2026)
LLM can Achieve Self-Regulation via Hyperparameter Aware Generation
di: Wang, Siyin, et al.
Pubblicazione: (2024)
di: Wang, Siyin, et al.
Pubblicazione: (2024)
In-Memory Learning: A Declarative Learning Framework for Large Language Models
di: Wang, Bo, et al.
Pubblicazione: (2024)
di: Wang, Bo, et al.
Pubblicazione: (2024)
Automatically Finding Rule-Based Neurons in OthelloGPT
di: Singh, Aditya, et al.
Pubblicazione: (2025)
di: Singh, Aditya, et al.
Pubblicazione: (2025)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2025)
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2025)
DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning
di: Wang, Xinghao, et al.
Pubblicazione: (2024)
di: Wang, Xinghao, et al.
Pubblicazione: (2024)
Dynamic and Generalizable Process Reward Modeling
di: Yin, Zhangyue, et al.
Pubblicazione: (2025)
di: Yin, Zhangyue, et al.
Pubblicazione: (2025)
MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability
di: Khadka, Barsat
Pubblicazione: (2026)
di: Khadka, Barsat
Pubblicazione: (2026)
Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees
di: Hadad, Itamar, et al.
Pubblicazione: (2026)
di: Hadad, Itamar, et al.
Pubblicazione: (2026)
Unified Active Retrieval for Retrieval Augmented Generation
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders
di: He, Zhengfu, et al.
Pubblicazione: (2024)
di: He, Zhengfu, et al.
Pubblicazione: (2024)
Othello is Solved
di: Takizawa, Hiroki
Pubblicazione: (2023)
di: Takizawa, Hiroki
Pubblicazione: (2023)
A Unified Theory of Sparse Dictionary Learning in Mechanistic Interpretability: Piecewise Biconvexity and Spurious Minima
di: Tang, Yiming, et al.
Pubblicazione: (2025)
di: Tang, Yiming, et al.
Pubblicazione: (2025)
How to Mitigate Overfitting in Weak-to-strong Generalization?
di: Shi, Junhao, et al.
Pubblicazione: (2025)
di: Shi, Junhao, et al.
Pubblicazione: (2025)
Scaling Laws for Fact Memorization of Large Language Models
di: Lu, Xingyu, et al.
Pubblicazione: (2024)
di: Lu, Xingyu, et al.
Pubblicazione: (2024)
Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability
di: Nainani, Jatin
Pubblicazione: (2024)
di: Nainani, Jatin
Pubblicazione: (2024)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models
di: Yin, Zhangyue, et al.
Pubblicazione: (2024)
di: Yin, Zhangyue, et al.
Pubblicazione: (2024)
Othello entre gêneros
di: ROBERTO MOREIRA
Pubblicazione: (2008)
di: ROBERTO MOREIRA
Pubblicazione: (2008)
La indianización de Othello
di: Genoveva Castro
Pubblicazione: (2012)
di: Genoveva Castro
Pubblicazione: (2012)
DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction
di: Wu, John, et al.
Pubblicazione: (2024)
di: Wu, John, et al.
Pubblicazione: (2024)
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
di: Wang, Siyin, et al.
Pubblicazione: (2025)
di: Wang, Siyin, et al.
Pubblicazione: (2025)
How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability
di: García-Carrasco, Jorge, et al.
Pubblicazione: (2024)
di: García-Carrasco, Jorge, et al.
Pubblicazione: (2024)
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
di: Zhiyuan, Zeng, et al.
Pubblicazione: (2025)
di: Zhiyuan, Zeng, et al.
Pubblicazione: (2025)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation
di: Li, Xiaonan, et al.
Pubblicazione: (2023)
di: Li, Xiaonan, et al.
Pubblicazione: (2023)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
di: Ye, Jiasheng, et al.
Pubblicazione: (2024)
di: Ye, Jiasheng, et al.
Pubblicazione: (2024)
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2024)
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2024)
Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability
di: Nainani, Jatin, et al.
Pubblicazione: (2024)
di: Nainani, Jatin, et al.
Pubblicazione: (2024)
Revisiting the Othello World Model Hypothesis
di: Yuan, Yifei, et al.
Pubblicazione: (2025)
di: Yuan, Yifei, et al.
Pubblicazione: (2025)
Mechanistic Interpretability of GPT-like Models on Summarization Tasks
di: Mishra, Anurag
Pubblicazione: (2025)
di: Mishra, Anurag
Pubblicazione: (2025)
R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning
di: Li, Yuan, et al.
Pubblicazione: (2025)
di: Li, Yuan, et al.
Pubblicazione: (2025)
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
di: Wang, Yikun, et al.
Pubblicazione: (2025)
di: Wang, Yikun, et al.
Pubblicazione: (2025)
CodecBench: A Comprehensive Benchmark for Acoustic and Semantic Evaluation
di: Deng, Ruifan, et al.
Pubblicazione: (2025)
di: Deng, Ruifan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures
di: Wang, Junxuan, et al.
Pubblicazione: (2024) -
Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning
di: Wang, Junxuan, et al.
Pubblicazione: (2025) -
Automatically Identifying Local and Global Circuits with Linear Computation Graphs
di: Ge, Xuyang, et al.
Pubblicazione: (2024) -
A Distributional View for Visual Mechanistic Interpretability: KL-Minimal Soft-Constraint Principle
di: Zhou, Guancheng, et al.
Pubblicazione: (2026) -
Agent Alignment in Evolving Social Norms
di: Li, Shimin, et al.
Pubblicazione: (2024)