:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	He, Zhengfu, Ge, Xuyang, Tang, Qiong, Sun, Tianxiang, Cheng, Qinyuan, Qiu, Xipeng
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2402.12201
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures
di: Wang, Junxuan, et al.
Pubblicazione: (2024)

Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning
di: Wang, Junxuan, et al.
Pubblicazione: (2025)

Automatically Identifying Local and Global Circuits with Linear Computation Graphs
di: Ge, Xuyang, et al.
Pubblicazione: (2024)

A Distributional View for Visual Mechanistic Interpretability: KL-Minimal Soft-Constraint Principle
di: Zhou, Guancheng, et al.
Pubblicazione: (2026)

Agent Alignment in Evolving Social Norms
di: Li, Shimin, et al.
Pubblicazione: (2024)

Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition
di: He, Zhengfu, et al.
Pubblicazione: (2025)

Evolution of Concepts in Language Model Pre-Training
di: Ge, Xuyang, et al.
Pubblicazione: (2025)

Can AI Assistants Know What They Don't Know?
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)

Tracing the Thought of a Grandmaster-level Chess-Playing Transformer
di: Lin, Rui, et al.
Pubblicazione: (2026)

LLM can Achieve Self-Regulation via Hyperparameter Aware Generation
di: Wang, Siyin, et al.
Pubblicazione: (2024)

In-Memory Learning: A Declarative Learning Framework for Large Language Models
di: Wang, Bo, et al.
Pubblicazione: (2024)

Automatically Finding Rule-Based Neurons in OthelloGPT
di: Singh, Aditya, et al.
Pubblicazione: (2025)

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2025)

DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning
di: Wang, Xinghao, et al.
Pubblicazione: (2024)

Dynamic and Generalizable Process Reward Modeling
di: Yin, Zhangyue, et al.
Pubblicazione: (2025)

MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability
di: Khadka, Barsat
Pubblicazione: (2026)

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees
di: Hadad, Itamar, et al.
Pubblicazione: (2026)

Unified Active Retrieval for Retrieval Augmented Generation
di: Cheng, Qinyuan, et al.
Pubblicazione: (2024)

Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders
di: He, Zhengfu, et al.
Pubblicazione: (2024)

Othello is Solved
di: Takizawa, Hiroki
Pubblicazione: (2023)

A Unified Theory of Sparse Dictionary Learning in Mechanistic Interpretability: Piecewise Biconvexity and Spurious Minima
di: Tang, Yiming, et al.
Pubblicazione: (2025)

How to Mitigate Overfitting in Weak-to-strong Generalization?
di: Shi, Junhao, et al.
Pubblicazione: (2025)

Scaling Laws for Fact Memorization of Large Language Models
di: Lu, Xingyu, et al.
Pubblicazione: (2024)

Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability
di: Nainani, Jatin
Pubblicazione: (2024)

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models
di: Yin, Zhangyue, et al.
Pubblicazione: (2024)

Othello entre gêneros
di: ROBERTO MOREIRA
Pubblicazione: (2008)

La indianización de Othello
di: Genoveva Castro
Pubblicazione: (2012)

DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction
di: Wu, John, et al.
Pubblicazione: (2024)

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
di: Wang, Siyin, et al.
Pubblicazione: (2025)

How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability
di: García-Carrasco, Jorge, et al.
Pubblicazione: (2024)

RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization
di: Zhiyuan, Zeng, et al.
Pubblicazione: (2025)

LLatrieval: LLM-Verified Retrieval for Verifiable Generation
di: Li, Xiaonan, et al.
Pubblicazione: (2023)

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
di: Ye, Jiasheng, et al.
Pubblicazione: (2024)

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
di: Zeng, Zhiyuan, et al.
Pubblicazione: (2024)

Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability
di: Nainani, Jatin, et al.
Pubblicazione: (2024)

Revisiting the Othello World Model Hypothesis
di: Yuan, Yifei, et al.
Pubblicazione: (2025)

Mechanistic Interpretability of GPT-like Models on Summarization Tasks
di: Mishra, Anurag
Pubblicazione: (2025)

R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning
di: Li, Yuan, et al.
Pubblicazione: (2025)

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
di: Wang, Yikun, et al.
Pubblicazione: (2025)

CodecBench: A Comprehensive Benchmark for Acoustic and Semantic Evaluation
di: Deng, Ruifan, et al.
Pubblicazione: (2025)