:: Library Catalog

Imagen de Portada

Guardado en:

Detalles Bibliográficos
Autores principales:	Guang, Jiahui, Zhu, Yingjie, Gao, Cuiyun, Wang, Haiyan, Li, Jing, Shao, Di, Gu, Zhaoquan
Formato:	Preprint
Publicado:	2026
Materias:	Computation and Language Artificial Intelligence
Acceso en línea:	https://arxiv.org/abs/2605.15687
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Ejemplares similares

PPU-Bench:Real World Benchmark for Personalized Partial Unlearning in Vision Language Models
por: Guang, Jiahui, et al.
Publicado: (2026)

Fast Think-on-Graph: Wider, Deeper and Faster Reasoning of Large Language Model on Knowledge Graph
por: Liang, Xujian, et al.
Publicado: (2025)

On Effects of Steering Latent Representation for Large Language Model Unlearning
por: Huu-Tien, Dang, et al.
Publicado: (2024)

Interpretable Steering of Large Language Models with Feature Guided Activation Additions
por: Soo, Samuel, et al.
Publicado: (2025)

OFFSIDE: Benchmarking Unlearning Misinformation in Multimodal Large Language Models
por: Zheng, Hao, et al.
Publicado: (2025)

Towards Reasoning-Preserving Unlearning in Multimodal Large Language Models
por: Li, Hongji, et al.
Publicado: (2025)

Extracting Unlearned Information from LLMs with Activation Steering
por: Seyitoğlu, Atakan, et al.
Publicado: (2024)

Steering When Necessary: Flexible Steering Large Language Models with Backtracking
por: Cheng, Zifeng, et al.
Publicado: (2025)

MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models
por: Huo, Jiahao, et al.
Publicado: (2025)

Steering Large Language Models to Evaluate and Amplify Creativity
por: Olson, Matthew Lyle, et al.
Publicado: (2024)

Activation Scaling for Steering and Interpreting Language Models
por: Stoehr, Niklas, et al.
Publicado: (2024)

A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models
por: Geng, Jiahui, et al.
Publicado: (2025)

Steering Multimodal Large Language Models Decoding for Context-Aware Safety
por: Liu, Zheyuan, et al.
Publicado: (2025)

Cross-Lingual Activation Steering for Multilingual Language Models
por: Pokharel, Rhitabrat, et al.
Publicado: (2026)

Multi-property Steering of Large Language Models with Dynamic Activation Composition
por: Scalena, Daniel, et al.
Publicado: (2024)

ContextFocus: Activation Steering for Contextual Faithfulness in Large Language Models
por: Anand, Nikhil, et al.
Publicado: (2026)

Hierarchical Federated Unlearning for Large Language Models
por: Zhong, Yisheng, et al.
Publicado: (2025)

CodeVisionary: An Agent-based Framework for Evaluating Large Language Models in Code Generation
por: Wang, Xinchen, et al.
Publicado: (2025)

Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering
por: Zhao, Haiyan, et al.
Publicado: (2025)

Multimodal Large Language Models to Support Real-World Fact-Checking
por: Geng, Jiahui, et al.
Publicado: (2024)

MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering
por: Ding, Chenlu, et al.
Publicado: (2025)

Search-Based LLMs for Code Optimization
por: Gao, Shuzheng, et al.
Publicado: (2024)

Machine Unlearning in Large Language Models
por: Gundavarapu, Saaketh Koundinya, et al.
Publicado: (2024)

Endogenous Resistance to Activation Steering in Language Models
por: McKenzie, Alex, et al.
Publicado: (2026)

SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models
por: He, Zirui, et al.
Publicado: (2025)

Towards Localized and Disentangled Knowledge Editing for Multimodal Large Language Models
por: Gu, Leijiang, et al.
Publicado: (2026)

Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment
por: Wang, Haoran, et al.
Publicado: (2023)

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
por: Xu, Fengli, et al.
Publicado: (2025)

Large Language Model Unlearning
por: Yao, Yuanshun, et al.
Publicado: (2023)

Automating Steering for Safe Multimodal Large Language Models
por: Wu, Lyucheng, et al.
Publicado: (2025)

SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning
por: Xu, Tianyang, et al.
Publicado: (2025)

Compositional Steering of Large Language Models with Steering Tokens
por: Radevski, Gorjan, et al.
Publicado: (2026)

Understanding the Dilemma of Unlearning for Large Language Models
por: Zhang, Qingjie, et al.
Publicado: (2025)

AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
por: Chen, Zixin, et al.
Publicado: (2025)

Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering
por: Zhang, Qingru, et al.
Publicado: (2024)

Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations
por: Zhu, Jian-Qiao, et al.
Publicado: (2025)

BILLY: Steering Large Language Models via Merging Persona Vectors for Creative Generation
por: Pai, Tsung-Min, et al.
Publicado: (2025)

Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models
por: Gu, Kang, et al.
Publicado: (2024)

Offset Unlearning for Large Language Models
por: Huang, James Y., et al.
Publicado: (2024)

Steering Awareness: Detecting Activation Steering from Within
por: Rivera, Joshua Fonseca, et al.
Publicado: (2025)