:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Sun, Libo, Harn, Po-wei, He, Peixiong, Qin, Xiao
Format:	Preprint
Publié:	2026
Sujets:	Machine Learning Computation and Language
Accès en ligne:	https://arxiv.org/abs/2605.14292
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression
par: Sun, Libo, et autres
Publié: (2026)

When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing
par: Sun, Libo, et autres
Publié: (2026)

KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing
par: Yang, Yifei, et autres
Publié: (2024)

RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression
par: Behnam, Payman, et autres
Publié: (2025)

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs
par: Wang, Ke, et autres
Publié: (2025)

RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction
par: Liu, Sihao, et autres
Publié: (2026)

MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection
par: Lin, Bokai, et autres
Publié: (2024)

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
par: Qin, Haotong, et autres
Publié: (2024)

xKV: Cross-Layer KV-Cache Compression via Aligned Singular Vector Extraction
par: Chang, Chi-Chih, et autres
Publié: (2025)

ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference
par: Sun, Hanshi, et autres
Publié: (2024)

MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache
par: Sharma, Akshat, et autres
Publié: (2024)

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs
par: Xu, Xiao, et autres
Publié: (2025)

Sinkhorn Distance Minimization for Knowledge Distillation
par: Cui, Xiao, et autres
Publié: (2024)

Transactional Attention: Semantic Sponsorship for KV-Cache Retention
par: Basu, Abhinaba
Publié: (2026)

ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
par: Datta, Debajyoti, et autres
Publié: (2026)

SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching
par: Zhu, Yuxuan, et autres
Publié: (2025)

In-context KV-Cache Eviction for LLMs via Attention-Gate
par: Zeng, Zihao, et autres
Publié: (2024)

HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs
par: Yang, Dongquan, et autres
Publié: (2025)

FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration
par: Jo, Dongwon, et autres
Publié: (2025)

ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution
par: Dong, Zican, et autres
Publié: (2026)

Crystal-KV: Efficient KV Cache Management for Chain-of-Thought LLMs via Answer-First Principle
par: Wang, Zihan, et autres
Publié: (2026)

Large Language Models as Interpolated and Extrapolated Event Predictors
par: Zhang, Libo, et autres
Publié: (2024)

EvolKV: Evolutionary KV Cache Compression for LLM Inference
par: Yu, Bohan, et autres
Publié: (2025)

Graph-of-Causal Evolution: Challenging Chain-of-Model for Reasoning
par: Wang, Libo
Publié: (2025)

Wormhole Memory: A Rubik's Cube for Cross-Dialogue Retrieval
par: Wang, Libo
Publié: (2025)

ParisKV: Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs
par: Qi, Yanlin, et autres
Publié: (2026)

RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
par: Su, Zunhai, et autres
Publié: (2025)

EliteKV: Scalable KV Cache Compression via RoPE Frequency Selection and Joint Low-Rank Projection
par: Zhou, Yuhao, et autres
Publié: (2025)

Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention
par: Liao, Huanxuan, et autres
Publié: (2025)

SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models
par: He, Jinghan, et autres
Publié: (2024)

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
par: Xu, Xiao, et autres
Publié: (2024)

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference
par: Liu, Guangda, et autres
Publié: (2025)

Residual-Mass Accounting for Partial-KV Decoding
par: Hoshi, Yasuto, et autres
Publié: (2026)

CAOTE: KV Cache Selection for LLMs via Attention Output Error-Based Token Eviction
par: Goel, Raghavv, et autres
Publié: (2025)

OjaKV: Context-Aware Online Low-Rank KV Cache Compression
par: Zhu, Yuxuan, et autres
Publié: (2025)

SPHERICAL KV: Angle-Domain Attention and Rate-Distortion Retention for Efficient Long-Context Inference
par: Chauhan, Anay, et autres
Publié: (2026)

EntmaxKV: Support-Aware Decoding for Entmax Attention
par: Duarte, Gonçalo, et autres
Publié: (2026)

Inference-Time Hyper-Scaling with KV Cache Compression
par: Łańcucki, Adrian, et autres
Publié: (2025)

Sparse Attention across Multiple-context KV Cache
par: Cao, Ziyi, et autres
Publié: (2025)

KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
par: Tian, Yuxuan, et autres
Publié: (2025)