Enregistré dans:
| Auteurs principaux: | Sun, Libo, Harn, Po-wei, He, Peixiong, Qin, Xiao |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.14292 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression
par: Sun, Libo, et autres
Publié: (2026)
par: Sun, Libo, et autres
Publié: (2026)
When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing
par: Sun, Libo, et autres
Publié: (2026)
par: Sun, Libo, et autres
Publié: (2026)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing
par: Yang, Yifei, et autres
Publié: (2024)
par: Yang, Yifei, et autres
Publié: (2024)
RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression
par: Behnam, Payman, et autres
Publié: (2025)
par: Behnam, Payman, et autres
Publié: (2025)
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs
par: Wang, Ke, et autres
Publié: (2025)
par: Wang, Ke, et autres
Publié: (2025)
RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction
par: Liu, Sihao, et autres
Publié: (2026)
par: Liu, Sihao, et autres
Publié: (2026)
MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection
par: Lin, Bokai, et autres
Publié: (2024)
par: Lin, Bokai, et autres
Publié: (2024)
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
par: Qin, Haotong, et autres
Publié: (2024)
par: Qin, Haotong, et autres
Publié: (2024)
xKV: Cross-Layer KV-Cache Compression via Aligned Singular Vector Extraction
par: Chang, Chi-Chih, et autres
Publié: (2025)
par: Chang, Chi-Chih, et autres
Publié: (2025)
ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference
par: Sun, Hanshi, et autres
Publié: (2024)
par: Sun, Hanshi, et autres
Publié: (2024)
MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache
par: Sharma, Akshat, et autres
Publié: (2024)
par: Sharma, Akshat, et autres
Publié: (2024)
Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs
par: Xu, Xiao, et autres
Publié: (2025)
par: Xu, Xiao, et autres
Publié: (2025)
Sinkhorn Distance Minimization for Knowledge Distillation
par: Cui, Xiao, et autres
Publié: (2024)
par: Cui, Xiao, et autres
Publié: (2024)
Transactional Attention: Semantic Sponsorship for KV-Cache Retention
par: Basu, Abhinaba
Publié: (2026)
par: Basu, Abhinaba
Publié: (2026)
ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
par: Datta, Debajyoti, et autres
Publié: (2026)
par: Datta, Debajyoti, et autres
Publié: (2026)
SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching
par: Zhu, Yuxuan, et autres
Publié: (2025)
par: Zhu, Yuxuan, et autres
Publié: (2025)
In-context KV-Cache Eviction for LLMs via Attention-Gate
par: Zeng, Zihao, et autres
Publié: (2024)
par: Zeng, Zihao, et autres
Publié: (2024)
HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs
par: Yang, Dongquan, et autres
Publié: (2025)
par: Yang, Dongquan, et autres
Publié: (2025)
FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration
par: Jo, Dongwon, et autres
Publié: (2025)
par: Jo, Dongwon, et autres
Publié: (2025)
ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution
par: Dong, Zican, et autres
Publié: (2026)
par: Dong, Zican, et autres
Publié: (2026)
Crystal-KV: Efficient KV Cache Management for Chain-of-Thought LLMs via Answer-First Principle
par: Wang, Zihan, et autres
Publié: (2026)
par: Wang, Zihan, et autres
Publié: (2026)
Large Language Models as Interpolated and Extrapolated Event Predictors
par: Zhang, Libo, et autres
Publié: (2024)
par: Zhang, Libo, et autres
Publié: (2024)
EvolKV: Evolutionary KV Cache Compression for LLM Inference
par: Yu, Bohan, et autres
Publié: (2025)
par: Yu, Bohan, et autres
Publié: (2025)
Graph-of-Causal Evolution: Challenging Chain-of-Model for Reasoning
par: Wang, Libo
Publié: (2025)
par: Wang, Libo
Publié: (2025)
Wormhole Memory: A Rubik's Cube for Cross-Dialogue Retrieval
par: Wang, Libo
Publié: (2025)
par: Wang, Libo
Publié: (2025)
ParisKV: Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs
par: Qi, Yanlin, et autres
Publié: (2026)
par: Qi, Yanlin, et autres
Publié: (2026)
RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
par: Su, Zunhai, et autres
Publié: (2025)
par: Su, Zunhai, et autres
Publié: (2025)
EliteKV: Scalable KV Cache Compression via RoPE Frequency Selection and Joint Low-Rank Projection
par: Zhou, Yuhao, et autres
Publié: (2025)
par: Zhou, Yuhao, et autres
Publié: (2025)
Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention
par: Liao, Huanxuan, et autres
Publié: (2025)
par: Liao, Huanxuan, et autres
Publié: (2025)
SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models
par: He, Jinghan, et autres
Publié: (2024)
par: He, Jinghan, et autres
Publié: (2024)
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
par: Xu, Xiao, et autres
Publié: (2024)
par: Xu, Xiao, et autres
Publié: (2024)
FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference
par: Liu, Guangda, et autres
Publié: (2025)
par: Liu, Guangda, et autres
Publié: (2025)
Residual-Mass Accounting for Partial-KV Decoding
par: Hoshi, Yasuto, et autres
Publié: (2026)
par: Hoshi, Yasuto, et autres
Publié: (2026)
CAOTE: KV Cache Selection for LLMs via Attention Output Error-Based Token Eviction
par: Goel, Raghavv, et autres
Publié: (2025)
par: Goel, Raghavv, et autres
Publié: (2025)
OjaKV: Context-Aware Online Low-Rank KV Cache Compression
par: Zhu, Yuxuan, et autres
Publié: (2025)
par: Zhu, Yuxuan, et autres
Publié: (2025)
SPHERICAL KV: Angle-Domain Attention and Rate-Distortion Retention for Efficient Long-Context Inference
par: Chauhan, Anay, et autres
Publié: (2026)
par: Chauhan, Anay, et autres
Publié: (2026)
EntmaxKV: Support-Aware Decoding for Entmax Attention
par: Duarte, Gonçalo, et autres
Publié: (2026)
par: Duarte, Gonçalo, et autres
Publié: (2026)
Inference-Time Hyper-Scaling with KV Cache Compression
par: Łańcucki, Adrian, et autres
Publié: (2025)
par: Łańcucki, Adrian, et autres
Publié: (2025)
Sparse Attention across Multiple-context KV Cache
par: Cao, Ziyi, et autres
Publié: (2025)
par: Cao, Ziyi, et autres
Publié: (2025)
KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
par: Tian, Yuxuan, et autres
Publié: (2025)
par: Tian, Yuxuan, et autres
Publié: (2025)
Documents similaires
-
MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression
par: Sun, Libo, et autres
Publié: (2026) -
When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing
par: Sun, Libo, et autres
Publié: (2026) -
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing
par: Yang, Yifei, et autres
Publié: (2024) -
RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression
par: Behnam, Payman, et autres
Publié: (2025) -
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs
par: Wang, Ke, et autres
Publié: (2025)