:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yang, Yaoxin, Ye, Peng, Tan, Xudong, Tu, Chongjun, Zhao, Maosen, Hao, Jia, Chen, Tao
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning Artificial Intelligence Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2511.16786
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models
di: Tan, Xudong, et al.
Pubblicazione: (2025)

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models
di: Tan, Xudong, et al.
Pubblicazione: (2025)

VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration
di: Tu, Dezhan, et al.
Pubblicazione: (2024)

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
di: Ji, Yicheng, et al.
Pubblicazione: (2026)

Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling
di: Qin, Ziran, et al.
Pubblicazione: (2025)

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering
di: Xiao, Junbin, et al.
Pubblicazione: (2026)

ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
di: Datta, Debajyoti, et al.
Pubblicazione: (2026)

StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression
di: Chen, Yilong, et al.
Pubblicazione: (2025)

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers
di: Xu, Boxun, et al.
Pubblicazione: (2025)

AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
di: Huang, Kai, et al.
Pubblicazione: (2025)

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference
di: Zhao, Yi, et al.
Pubblicazione: (2025)

STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models
di: Han, Yuhang, et al.
Pubblicazione: (2026)

CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs
di: Han, Insu, et al.
Pubblicazione: (2025)

LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important
di: Liang, Manlai, et al.
Pubblicazione: (2025)

OjaKV: Context-Aware Online Low-Rank KV Cache Compression
di: Zhu, Yuxuan, et al.
Pubblicazione: (2025)

LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
di: Hu, Lianyu, et al.
Pubblicazione: (2025)

Streaming Video Question-Answering with In-context Video KV-Cache Retrieval
di: Di, Shangzhe, et al.
Pubblicazione: (2025)

PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation
di: Wang, Ao, et al.
Pubblicazione: (2024)

PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression
di: Jiang, Bo, et al.
Pubblicazione: (2025)

Decouple and Cache: KV Cache Construction for Streaming Video Understanding
di: Pang, Zhanzhong, et al.
Pubblicazione: (2026)

The Pitfalls of KV Cache Compression
di: Chen, Alex, et al.
Pubblicazione: (2025)

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
di: Su, Zunhai, et al.
Pubblicazione: (2026)

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
di: Su, Zunhai, et al.
Pubblicazione: (2026)

DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs
di: Zhou, Xiabin, et al.
Pubblicazione: (2024)

Cross-Self KV Cache Pruning for Efficient Vision-Language Inference
di: Pei, Xiaohuan, et al.
Pubblicazione: (2024)

EvolKV: Evolutionary KV Cache Compression for LLM Inference
di: Yu, Bohan, et al.
Pubblicazione: (2025)

Accurate KV Cache Quantization with Outlier Tokens Tracing
di: Su, Yi, et al.
Pubblicazione: (2025)

Lossless KV Cache Compression to 2%
di: Yang, Zhen, et al.
Pubblicazione: (2024)

Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
di: Du, Wenjie, et al.
Pubblicazione: (2025)

HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling
di: Cederlund, Jonathan, et al.
Pubblicazione: (2026)

KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
di: Tian, Yuxuan, et al.
Pubblicazione: (2025)

ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression
di: Liu, Guangda, et al.
Pubblicazione: (2024)

Task-Aware KV Compression For Cost-Effective Long Video Understanding
di: Qin, Minghao, et al.
Pubblicazione: (2025)

RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
di: Su, Zunhai, et al.
Pubblicazione: (2025)

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
di: Wan, Zhongwei, et al.
Pubblicazione: (2024)

KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy
di: Huang, Yingbing, et al.
Pubblicazione: (2026)

HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference
di: Zeng, Bowen, et al.
Pubblicazione: (2026)

Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation
di: Chen, Jiayu, et al.
Pubblicazione: (2026)

KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving
di: Liu, Zedong, et al.
Pubblicazione: (2026)

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity
di: Hao, Jitai, et al.
Pubblicazione: (2026)