Salvato in:
| Autori principali: | Yang, Yaoxin, Ye, Peng, Tan, Xudong, Tu, Chongjun, Zhao, Maosen, Hao, Jia, Chen, Tao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2511.16786 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models
di: Tan, Xudong, et al.
Pubblicazione: (2025)
di: Tan, Xudong, et al.
Pubblicazione: (2025)
Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models
di: Tan, Xudong, et al.
Pubblicazione: (2025)
di: Tan, Xudong, et al.
Pubblicazione: (2025)
VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration
di: Tu, Dezhan, et al.
Pubblicazione: (2024)
di: Tu, Dezhan, et al.
Pubblicazione: (2024)
Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
di: Ji, Yicheng, et al.
Pubblicazione: (2026)
di: Ji, Yicheng, et al.
Pubblicazione: (2026)
Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling
di: Qin, Ziran, et al.
Pubblicazione: (2025)
di: Qin, Ziran, et al.
Pubblicazione: (2025)
MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering
di: Xiao, Junbin, et al.
Pubblicazione: (2026)
di: Xiao, Junbin, et al.
Pubblicazione: (2026)
ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection
di: Datta, Debajyoti, et al.
Pubblicazione: (2026)
di: Datta, Debajyoti, et al.
Pubblicazione: (2026)
StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression
di: Chen, Yilong, et al.
Pubblicazione: (2025)
di: Chen, Yilong, et al.
Pubblicazione: (2025)
AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers
di: Xu, Boxun, et al.
Pubblicazione: (2025)
di: Xu, Boxun, et al.
Pubblicazione: (2025)
AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
di: Huang, Kai, et al.
Pubblicazione: (2025)
di: Huang, Kai, et al.
Pubblicazione: (2025)
SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference
di: Zhao, Yi, et al.
Pubblicazione: (2025)
di: Zhao, Yi, et al.
Pubblicazione: (2025)
STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models
di: Han, Yuhang, et al.
Pubblicazione: (2026)
di: Han, Yuhang, et al.
Pubblicazione: (2026)
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs
di: Han, Insu, et al.
Pubblicazione: (2025)
di: Han, Insu, et al.
Pubblicazione: (2025)
LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important
di: Liang, Manlai, et al.
Pubblicazione: (2025)
di: Liang, Manlai, et al.
Pubblicazione: (2025)
OjaKV: Context-Aware Online Low-Rank KV Cache Compression
di: Zhu, Yuxuan, et al.
Pubblicazione: (2025)
di: Zhu, Yuxuan, et al.
Pubblicazione: (2025)
LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
di: Hu, Lianyu, et al.
Pubblicazione: (2025)
di: Hu, Lianyu, et al.
Pubblicazione: (2025)
Streaming Video Question-Answering with In-context Video KV-Cache Retrieval
di: Di, Shangzhe, et al.
Pubblicazione: (2025)
di: Di, Shangzhe, et al.
Pubblicazione: (2025)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation
di: Wang, Ao, et al.
Pubblicazione: (2024)
di: Wang, Ao, et al.
Pubblicazione: (2024)
PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression
di: Jiang, Bo, et al.
Pubblicazione: (2025)
di: Jiang, Bo, et al.
Pubblicazione: (2025)
Decouple and Cache: KV Cache Construction for Streaming Video Understanding
di: Pang, Zhanzhong, et al.
Pubblicazione: (2026)
di: Pang, Zhanzhong, et al.
Pubblicazione: (2026)
The Pitfalls of KV Cache Compression
di: Chen, Alex, et al.
Pubblicazione: (2025)
di: Chen, Alex, et al.
Pubblicazione: (2025)
XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
di: Su, Zunhai, et al.
Pubblicazione: (2026)
di: Su, Zunhai, et al.
Pubblicazione: (2026)
XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
di: Su, Zunhai, et al.
Pubblicazione: (2026)
di: Su, Zunhai, et al.
Pubblicazione: (2026)
DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs
di: Zhou, Xiabin, et al.
Pubblicazione: (2024)
di: Zhou, Xiabin, et al.
Pubblicazione: (2024)
Cross-Self KV Cache Pruning for Efficient Vision-Language Inference
di: Pei, Xiaohuan, et al.
Pubblicazione: (2024)
di: Pei, Xiaohuan, et al.
Pubblicazione: (2024)
EvolKV: Evolutionary KV Cache Compression for LLM Inference
di: Yu, Bohan, et al.
Pubblicazione: (2025)
di: Yu, Bohan, et al.
Pubblicazione: (2025)
Accurate KV Cache Quantization with Outlier Tokens Tracing
di: Su, Yi, et al.
Pubblicazione: (2025)
di: Su, Yi, et al.
Pubblicazione: (2025)
Lossless KV Cache Compression to 2%
di: Yang, Zhen, et al.
Pubblicazione: (2024)
di: Yang, Zhen, et al.
Pubblicazione: (2024)
Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
di: Du, Wenjie, et al.
Pubblicazione: (2025)
di: Du, Wenjie, et al.
Pubblicazione: (2025)
HeatKV: Head-tuned KV-cache Compression for Visual Autoregressive Modeling
di: Cederlund, Jonathan, et al.
Pubblicazione: (2026)
di: Cederlund, Jonathan, et al.
Pubblicazione: (2026)
KeepKV: Achieving Periodic Lossless KV Cache Compression for Efficient LLM Inference
di: Tian, Yuxuan, et al.
Pubblicazione: (2025)
di: Tian, Yuxuan, et al.
Pubblicazione: (2025)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression
di: Liu, Guangda, et al.
Pubblicazione: (2024)
di: Liu, Guangda, et al.
Pubblicazione: (2024)
Task-Aware KV Compression For Cost-Effective Long Video Understanding
di: Qin, Minghao, et al.
Pubblicazione: (2025)
di: Qin, Minghao, et al.
Pubblicazione: (2025)
RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations
di: Su, Zunhai, et al.
Pubblicazione: (2025)
di: Su, Zunhai, et al.
Pubblicazione: (2025)
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
di: Wan, Zhongwei, et al.
Pubblicazione: (2024)
di: Wan, Zhongwei, et al.
Pubblicazione: (2024)
KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy
di: Huang, Yingbing, et al.
Pubblicazione: (2026)
di: Huang, Yingbing, et al.
Pubblicazione: (2026)
HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference
di: Zeng, Bowen, et al.
Pubblicazione: (2026)
di: Zeng, Bowen, et al.
Pubblicazione: (2026)
Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation
di: Chen, Jiayu, et al.
Pubblicazione: (2026)
di: Chen, Jiayu, et al.
Pubblicazione: (2026)
KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving
di: Liu, Zedong, et al.
Pubblicazione: (2026)
di: Liu, Zedong, et al.
Pubblicazione: (2026)
DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity
di: Hao, Jitai, et al.
Pubblicazione: (2026)
di: Hao, Jitai, et al.
Pubblicazione: (2026)
Documenti analoghi
-
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models
di: Tan, Xudong, et al.
Pubblicazione: (2025) -
Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models
di: Tan, Xudong, et al.
Pubblicazione: (2025) -
VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration
di: Tu, Dezhan, et al.
Pubblicazione: (2024) -
Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models
di: Ji, Yicheng, et al.
Pubblicazione: (2026) -
Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling
di: Qin, Ziran, et al.
Pubblicazione: (2025)