Enregistré dans:
| Auteurs principaux: | Jo, Dongwon, Kang, Beomseok, Song, Jiwon, Kim, Jae-Joon |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.03216 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
par: Song, Jiwon, et autres
Publié: (2026)
par: Song, Jiwon, et autres
Publié: (2026)
FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration
par: Jo, Dongwon, et autres
Publié: (2025)
par: Jo, Dongwon, et autres
Publié: (2025)
Rotation-Aligned Key Channel Pruning for Efficient Vision-Language Model Inference
par: Kang, Beomseok, et autres
Publié: (2026)
par: Kang, Beomseok, et autres
Publié: (2026)
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
par: Song, Jiwon, et autres
Publié: (2025)
par: Song, Jiwon, et autres
Publié: (2025)
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
par: Jo, Dongwon, et autres
Publié: (2024)
par: Jo, Dongwon, et autres
Publié: (2024)
LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
par: Kang, Beomseok, et autres
Publié: (2025)
par: Kang, Beomseok, et autres
Publié: (2025)
TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection
par: Wu, Wei, et autres
Publié: (2024)
par: Wu, Wei, et autres
Publié: (2024)
DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning
par: Zarch, Hossein Entezari, et autres
Publié: (2025)
par: Zarch, Hossein Entezari, et autres
Publié: (2025)
STS: Efficient Sparse Attention with Speculative Token Sparsity
par: Xu, Ceyu, et autres
Publié: (2026)
par: Xu, Ceyu, et autres
Publié: (2026)
Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference
par: Wu, Zimeng, et autres
Publié: (2026)
par: Wu, Zimeng, et autres
Publié: (2026)
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
par: Fu, Qichen, et autres
Publié: (2024)
par: Fu, Qichen, et autres
Publié: (2024)
SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks
par: Song, Jiwon, et autres
Publié: (2024)
par: Song, Jiwon, et autres
Publié: (2024)
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning
par: Wang, Hanrui, et autres
Publié: (2020)
par: Wang, Hanrui, et autres
Publié: (2020)
FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference
par: Lai, Xunhao, et autres
Publié: (2025)
par: Lai, Xunhao, et autres
Publié: (2025)
AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning
par: Kim, Jongsuk, et autres
Publié: (2024)
par: Kim, Jongsuk, et autres
Publié: (2024)
Attention with Trained Embeddings Provably Selects Important Tokens
par: Wu, Diyuan, et autres
Publié: (2025)
par: Wu, Diyuan, et autres
Publié: (2025)
Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction
par: He, Mutian, et autres
Publié: (2025)
par: He, Mutian, et autres
Publié: (2025)
One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space
par: Addanki, Raghav, et autres
Publié: (2023)
par: Addanki, Raghav, et autres
Publié: (2023)
A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder
par: Jo, Hyun-rae, et autres
Publié: (2024)
par: Jo, Hyun-rae, et autres
Publié: (2024)
Token Distillation: Attention-aware Input Embeddings For New Tokens
par: Dobler, Konstantin, et autres
Publié: (2025)
par: Dobler, Konstantin, et autres
Publié: (2025)
TokenShapley: Token Level Context Attribution with Shapley Value
par: Xiao, Yingtai, et autres
Publié: (2025)
par: Xiao, Yingtai, et autres
Publié: (2025)
Multipole Attention for Efficient Long Context Reasoning
par: Hooper, Coleman, et autres
Publié: (2025)
par: Hooper, Coleman, et autres
Publié: (2025)
SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
par: Zhu, Qianchao, et autres
Publié: (2024)
par: Zhu, Qianchao, et autres
Publié: (2024)
OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
par: Shin, Seungjun, et autres
Publié: (2025)
par: Shin, Seungjun, et autres
Publié: (2025)
Memory-Efficient Fine-Tuning of Transformers via Token Selection
par: Simoulin, Antoine, et autres
Publié: (2025)
par: Simoulin, Antoine, et autres
Publié: (2025)
TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference
par: Jaber, Jaber, et autres
Publié: (2026)
par: Jaber, Jaber, et autres
Publié: (2026)
MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training
par: Li, Wenxuan, et autres
Publié: (2025)
par: Li, Wenxuan, et autres
Publié: (2025)
LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contexts
par: Gu, Zhuohan, et autres
Publié: (2024)
par: Gu, Zhuohan, et autres
Publié: (2024)
RelayGen: Intra-Generation Model Switching for Efficient Reasoning
par: Song, Jiwon, et autres
Publié: (2026)
par: Song, Jiwon, et autres
Publié: (2026)
Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
par: Tang, Jiaming, et autres
Publié: (2024)
par: Tang, Jiaming, et autres
Publié: (2024)
TRIM: Token-wise Attention-Derived Saliency for Data-Efficient Instruction Tuning
par: Nagaraj, Manish, et autres
Publié: (2025)
par: Nagaraj, Manish, et autres
Publié: (2025)
Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
par: Qiu, Quantong, et autres
Publié: (2026)
par: Qiu, Quantong, et autres
Publié: (2026)
Softmax Attention with Constant Cost per Token
par: Heinsen, Franz A.
Publié: (2024)
par: Heinsen, Franz A.
Publié: (2024)
Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection
par: Julistiono, Addison Kristanto, et autres
Publié: (2024)
par: Julistiono, Addison Kristanto, et autres
Publié: (2024)
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
par: MiniCPM Team, et autres
Publié: (2026)
par: MiniCPM Team, et autres
Publié: (2026)
Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference
par: Taniguchi, Rei, et autres
Publié: (2026)
par: Taniguchi, Rei, et autres
Publié: (2026)
S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference
par: Ma, Qingsen, et autres
Publié: (2026)
par: Ma, Qingsen, et autres
Publié: (2026)
TIDE: Every Layer Knows the Token Beneath the Context
par: Jaiswal, Ajay, et autres
Publié: (2026)
par: Jaiswal, Ajay, et autres
Publié: (2026)
CAOTE: KV Cache Selection for LLMs via Attention Output Error-Based Token Eviction
par: Goel, Raghavv, et autres
Publié: (2025)
par: Goel, Raghavv, et autres
Publié: (2025)
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
par: Du, Yufeng, et autres
Publié: (2026)
par: Du, Yufeng, et autres
Publié: (2026)
Documents similaires
-
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
par: Song, Jiwon, et autres
Publié: (2026) -
FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration
par: Jo, Dongwon, et autres
Publié: (2025) -
Rotation-Aligned Key Channel Pruning for Efficient Vision-Language Model Inference
par: Kang, Beomseok, et autres
Publié: (2026) -
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
par: Song, Jiwon, et autres
Publié: (2025) -
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
par: Jo, Dongwon, et autres
Publié: (2024)