:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Jo, Dongwon, Kang, Beomseok, Song, Jiwon, Kim, Jae-Joon
Format:	Preprint
Publié:	2026
Sujets:	Computation and Language Machine Learning
Accès en ligne:	https://arxiv.org/abs/2602.03216
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
par: Song, Jiwon, et autres
Publié: (2026)

FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration
par: Jo, Dongwon, et autres
Publié: (2025)

Rotation-Aligned Key Channel Pruning for Efficient Vision-Language Model Inference
par: Kang, Beomseok, et autres
Publié: (2026)

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
par: Song, Jiwon, et autres
Publié: (2025)

Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
par: Jo, Dongwon, et autres
Publié: (2024)

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
par: Kang, Beomseok, et autres
Publié: (2025)

TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection
par: Wu, Wei, et autres
Publié: (2024)

DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning
par: Zarch, Hossein Entezari, et autres
Publié: (2025)

STS: Efficient Sparse Attention with Speculative Token Sparsity
par: Xu, Ceyu, et autres
Publié: (2026)

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference
par: Wu, Zimeng, et autres
Publié: (2026)

LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
par: Fu, Qichen, et autres
Publié: (2024)

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks
par: Song, Jiwon, et autres
Publié: (2024)

SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning
par: Wang, Hanrui, et autres
Publié: (2020)

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference
par: Lai, Xunhao, et autres
Publié: (2025)

AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning
par: Kim, Jongsuk, et autres
Publié: (2024)

Attention with Trained Embeddings Provably Selects Important Tokens
par: Wu, Diyuan, et autres
Publié: (2025)

Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction
par: He, Mutian, et autres
Publié: (2025)

One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space
par: Addanki, Raghav, et autres
Publié: (2023)

A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder
par: Jo, Hyun-rae, et autres
Publié: (2024)

Token Distillation: Attention-aware Input Embeddings For New Tokens
par: Dobler, Konstantin, et autres
Publié: (2025)

TokenShapley: Token Level Context Attribution with Shapley Value
par: Xiao, Yingtai, et autres
Publié: (2025)

Multipole Attention for Efficient Long Context Reasoning
par: Hooper, Coleman, et autres
Publié: (2025)

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
par: Zhu, Qianchao, et autres
Publié: (2024)

OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
par: Shin, Seungjun, et autres
Publié: (2025)

Memory-Efficient Fine-Tuning of Transformers via Token Selection
par: Simoulin, Antoine, et autres
Publié: (2025)

TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference
par: Jaber, Jaber, et autres
Publié: (2026)

MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training
par: Li, Wenxuan, et autres
Publié: (2025)

LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contexts
par: Gu, Zhuohan, et autres
Publié: (2024)

RelayGen: Intra-Generation Model Switching for Efficient Reasoning
par: Song, Jiwon, et autres
Publié: (2026)

Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
par: Tang, Jiaming, et autres
Publié: (2024)

TRIM: Token-wise Attention-Derived Saliency for Data-Efficient Instruction Tuning
par: Nagaraj, Manish, et autres
Publié: (2025)

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
par: Qiu, Quantong, et autres
Publié: (2026)

Softmax Attention with Constant Cost per Token
par: Heinsen, Franz A.
Publié: (2024)

Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection
par: Julistiono, Addison Kristanto, et autres
Publié: (2024)

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
par: MiniCPM Team, et autres
Publié: (2026)

Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference
par: Taniguchi, Rei, et autres
Publié: (2026)

S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference
par: Ma, Qingsen, et autres
Publié: (2026)

TIDE: Every Layer Knows the Token Beneath the Context
par: Jaiswal, Ajay, et autres
Publié: (2026)

CAOTE: KV Cache Selection for LLMs via Attention Output Error-Based Token Eviction
par: Goel, Raghavv, et autres
Publié: (2025)

RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
par: Du, Yufeng, et autres
Publié: (2026)