Guardado en:
| Autores principales: | Pankratov, Sergey, Alistarh, Dan |
|---|---|
| Formato: | Preprint |
| Publicado: |
2025
|
| Materias: | |
| Acceso en línea: | https://arxiv.org/abs/2512.11718 |
| Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
Ejemplares similares
Speculative Decoding for Verilog: Speed and Quality, All in One
por: Xu, Changran, et al.
Publicado: (2025)
por: Xu, Changran, et al.
Publicado: (2025)
Towards Optimal Multi-draft Speculative Decoding
por: Hu, Zhengmian, et al.
Publicado: (2025)
por: Hu, Zhengmian, et al.
Publicado: (2025)
Speculative Decoding with a Speculative Vocabulary
por: Williams, Miles, et al.
Publicado: (2026)
por: Williams, Miles, et al.
Publicado: (2026)
AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability
por: Agrawal, Sudhanshu, et al.
Publicado: (2024)
por: Agrawal, Sudhanshu, et al.
Publicado: (2024)
Decoding Speculative Decoding
por: Yan, Minghao, et al.
Publicado: (2024)
por: Yan, Minghao, et al.
Publicado: (2024)
Position: It's Time to Act on the Risk of Efficient Personalized Text Generation
por: Iofinova, Eugenia, et al.
Publicado: (2025)
por: Iofinova, Eugenia, et al.
Publicado: (2025)
Speculative Contrastive Decoding
por: Yuan, Hongyi, et al.
Publicado: (2023)
por: Yuan, Hongyi, et al.
Publicado: (2023)
SpecTr: Fast Speculative Decoding via Optimal Transport
por: Sun, Ziteng, et al.
Publicado: (2023)
por: Sun, Ziteng, et al.
Publicado: (2023)
TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding
por: Wu, Zhaoxuan, et al.
Publicado: (2025)
por: Wu, Zhaoxuan, et al.
Publicado: (2025)
Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism
por: Yu, Yijiong, et al.
Publicado: (2026)
por: Yu, Yijiong, et al.
Publicado: (2026)
Fast Best-of-N Decoding via Speculative Rejection
por: Sun, Hanshi, et al.
Publicado: (2024)
por: Sun, Hanshi, et al.
Publicado: (2024)
3-Model Speculative Decoding
por: Byun, Sanghyun, et al.
Publicado: (2025)
por: Byun, Sanghyun, et al.
Publicado: (2025)
Multi-Candidate Speculative Decoding
por: Yang, Sen, et al.
Publicado: (2024)
por: Yang, Sen, et al.
Publicado: (2024)
Graph-Structured Speculative Decoding
por: Gong, Zhuocheng, et al.
Publicado: (2024)
por: Gong, Zhuocheng, et al.
Publicado: (2024)
Faster Cascades via Speculative Decoding
por: Narasimhan, Harikrishna, et al.
Publicado: (2024)
por: Narasimhan, Harikrishna, et al.
Publicado: (2024)
Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding
por: Kim, Sungkyun, et al.
Publicado: (2025)
por: Kim, Sungkyun, et al.
Publicado: (2025)
LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation
por: Liu, Tianyu, et al.
Publicado: (2025)
por: Liu, Tianyu, et al.
Publicado: (2025)
Efficient Data Selection at Scale via Influence Distillation
por: Nikdan, Mahdi, et al.
Publicado: (2025)
por: Nikdan, Mahdi, et al.
Publicado: (2025)
SAM Decoding: Speculative Decoding via Suffix Automaton
por: Hu, Yuxuan, et al.
Publicado: (2024)
por: Hu, Yuxuan, et al.
Publicado: (2024)
Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling
por: Sun, Shengyin, et al.
Publicado: (2025)
por: Sun, Shengyin, et al.
Publicado: (2025)
RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
por: Nikdan, Mahdi, et al.
Publicado: (2024)
por: Nikdan, Mahdi, et al.
Publicado: (2024)
Speculate Deep and Accurate: Lossless and Training-Free Acceleration for Offloaded LLMs via Substitute Speculative Decoding
por: Wang, Pei-Shuo, et al.
Publicado: (2025)
por: Wang, Pei-Shuo, et al.
Publicado: (2025)
Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models
por: Mamou, Jonathan, et al.
Publicado: (2024)
por: Mamou, Jonathan, et al.
Publicado: (2024)
Improving Multi-candidate Speculative Decoding
por: Lu, Xiaofan, et al.
Publicado: (2024)
por: Lu, Xiaofan, et al.
Publicado: (2024)
Online Speculative Decoding
por: Liu, Xiaoxuan, et al.
Publicado: (2023)
por: Liu, Xiaoxuan, et al.
Publicado: (2023)
The Disparate Impacts of Speculative Decoding
por: Sandler, Jameson, et al.
Publicado: (2025)
por: Sandler, Jameson, et al.
Publicado: (2025)
Scaling Laws for Speculative Decoding
por: Yan, Siyuan, et al.
Publicado: (2025)
por: Yan, Siyuan, et al.
Publicado: (2025)
Cross-Attention Speculative Decoding
por: Zhong, Wei, et al.
Publicado: (2025)
por: Zhong, Wei, et al.
Publicado: (2025)
Speculative Decoding: Performance or Illusion?
por: Liu, Xiaoxuan, et al.
Publicado: (2025)
por: Liu, Xiaoxuan, et al.
Publicado: (2025)
Mamba Drafters for Speculative Decoding
por: Choi, Daewon, et al.
Publicado: (2025)
por: Choi, Daewon, et al.
Publicado: (2025)
Constrained Decoding with Speculative Lookaheads
por: Nakshatri, Nishanth, et al.
Publicado: (2024)
por: Nakshatri, Nishanth, et al.
Publicado: (2024)
Speculative Decoding Across Languages
por: Paudel, Nirajan, et al.
Publicado: (2026)
por: Paudel, Nirajan, et al.
Publicado: (2026)
Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding
por: Jin, Tao, et al.
Publicado: (2026)
por: Jin, Tao, et al.
Publicado: (2026)
SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding
por: Wang, Zhenglin, et al.
Publicado: (2024)
por: Wang, Zhenglin, et al.
Publicado: (2024)
Dynamic Depth Decoding: Faster Speculative Decoding for LLMs
por: Brown, Oscar, et al.
Publicado: (2024)
por: Brown, Oscar, et al.
Publicado: (2024)
Speculative Decoding and Beyond: An In-Depth Survey of Techniques
por: Hu, Yunhai, et al.
Publicado: (2025)
por: Hu, Yunhai, et al.
Publicado: (2025)
DReSD: Dense Retrieval for Speculative Decoding
por: Gritta, Milan, et al.
Publicado: (2025)
por: Gritta, Milan, et al.
Publicado: (2025)
Accelerate Speculative Decoding with Sparse Computation in Verification
por: Wang, Jikai, et al.
Publicado: (2025)
por: Wang, Jikai, et al.
Publicado: (2025)
Multi-Drafter Speculative Decoding with Alignment Feedback
por: Kim, Taehyeon, et al.
Publicado: (2026)
por: Kim, Taehyeon, et al.
Publicado: (2026)
SPEED: Speculative Pipelined Execution for Efficient Decoding
por: Hooper, Coleman, et al.
Publicado: (2023)
por: Hooper, Coleman, et al.
Publicado: (2023)
Ejemplares similares
-
Speculative Decoding for Verilog: Speed and Quality, All in One
por: Xu, Changran, et al.
Publicado: (2025) -
Towards Optimal Multi-draft Speculative Decoding
por: Hu, Zhengmian, et al.
Publicado: (2025) -
Speculative Decoding with a Speculative Vocabulary
por: Williams, Miles, et al.
Publicado: (2026) -
AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability
por: Agrawal, Sudhanshu, et al.
Publicado: (2024) -
Decoding Speculative Decoding
por: Yan, Minghao, et al.
Publicado: (2024)