Salvato in:
| Autori principali: | Huang, Haiduo, Song, Jiangcheng, Zhao, Wenzhe, Ren, Pengju |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2509.20416 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
NMS: Efficient Edge DNN Training via Near-Memory Sampling on Manifolds
di: Zhao, Boran, et al.
Pubblicazione: (2025)
di: Zhao, Boran, et al.
Pubblicazione: (2025)
SelecTKD: Selective Token-Weighted Knowledge Distillation for LLMs
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
KernelDNA: Dynamic Kernel Sharing via Decoupled Naive Adapters
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
SpecVLM: Fast Speculative Decoding in Vision-Language Models
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
Cascade Speculative Drafting for Even Faster LLM Inference
di: Chen, Ziyi, et al.
Pubblicazione: (2023)
di: Chen, Ziyi, et al.
Pubblicazione: (2023)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
di: Wen, Zhuofan, et al.
Pubblicazione: (2024)
di: Wen, Zhuofan, et al.
Pubblicazione: (2024)
SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding
di: Plaksin, Anton, et al.
Pubblicazione: (2026)
di: Plaksin, Anton, et al.
Pubblicazione: (2026)
POSS: Position Specialist Generates Better Draft for Speculative Decoding
di: Huang, Langlin, et al.
Pubblicazione: (2025)
di: Huang, Langlin, et al.
Pubblicazione: (2025)
Partial Channel Network: Compute Fewer, Perform Better
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
When Drafts Evolve: Speculative Decoding Meets Online Learning
di: Qian, Yu-Yang, et al.
Pubblicazione: (2026)
di: Qian, Yu-Yang, et al.
Pubblicazione: (2026)
FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning
di: Zhang, Yizhou, et al.
Pubblicazione: (2025)
di: Zhang, Yizhou, et al.
Pubblicazione: (2025)
Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding
di: Li, Jinze, et al.
Pubblicazione: (2025)
di: Li, Jinze, et al.
Pubblicazione: (2025)
SparseMap: A Sparse Tensor Accelerator Framework Based on Evolution Strategy
di: Zhao, Boran, et al.
Pubblicazione: (2025)
di: Zhao, Boran, et al.
Pubblicazione: (2025)
Draft, Verify, and Improve: Toward Training-Aware Speculative Decoding
di: Bhansali, Shrenik, et al.
Pubblicazione: (2025)
di: Bhansali, Shrenik, et al.
Pubblicazione: (2025)
GeGS-PCR: Effective and Robust 3D Point Cloud Registration with Two-Stage Color-Enhanced Geometric-3DGS Fusion
di: Tian, Jiayi, et al.
Pubblicazione: (2026)
di: Tian, Jiayi, et al.
Pubblicazione: (2026)
Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs
di: Pan, Rui, et al.
Pubblicazione: (2025)
di: Pan, Rui, et al.
Pubblicazione: (2025)
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
di: Shen, Yuhao, et al.
Pubblicazione: (2026)
di: Shen, Yuhao, et al.
Pubblicazione: (2026)
DREAM-S: Speculative Decoding with Searchable Drafting and Target-Aware Refinement for Multimodal Generation
di: Liu, Zining, et al.
Pubblicazione: (2026)
di: Liu, Zining, et al.
Pubblicazione: (2026)
Faster Cascades via Speculative Decoding
di: Narasimhan, Harikrishna, et al.
Pubblicazione: (2024)
di: Narasimhan, Harikrishna, et al.
Pubblicazione: (2024)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts
di: Georganas, Evangelos, et al.
Pubblicazione: (2025)
di: Georganas, Evangelos, et al.
Pubblicazione: (2025)
Training Domain Draft Models for Speculative Decoding: Best Practices and Insights
di: Hong, Fenglu, et al.
Pubblicazione: (2025)
di: Hong, Fenglu, et al.
Pubblicazione: (2025)
Nearly Lossless Adaptive Bit Switching
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
di: Huang, Haiduo, et al.
Pubblicazione: (2025)
Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding
di: Shoham, Ofir Ben
Pubblicazione: (2026)
di: Shoham, Ofir Ben
Pubblicazione: (2026)
TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs
di: Lee, Minjae, et al.
Pubblicazione: (2026)
di: Lee, Minjae, et al.
Pubblicazione: (2026)
MineDraft: A Framework for Batch Parallel Speculative Decoding
di: Tang, Zhenwei, et al.
Pubblicazione: (2026)
di: Tang, Zhenwei, et al.
Pubblicazione: (2026)
CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs
di: Ning, Zhiyuan, et al.
Pubblicazione: (2025)
di: Ning, Zhiyuan, et al.
Pubblicazione: (2025)
LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification
di: Yang, Penghui, et al.
Pubblicazione: (2025)
di: Yang, Penghui, et al.
Pubblicazione: (2025)
Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs
di: Goel, Raghavv, et al.
Pubblicazione: (2024)
di: Goel, Raghavv, et al.
Pubblicazione: (2024)
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
di: Ramakrishnan, Ramchalam Kinattinkara, et al.
Pubblicazione: (2025)
di: Ramakrishnan, Ramchalam Kinattinkara, et al.
Pubblicazione: (2025)
BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding
di: He, Liang, et al.
Pubblicazione: (2026)
di: He, Liang, et al.
Pubblicazione: (2026)
Fast Inference via Hierarchical Speculative Decoding
di: Mohri, Clara, et al.
Pubblicazione: (2025)
di: Mohri, Clara, et al.
Pubblicazione: (2025)
Make Every Draft Count: Hidden State based Speculative Decoding
di: Chen, Yuetao, et al.
Pubblicazione: (2026)
di: Chen, Yuetao, et al.
Pubblicazione: (2026)
Speculative Speculative Decoding
di: Kumar, Tanishq, et al.
Pubblicazione: (2026)
di: Kumar, Tanishq, et al.
Pubblicazione: (2026)
CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration
di: Han, Yuning, et al.
Pubblicazione: (2026)
di: Han, Yuning, et al.
Pubblicazione: (2026)
Accelerating Time Series Foundation Models with Speculative Decoding
di: Subbaraman, Pranav, et al.
Pubblicazione: (2025)
di: Subbaraman, Pranav, et al.
Pubblicazione: (2025)
Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding
di: Zhao, Yilong, et al.
Pubblicazione: (2025)
di: Zhao, Yilong, et al.
Pubblicazione: (2025)
Block Verification Accelerates Speculative Decoding
di: Sun, Ziteng, et al.
Pubblicazione: (2024)
di: Sun, Ziteng, et al.
Pubblicazione: (2024)
Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding
di: Sun, Shuoyang, et al.
Pubblicazione: (2026)
di: Sun, Shuoyang, et al.
Pubblicazione: (2026)
Documenti analoghi
-
DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
di: Huang, Haiduo, et al.
Pubblicazione: (2025) -
NMS: Efficient Edge DNN Training via Near-Memory Sampling on Manifolds
di: Zhao, Boran, et al.
Pubblicazione: (2025) -
SelecTKD: Selective Token-Weighted Knowledge Distillation for LLMs
di: Huang, Haiduo, et al.
Pubblicazione: (2025) -
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE
di: Huang, Haiduo, et al.
Pubblicazione: (2025) -
KernelDNA: Dynamic Kernel Sharing via Decoupled Naive Adapters
di: Huang, Haiduo, et al.
Pubblicazione: (2025)