:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Huang, Haiduo, Song, Jiangcheng, Zhao, Wenzhe, Ren, Pengju
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2509.20416
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

NMS: Efficient Edge DNN Training via Near-Memory Sampling on Manifolds
di: Zhao, Boran, et al.
Pubblicazione: (2025)

SelecTKD: Selective Token-Weighted Knowledge Distillation for LLMs
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

KernelDNA: Dynamic Kernel Sharing via Decoupled Naive Adapters
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

SpecVLM: Fast Speculative Decoding in Vision-Language Models
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

Cascade Speculative Drafting for Even Faster LLM Inference
di: Chen, Ziyi, et al.
Pubblicazione: (2023)

Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
di: Wen, Zhuofan, et al.
Pubblicazione: (2024)

SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding
di: Plaksin, Anton, et al.
Pubblicazione: (2026)

POSS: Position Specialist Generates Better Draft for Speculative Decoding
di: Huang, Langlin, et al.
Pubblicazione: (2025)

Partial Channel Network: Compute Fewer, Perform Better
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

When Drafts Evolve: Speculative Decoding Meets Online Learning
di: Qian, Yu-Yang, et al.
Pubblicazione: (2026)

FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning
di: Zhang, Yizhou, et al.
Pubblicazione: (2025)

Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding
di: Li, Jinze, et al.
Pubblicazione: (2025)

SparseMap: A Sparse Tensor Accelerator Framework Based on Evolution Strategy
di: Zhao, Boran, et al.
Pubblicazione: (2025)

Draft, Verify, and Improve: Toward Training-Aware Speculative Decoding
di: Bhansali, Shrenik, et al.
Pubblicazione: (2025)

GeGS-PCR: Effective and Robust 3D Point Cloud Registration with Two-Stage Color-Enhanced Geometric-3DGS Fusion
di: Tian, Jiayi, et al.
Pubblicazione: (2026)

Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs
di: Pan, Rui, et al.
Pubblicazione: (2025)

Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding
di: Shen, Yuhao, et al.
Pubblicazione: (2026)

DREAM-S: Speculative Decoding with Searchable Drafting and Target-Aware Refinement for Multimodal Generation
di: Liu, Zining, et al.
Pubblicazione: (2026)

Faster Cascades via Speculative Decoding
di: Narasimhan, Harikrishna, et al.
Pubblicazione: (2024)

ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts
di: Georganas, Evangelos, et al.
Pubblicazione: (2025)

Training Domain Draft Models for Speculative Decoding: Best Practices and Insights
di: Hong, Fenglu, et al.
Pubblicazione: (2025)

Nearly Lossless Adaptive Bit Switching
di: Huang, Haiduo, et al.
Pubblicazione: (2025)

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding
di: Shoham, Ofir Ben
Pubblicazione: (2026)

TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs
di: Lee, Minjae, et al.
Pubblicazione: (2026)

MineDraft: A Framework for Batch Parallel Speculative Decoding
di: Tang, Zhenwei, et al.
Pubblicazione: (2026)

CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs
di: Ning, Zhiyuan, et al.
Pubblicazione: (2025)

LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification
di: Yang, Penghui, et al.
Pubblicazione: (2025)

Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs
di: Goel, Raghavv, et al.
Pubblicazione: (2024)

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
di: Ramakrishnan, Ramchalam Kinattinkara, et al.
Pubblicazione: (2025)

BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding
di: He, Liang, et al.
Pubblicazione: (2026)

Fast Inference via Hierarchical Speculative Decoding
di: Mohri, Clara, et al.
Pubblicazione: (2025)

Make Every Draft Count: Hidden State based Speculative Decoding
di: Chen, Yuetao, et al.
Pubblicazione: (2026)

Speculative Speculative Decoding
di: Kumar, Tanishq, et al.
Pubblicazione: (2026)

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration
di: Han, Yuning, et al.
Pubblicazione: (2026)

Accelerating Time Series Foundation Models with Speculative Decoding
di: Subbaraman, Pranav, et al.
Pubblicazione: (2025)

Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding
di: Zhao, Yilong, et al.
Pubblicazione: (2025)

Block Verification Accelerates Speculative Decoding
di: Sun, Ziteng, et al.
Pubblicazione: (2024)

Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding
di: Sun, Shuoyang, et al.
Pubblicazione: (2026)