Enregistré dans:
| Auteurs principaux: | Ma, Junjie, Li, Jinlong |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.14069 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
par: Gao, Xuanqi, et autres
Publié: (2025)
par: Gao, Xuanqi, et autres
Publié: (2025)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
par: Wen, Zhuofan, et autres
Publié: (2024)
par: Wen, Zhuofan, et autres
Publié: (2024)
Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
par: Chen, Jiaju, et autres
Publié: (2026)
par: Chen, Jiaju, et autres
Publié: (2026)
DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
par: Li, Yuanhao, et autres
Publié: (2025)
par: Li, Yuanhao, et autres
Publié: (2025)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree
par: Gao, Xiangxiang, et autres
Publié: (2024)
par: Gao, Xiangxiang, et autres
Publié: (2024)
Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference
par: He, Zifan, et autres
Publié: (2026)
par: He, Zifan, et autres
Publié: (2026)
Adaptive Draft-Verification for Efficient Large Language Model Decoding
par: Liu, Xukun, et autres
Publié: (2024)
par: Liu, Xukun, et autres
Publié: (2024)
DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration
par: Zhang, Hanzhi, et autres
Publié: (2025)
par: Zhang, Hanzhi, et autres
Publié: (2025)
Progressive Refinement Regulation for Accelerating Diffusion Language Model Decoding
par: Wan, Lipeng, et autres
Publié: (2026)
par: Wan, Lipeng, et autres
Publié: (2026)
Draft-based Approximate Inference for LLMs
par: Galim, Kevin, et autres
Publié: (2025)
par: Galim, Kevin, et autres
Publié: (2025)
PRISM: Parametrically Refactoring Inference for Speculative Sampling Draft Models
par: Wang, Xuliang, et autres
Publié: (2026)
par: Wang, Xuliang, et autres
Publié: (2026)
Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
par: Xiong, Zidi, et autres
Publié: (2025)
par: Xiong, Zidi, et autres
Publié: (2025)
DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution
par: Hu, Yunhai, et autres
Publié: (2026)
par: Hu, Yunhai, et autres
Publié: (2026)
RADAR: Learning to Route with Asymmetry-aware DistAnce Representations
par: Yi, Hang, et autres
Publié: (2026)
par: Yi, Hang, et autres
Publié: (2026)
Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model
par: Lin, Chun-Hsien, et autres
Publié: (2024)
par: Lin, Chun-Hsien, et autres
Publié: (2024)
Self-Selected Attention Span for Accelerating Large Language Model Inference
par: Jin, Tian, et autres
Publié: (2024)
par: Jin, Tian, et autres
Publié: (2024)
Causal Inference with Large Language Model: A Survey
par: Ma, Jing
Publié: (2024)
par: Ma, Jing
Publié: (2024)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference
par: Chen, Hongzheng, et autres
Publié: (2023)
par: Chen, Hongzheng, et autres
Publié: (2023)
Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models
par: Wu, Shutong, et autres
Publié: (2025)
par: Wu, Shutong, et autres
Publié: (2025)
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
par: Zhou, Guanghao, et autres
Publié: (2025)
par: Zhou, Guanghao, et autres
Publié: (2025)
Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
par: Yan, Guang, et autres
Publié: (2025)
par: Yan, Guang, et autres
Publié: (2025)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
par: Chen, Sihan, et autres
Publié: (2025)
par: Chen, Sihan, et autres
Publié: (2025)
SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting
par: Xu, Jiaming, et autres
Publié: (2025)
par: Xu, Jiaming, et autres
Publié: (2025)
Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models
par: Huang, Jerry, et autres
Publié: (2024)
par: Huang, Jerry, et autres
Publié: (2024)
SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding
par: Sun, Ryan, et autres
Publié: (2024)
par: Sun, Ryan, et autres
Publié: (2024)
Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference
par: Chen, Chun-Ting, et autres
Publié: (2025)
par: Chen, Chun-Ting, et autres
Publié: (2025)
Dynamic Compressing Prompts for Efficient Inference of Large Language Models
par: Hu, Jinwu, et autres
Publié: (2025)
par: Hu, Jinwu, et autres
Publié: (2025)
D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting
par: Wu, Tianyu, et autres
Publié: (2026)
par: Wu, Tianyu, et autres
Publié: (2026)
Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
par: Zhao, Yao, et autres
Publié: (2023)
par: Zhao, Yao, et autres
Publié: (2023)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
par: Chen, Yitian, et autres
Publié: (2025)
par: Chen, Yitian, et autres
Publié: (2025)
Unveiling the Reasoning Process of Large Language Models
par: Zhang, Junjie, et autres
Publié: (2026)
par: Zhang, Junjie, et autres
Publié: (2026)
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
par: Zhao, Youpeng, et autres
Publié: (2024)
par: Zhao, Youpeng, et autres
Publié: (2024)
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
par: Liu, Zhiyuan, et autres
Publié: (2025)
par: Liu, Zhiyuan, et autres
Publié: (2025)
TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference
par: Park, Jiyoung, et autres
Publié: (2026)
par: Park, Jiyoung, et autres
Publié: (2026)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding
par: He, Jinlong, et autres
Publié: (2024)
par: He, Jinlong, et autres
Publié: (2024)
SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning
par: Liu, Yihao, et autres
Publié: (2025)
par: Liu, Yihao, et autres
Publié: (2025)
Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
par: Li, Qingyuan, et autres
Publié: (2024)
par: Li, Qingyuan, et autres
Publié: (2024)
Challenges and Research Directions for Large Language Model Inference Hardware
par: Ma, Xiaoyu, et autres
Publié: (2026)
par: Ma, Xiaoyu, et autres
Publié: (2026)
Efficient Verification of a RADAR SoC Using Formal and Simulation-Based Methods
par: Kumar, Aman, et autres
Publié: (2024)
par: Kumar, Aman, et autres
Publié: (2024)
Automated Review Generation Method Based on Large Language Models
par: Wu, Shican, et autres
Publié: (2024)
par: Wu, Shican, et autres
Publié: (2024)
Documents similaires
-
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
par: Gao, Xuanqi, et autres
Publié: (2025) -
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
par: Wen, Zhuofan, et autres
Publié: (2024) -
Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
par: Chen, Jiaju, et autres
Publié: (2026) -
DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
par: Li, Yuanhao, et autres
Publié: (2025) -
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree
par: Gao, Xiangxiang, et autres
Publié: (2024)