:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Ma, Junjie, Li, Jinlong
Format:	Preprint
Publié:	2025
Sujets:	Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2512.14069
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
par: Gao, Xuanqi, et autres
Publié: (2025)

Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
par: Wen, Zhuofan, et autres
Publié: (2024)

Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
par: Chen, Jiaju, et autres
Publié: (2026)

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
par: Li, Yuanhao, et autres
Publié: (2025)

Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree
par: Gao, Xiangxiang, et autres
Publié: (2024)

Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference
par: He, Zifan, et autres
Publié: (2026)

Adaptive Draft-Verification for Efficient Large Language Model Decoding
par: Liu, Xukun, et autres
Publié: (2024)

DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration
par: Zhang, Hanzhi, et autres
Publié: (2025)

Progressive Refinement Regulation for Accelerating Diffusion Language Model Decoding
par: Wan, Lipeng, et autres
Publié: (2026)

Draft-based Approximate Inference for LLMs
par: Galim, Kevin, et autres
Publié: (2025)

PRISM: Parametrically Refactoring Inference for Speculative Sampling Draft Models
par: Wang, Xuliang, et autres
Publié: (2026)

Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models
par: Xiong, Zidi, et autres
Publié: (2025)

DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution
par: Hu, Yunhai, et autres
Publié: (2026)

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations
par: Yi, Hang, et autres
Publié: (2026)

Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model
par: Lin, Chun-Hsien, et autres
Publié: (2024)

Self-Selected Attention Span for Accelerating Large Language Model Inference
par: Jin, Tian, et autres
Publié: (2024)

Causal Inference with Large Language Model: A Survey
par: Ma, Jing
Publié: (2024)

Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference
par: Chen, Hongzheng, et autres
Publié: (2023)

Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models
par: Wu, Shutong, et autres
Publié: (2025)

Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
par: Zhou, Guanghao, et autres
Publié: (2025)

Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity
par: Yan, Guang, et autres
Publié: (2025)

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
par: Chen, Sihan, et autres
Publié: (2025)

SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting
par: Xu, Jiaming, et autres
Publié: (2025)

Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models
par: Huang, Jerry, et autres
Publié: (2024)

SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding
par: Sun, Ryan, et autres
Publié: (2024)

Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference
par: Chen, Chun-Ting, et autres
Publié: (2025)

Dynamic Compressing Prompts for Efficient Inference of Large Language Models
par: Hu, Jinwu, et autres
Publié: (2025)

D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting
par: Wu, Tianyu, et autres
Publié: (2026)

Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
par: Zhao, Yao, et autres
Publié: (2023)

Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling
par: Chen, Yitian, et autres
Publié: (2025)

Unveiling the Reasoning Process of Large Language Models
par: Zhang, Junjie, et autres
Publié: (2026)

ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
par: Zhao, Youpeng, et autres
Publié: (2024)

dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
par: Liu, Zhiyuan, et autres
Publié: (2025)

TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference
par: Park, Jiyoung, et autres
Publié: (2026)

Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding
par: He, Jinlong, et autres
Publié: (2024)

SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning
par: Liu, Yihao, et autres
Publié: (2025)

Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
par: Li, Qingyuan, et autres
Publié: (2024)

Challenges and Research Directions for Large Language Model Inference Hardware
par: Ma, Xiaoyu, et autres
Publié: (2026)

Efficient Verification of a RADAR SoC Using Formal and Simulation-Based Methods
par: Kumar, Aman, et autres
Publié: (2024)

Automated Review Generation Method Based on Large Language Models
par: Wu, Shican, et autres
Publié: (2024)