:: Library Catalog

कवर छवि

में बचाया:

ग्रंथसूची विवरण
मुख्य लेखकों:	Lyu, Hongtao, Liu, Boyue, Wu, Mingyu, Chen, Haibo
स्वरूप:	Preprint
प्रकाशित:	2025
विषय:	Distributed, Parallel, and Cluster Computing Artificial Intelligence
ऑनलाइन पहुंच:	https://arxiv.org/abs/2510.14392
टैग:	टैग जोड़ें कोई टैग नहीं, इस रिकॉर्ड को टैग करने वाले पहले व्यक्ति बनें!

समान संसाधन

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching
द्वारा: Zheng, Zhen, और अन्य
प्रकाशित: (2024)

BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving
द्वारा: Zheng, Wanyi, और अन्य
प्रकाशित: (2025)

Constraint Programming Models For Serial Batch Scheduling With Minimum Batch Size
द्वारा: Huertas, Jorge A., और अन्य
प्रकाशित: (2025)

HarmonyBatch: Batching multi-SLO DNN Inference with Heterogeneous Serverless Functions
द्वारा: Chen, Jiabin, और अन्य
प्रकाशित: (2024)

Herring: Parallel Batch-Order-Fairness on DAG-based Blockchain Consensus
द्वारा: Putnik, Marko, और अन्य
प्रकाशित: (2026)

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
द्वारा: Zheng, Yijie, और अन्य
प्रकाशित: (2025)

Equinox: Holistic Fair Scheduling in Serving Large Language Models
द्वारा: Wei, Zhixiang, और अन्य
प्रकाशित: (2025)

On Using Large-Batches in Federated Learning
द्वारा: Tyagi, Sahil
प्रकाशित: (2025)

FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference
द्वारा: Zhao, Bingzhe, और अन्य
प्रकाशित: (2025)

Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
द्वारा: Chen, Huamin, और अन्य
प्रकाशित: (2026)

A Parallel CPU-GPU Framework for Batching Heuristic Operations in Depth-First Heuristic Search
द्वारा: Futuhi, Ehsan, और अन्य
प्रकाशित: (2025)

Justitia: Fair and Efficient Scheduling of Task-parallel LLM Agents with Selective Pampering
द्वारा: Yang, Mingyan, और अन्य
प्रकाशित: (2025)

Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks
द्वारा: Li, Haiyuan, और अन्य
प्रकाशित: (2026)

ProMoE: Fast MoE-based LLM Serving using Proactive Caching
द्वारा: Song, Xiaoniu, और अन्य
प्रकाशित: (2024)

Fairness-Aware Job Scheduling for Multi-Job Federated Learning
द्वारा: Shi, Yuxin, और अन्य
प्रकाशित: (2024)

TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms
द्वारा: Stojkovic, Jovan, और अन्य
प्रकाशित: (2025)

Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
द्वारा: Kim, Joon Ha, और अन्य
प्रकाशित: (2026)

AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
द्वारा: Li, Siyuan, और अन्य
प्रकाशित: (2024)

MineDraft: A Framework for Batch Parallel Speculative Decoding
द्वारा: Tang, Zhenwei, और अन्य
प्रकाशित: (2026)

KunServe: Parameter-centric Memory Management for Efficient Memory Overloading Handling in LLM Serving
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2024)

CONCUR: High-Throughput Agentic Batch Inference of LLM via Congestion-Based Concurrency Control
द्वारा: Chen, Qiaoling, और अन्य
प्रकाशित: (2026)

DeServe: Towards Affordable Offline LLM Inference via Decentralization
द्वारा: Wu, Linyu, और अन्य
प्रकाशित: (2025)

Optimizing LLM Inference Throughput via Memory-aware and SLA-constrained Dynamic Batching
द्वारा: Pang, Bowen, और अन्य
प्रकाशित: (2025)

Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures
द्वारा: Argerich, Mauricio Fadel, और अन्य
प्रकाशित: (2026)

FedSAC: Dynamic Submodel Allocation for Collaborative Fairness in Federated Learning
द्वारा: Wang, Zihui, और अन्य
प्रकाशित: (2024)

Characterizing Mobile SoC for Accelerating Heterogeneous LLM Inference
द्वारा: Chen, Le, और अन्य
प्रकाशित: (2025)

FedFair^3: Unlocking Threefold Fairness in Federated Learning
द्वारा: Javaherian, Simin, और अन्य
प्रकाशित: (2024)

FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference
द्वारा: Liu, Xing, और अन्य
प्रकाशित: (2025)

Joint Optimization of Offloading, Batching and DVFS for Multiuser Co-Inference
द्वारा: Xu, Yaodan, और अन्य
प्रकाशित: (2025)

Design a Win-Win Strategy That Is Fair to Both Service Providers and Tasks When Rejection Is Not an Option
द्वारा: Trabelsi, Yohai, और अन्य
प्रकाशित: (2024)

GetBatch: Distributed Multi-Object Retrieval for ML Data Loading
द्वारा: Aizman, Alex, और अन्य
प्रकाशित: (2026)

Hybrid Batch Normalisation: Resolving the Dilemma of Batch Normalisation in Federated Learning
द्वारा: Chen, Hongyao, और अन्य
प्रकाशित: (2025)

Fast LLM Post-training via Decoupled and Fastest-of-N Speculation
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2025)

LAPS: A Length-Aware-Prefill LLM Serving System
द्वारा: She, Jianshu, और अन्य
प्रकाशित: (2026)

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
द्वारा: Li, Rongzhi, और अन्य
प्रकाशित: (2025)

GPU-Accelerated Batch-Dynamic Subgraph Matching
द्वारा: Qiu, Linshan, और अन्य
प्रकाशित: (2024)

Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput
द्वारा: Song, Jingwei, और अन्य
प्रकाशित: (2025)

TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
द्वारा: Liu, Dong, और अन्य
प्रकाशित: (2025)

Accelerating LLM Inference with Precomputed Query Storage
द्वारा: Park, Jay H., और अन्य
प्रकाशित: (2025)

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
द्वारा: Recasens, Pol G., और अन्य
प्रकाशित: (2025)