में बचाया:
| मुख्य लेखकों: | Lyu, Hongtao, Liu, Boyue, Wu, Mingyu, Chen, Haibo |
|---|---|
| स्वरूप: | Preprint |
| प्रकाशित: |
2025
|
| विषय: | |
| ऑनलाइन पहुंच: | https://arxiv.org/abs/2510.14392 |
| टैग: |
टैग जोड़ें
कोई टैग नहीं, इस रिकॉर्ड को टैग करने वाले पहले व्यक्ति बनें!
|
समान संसाधन
BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching
द्वारा: Zheng, Zhen, और अन्य
प्रकाशित: (2024)
द्वारा: Zheng, Zhen, और अन्य
प्रकाशित: (2024)
BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving
द्वारा: Zheng, Wanyi, और अन्य
प्रकाशित: (2025)
द्वारा: Zheng, Wanyi, और अन्य
प्रकाशित: (2025)
Constraint Programming Models For Serial Batch Scheduling With Minimum Batch Size
द्वारा: Huertas, Jorge A., और अन्य
प्रकाशित: (2025)
द्वारा: Huertas, Jorge A., और अन्य
प्रकाशित: (2025)
HarmonyBatch: Batching multi-SLO DNN Inference with Heterogeneous Serverless Functions
द्वारा: Chen, Jiabin, और अन्य
प्रकाशित: (2024)
द्वारा: Chen, Jiabin, और अन्य
प्रकाशित: (2024)
Herring: Parallel Batch-Order-Fairness on DAG-based Blockchain Consensus
द्वारा: Putnik, Marko, और अन्य
प्रकाशित: (2026)
द्वारा: Putnik, Marko, और अन्य
प्रकाशित: (2026)
OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
द्वारा: Zheng, Yijie, और अन्य
प्रकाशित: (2025)
द्वारा: Zheng, Yijie, और अन्य
प्रकाशित: (2025)
Equinox: Holistic Fair Scheduling in Serving Large Language Models
द्वारा: Wei, Zhixiang, और अन्य
प्रकाशित: (2025)
द्वारा: Wei, Zhixiang, और अन्य
प्रकाशित: (2025)
On Using Large-Batches in Federated Learning
द्वारा: Tyagi, Sahil
प्रकाशित: (2025)
द्वारा: Tyagi, Sahil
प्रकाशित: (2025)
FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference
द्वारा: Zhao, Bingzhe, और अन्य
प्रकाशित: (2025)
द्वारा: Zhao, Bingzhe, और अन्य
प्रकाशित: (2025)
Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
द्वारा: Chen, Huamin, और अन्य
प्रकाशित: (2026)
द्वारा: Chen, Huamin, और अन्य
प्रकाशित: (2026)
A Parallel CPU-GPU Framework for Batching Heuristic Operations in Depth-First Heuristic Search
द्वारा: Futuhi, Ehsan, और अन्य
प्रकाशित: (2025)
द्वारा: Futuhi, Ehsan, और अन्य
प्रकाशित: (2025)
Justitia: Fair and Efficient Scheduling of Task-parallel LLM Agents with Selective Pampering
द्वारा: Yang, Mingyan, और अन्य
प्रकाशित: (2025)
द्वारा: Yang, Mingyan, और अन्य
प्रकाशित: (2025)
Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks
द्वारा: Li, Haiyuan, और अन्य
प्रकाशित: (2026)
द्वारा: Li, Haiyuan, और अन्य
प्रकाशित: (2026)
ProMoE: Fast MoE-based LLM Serving using Proactive Caching
द्वारा: Song, Xiaoniu, और अन्य
प्रकाशित: (2024)
द्वारा: Song, Xiaoniu, और अन्य
प्रकाशित: (2024)
Fairness-Aware Job Scheduling for Multi-Job Federated Learning
द्वारा: Shi, Yuxin, और अन्य
प्रकाशित: (2024)
द्वारा: Shi, Yuxin, और अन्य
प्रकाशित: (2024)
TAPAS: Thermal- and Power-Aware Scheduling for LLM Inference in Cloud Platforms
द्वारा: Stojkovic, Jovan, और अन्य
प्रकाशित: (2025)
द्वारा: Stojkovic, Jovan, और अन्य
प्रकाशित: (2025)
Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
द्वारा: Kim, Joon Ha, और अन्य
प्रकाशित: (2026)
द्वारा: Kim, Joon Ha, और अन्य
प्रकाशित: (2026)
AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster
द्वारा: Li, Siyuan, और अन्य
प्रकाशित: (2024)
द्वारा: Li, Siyuan, और अन्य
प्रकाशित: (2024)
MineDraft: A Framework for Batch Parallel Speculative Decoding
द्वारा: Tang, Zhenwei, और अन्य
प्रकाशित: (2026)
द्वारा: Tang, Zhenwei, और अन्य
प्रकाशित: (2026)
KunServe: Parameter-centric Memory Management for Efficient Memory Overloading Handling in LLM Serving
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2024)
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2024)
CONCUR: High-Throughput Agentic Batch Inference of LLM via Congestion-Based Concurrency Control
द्वारा: Chen, Qiaoling, और अन्य
प्रकाशित: (2026)
द्वारा: Chen, Qiaoling, और अन्य
प्रकाशित: (2026)
DeServe: Towards Affordable Offline LLM Inference via Decentralization
द्वारा: Wu, Linyu, और अन्य
प्रकाशित: (2025)
द्वारा: Wu, Linyu, और अन्य
प्रकाशित: (2025)
Optimizing LLM Inference Throughput via Memory-aware and SLA-constrained Dynamic Batching
द्वारा: Pang, Bowen, और अन्य
प्रकाशित: (2025)
द्वारा: Pang, Bowen, और अन्य
प्रकाशित: (2025)
Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures
द्वारा: Argerich, Mauricio Fadel, और अन्य
प्रकाशित: (2026)
द्वारा: Argerich, Mauricio Fadel, और अन्य
प्रकाशित: (2026)
FedSAC: Dynamic Submodel Allocation for Collaborative Fairness in Federated Learning
द्वारा: Wang, Zihui, और अन्य
प्रकाशित: (2024)
द्वारा: Wang, Zihui, और अन्य
प्रकाशित: (2024)
Characterizing Mobile SoC for Accelerating Heterogeneous LLM Inference
द्वारा: Chen, Le, और अन्य
प्रकाशित: (2025)
द्वारा: Chen, Le, और अन्य
प्रकाशित: (2025)
FedFair^3: Unlocking Threefold Fairness in Federated Learning
द्वारा: Javaherian, Simin, और अन्य
प्रकाशित: (2024)
द्वारा: Javaherian, Simin, और अन्य
प्रकाशित: (2024)
FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference
द्वारा: Liu, Xing, और अन्य
प्रकाशित: (2025)
द्वारा: Liu, Xing, और अन्य
प्रकाशित: (2025)
Joint Optimization of Offloading, Batching and DVFS for Multiuser Co-Inference
द्वारा: Xu, Yaodan, और अन्य
प्रकाशित: (2025)
द्वारा: Xu, Yaodan, और अन्य
प्रकाशित: (2025)
Design a Win-Win Strategy That Is Fair to Both Service Providers and Tasks When Rejection Is Not an Option
द्वारा: Trabelsi, Yohai, और अन्य
प्रकाशित: (2024)
द्वारा: Trabelsi, Yohai, और अन्य
प्रकाशित: (2024)
GetBatch: Distributed Multi-Object Retrieval for ML Data Loading
द्वारा: Aizman, Alex, और अन्य
प्रकाशित: (2026)
द्वारा: Aizman, Alex, और अन्य
प्रकाशित: (2026)
Hybrid Batch Normalisation: Resolving the Dilemma of Batch Normalisation in Federated Learning
द्वारा: Chen, Hongyao, और अन्य
प्रकाशित: (2025)
द्वारा: Chen, Hongyao, और अन्य
प्रकाशित: (2025)
Fast LLM Post-training via Decoupled and Fastest-of-N Speculation
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2025)
द्वारा: Cheng, Rongxin, और अन्य
प्रकाशित: (2025)
LAPS: A Length-Aware-Prefill LLM Serving System
द्वारा: She, Jianshu, और अन्य
प्रकाशित: (2026)
द्वारा: She, Jianshu, और अन्य
प्रकाशित: (2026)
Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
द्वारा: Li, Rongzhi, और अन्य
प्रकाशित: (2025)
द्वारा: Li, Rongzhi, और अन्य
प्रकाशित: (2025)
GPU-Accelerated Batch-Dynamic Subgraph Matching
द्वारा: Qiu, Linshan, और अन्य
प्रकाशित: (2024)
द्वारा: Qiu, Linshan, और अन्य
प्रकाशित: (2024)
Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput
द्वारा: Song, Jingwei, और अन्य
प्रकाशित: (2025)
द्वारा: Song, Jingwei, और अन्य
प्रकाशित: (2025)
TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
द्वारा: Liu, Dong, और अन्य
प्रकाशित: (2025)
द्वारा: Liu, Dong, और अन्य
प्रकाशित: (2025)
Accelerating LLM Inference with Precomputed Query Storage
द्वारा: Park, Jay H., और अन्य
प्रकाशित: (2025)
द्वारा: Park, Jay H., और अन्य
प्रकाशित: (2025)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
द्वारा: Recasens, Pol G., और अन्य
प्रकाशित: (2025)
द्वारा: Recasens, Pol G., और अन्य
प्रकाशित: (2025)
समान संसाधन
-
BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching
द्वारा: Zheng, Zhen, और अन्य
प्रकाशित: (2024) -
BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving
द्वारा: Zheng, Wanyi, और अन्य
प्रकाशित: (2025) -
Constraint Programming Models For Serial Batch Scheduling With Minimum Batch Size
द्वारा: Huertas, Jorge A., और अन्य
प्रकाशित: (2025) -
HarmonyBatch: Batching multi-SLO DNN Inference with Heterogeneous Serverless Functions
द्वारा: Chen, Jiabin, और अन्य
प्रकाशित: (2024) -
Herring: Parallel Batch-Order-Fairness on DAG-based Blockchain Consensus
द्वारा: Putnik, Marko, और अन्य
प्रकाशित: (2026)