Salvato in:
| Autori principali: | Yang, Weihao, Huang, Hao, Wu, Donglei, Li, Ningke, Pan, Yanqi, Zheng, Qiyang, Xia, Wen, Li, Shiyi, Wang, Qiang |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.19470 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
HAP: Hybrid Adaptive Parallelism for Efficient Mixture-of-Experts Inference
di: Lin, Haoran, et al.
Pubblicazione: (2025)
di: Lin, Haoran, et al.
Pubblicazione: (2025)
UniEP: Unified Expert-Parallel MoE MegaKernel for LLM Training
di: Zheng, Size, et al.
Pubblicazione: (2026)
di: Zheng, Size, et al.
Pubblicazione: (2026)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism
di: Zhu, Ruidong, et al.
Pubblicazione: (2025)
di: Zhu, Ruidong, et al.
Pubblicazione: (2025)
NanoCP: Request-Level Dynamic Context Parallelism for Data-Expert Parallel Decoding
di: Chen, Jiefei, et al.
Pubblicazione: (2026)
di: Chen, Jiefei, et al.
Pubblicazione: (2026)
Toward Cost-Efficient Serving of Mixture-of-Experts with Asynchrony
di: Wang, Shaoyu, et al.
Pubblicazione: (2025)
di: Wang, Shaoyu, et al.
Pubblicazione: (2025)
Oases: Efficient Large-Scale Model Training on Commodity Servers via Overlapped and Automated Tensor Model Parallelism
di: Li, Shengwei, et al.
Pubblicazione: (2023)
di: Li, Shengwei, et al.
Pubblicazione: (2023)
MuxTune: Efficient Multi-Task LLM Fine-Tuning in Multi-Tenant Datacenters via Spatial-Temporal Backbone Multiplexing
di: Xue, Chunyu, et al.
Pubblicazione: (2026)
di: Xue, Chunyu, et al.
Pubblicazione: (2026)
ExpertWeave: Efficiently Serving Expert-Specialized Fine-Tuned Adapters at Scale
di: Shi, Ge, et al.
Pubblicazione: (2025)
di: Shi, Ge, et al.
Pubblicazione: (2025)
CrossPipe: Towards Optimal Pipeline Schedules for Cross-Datacenter Training
di: Chen, Tiancheng, et al.
Pubblicazione: (2025)
di: Chen, Tiancheng, et al.
Pubblicazione: (2025)
QAOA in Quantum Datacenters: Parallelization, Simulation, and Orchestration
di: Liaqat, Amana, et al.
Pubblicazione: (2025)
di: Liaqat, Amana, et al.
Pubblicazione: (2025)
UCCL-EP: Portable Expert-Parallel Communication
di: Mao, Ziming, et al.
Pubblicazione: (2025)
di: Mao, Ziming, et al.
Pubblicazione: (2025)
Fault-Tolerant Hybrid-Parallel Training at Scale with Reliable and Efficient In-memory Checkpointing
di: Wang, Yuxin, et al.
Pubblicazione: (2023)
di: Wang, Yuxin, et al.
Pubblicazione: (2023)
DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism
di: Niu, Yifan, et al.
Pubblicazione: (2026)
di: Niu, Yifan, et al.
Pubblicazione: (2026)
Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter
di: Qin, Ruoyu, et al.
Pubblicazione: (2026)
di: Qin, Ruoyu, et al.
Pubblicazione: (2026)
Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization
di: Li, Haoyang, et al.
Pubblicazione: (2024)
di: Li, Haoyang, et al.
Pubblicazione: (2024)
MoEntwine: Unleashing the Potential of Wafer-scale Chips for Large-scale Expert Parallel Inference
di: Tang, Xinru, et al.
Pubblicazione: (2025)
di: Tang, Xinru, et al.
Pubblicazione: (2025)
Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference
di: Sun, Xun, et al.
Pubblicazione: (2026)
di: Sun, Xun, et al.
Pubblicazione: (2026)
Capsule: Efficient Player Isolation for Datacenters
di: Du, Zhouheng, et al.
Pubblicazione: (2025)
di: Du, Zhouheng, et al.
Pubblicazione: (2025)
Stable-MoE: Lyapunov-based Token Routing for Distributed Mixture-of-Experts Training over Edge Networks
di: Shi, Long, et al.
Pubblicazione: (2025)
di: Shi, Long, et al.
Pubblicazione: (2025)
ElasticMoE: An Efficient Auto Scaling Method for Mixture-of-Experts Models
di: Singh, Gursimran, et al.
Pubblicazione: (2025)
di: Singh, Gursimran, et al.
Pubblicazione: (2025)
Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts
di: Cai, Weilin, et al.
Pubblicazione: (2024)
di: Cai, Weilin, et al.
Pubblicazione: (2024)
Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
di: Pan, Xinglin, et al.
Pubblicazione: (2025)
di: Pan, Xinglin, et al.
Pubblicazione: (2025)
ElasWave: An Elastic-Native System for Scalable Hybrid-Parallel Training
di: Kang, Xueze, et al.
Pubblicazione: (2025)
di: Kang, Xueze, et al.
Pubblicazione: (2025)
Datacenter Energy Optimized Power Profiles
di: Narayanaswamy, Sreedhar, et al.
Pubblicazione: (2025)
di: Narayanaswamy, Sreedhar, et al.
Pubblicazione: (2025)
Uncertainty-Aware Decarbonization for Datacenters
di: Li, Amy, et al.
Pubblicazione: (2024)
di: Li, Amy, et al.
Pubblicazione: (2024)
Elastic Mixture of Rank-Wise Experts for Knowledge Reuse in Federated Fine-Tuning
di: Wu, Yebo, et al.
Pubblicazione: (2025)
di: Wu, Yebo, et al.
Pubblicazione: (2025)
Adaptra: Straggler-Resilient Hybrid-Parallel Training with Pipeline Adaptation
di: Wu, Tianyuan, et al.
Pubblicazione: (2025)
di: Wu, Tianyuan, et al.
Pubblicazione: (2025)
MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts
di: Wang, Wenfeng, et al.
Pubblicazione: (2025)
di: Wang, Wenfeng, et al.
Pubblicazione: (2025)
Serving Compound Inference Systems on Datacenter GPUs
di: Devata, Sriram, et al.
Pubblicazione: (2026)
di: Devata, Sriram, et al.
Pubblicazione: (2026)
Survey of Disaggregated Memory: Cross-layer Technique Insights for Next-Generation Datacenters
di: Wang, Jing, et al.
Pubblicazione: (2025)
di: Wang, Jing, et al.
Pubblicazione: (2025)
FALCON: Pinpointing and Mitigating Stragglers for Large-Scale Hybrid-Parallel Training
di: Wu, Tianyuan, et al.
Pubblicazione: (2024)
di: Wu, Tianyuan, et al.
Pubblicazione: (2024)
ResiHP: Taming LLM Training Failures with Dynamic Hybrid Parallelism
di: Ma, Tenghui, et al.
Pubblicazione: (2026)
di: Ma, Tenghui, et al.
Pubblicazione: (2026)
High-Performance Sorting-Based k-mer Counting in Distributed Memory with Flexible Hybrid Parallelism
di: Li, Yifan, et al.
Pubblicazione: (2024)
di: Li, Yifan, et al.
Pubblicazione: (2024)
Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference
di: Luo, Shuqing, et al.
Pubblicazione: (2025)
di: Luo, Shuqing, et al.
Pubblicazione: (2025)
Hexa-MoE: Efficient and Heterogeneous-aware Training for Mixture-of-Experts
di: Luo, Shuqing, et al.
Pubblicazione: (2024)
di: Luo, Shuqing, et al.
Pubblicazione: (2024)
Parallel GPU-Enabled Algorithms for SpGEMM on Arbitrary Semirings with Hybrid Communication
di: McFarland, Thomas, et al.
Pubblicazione: (2025)
di: McFarland, Thomas, et al.
Pubblicazione: (2025)
InternEvo: Efficient Long-sequence Large Language Model Training via Hybrid Parallelism and Redundant Sharding
di: Chen, Qiaoling, et al.
Pubblicazione: (2024)
di: Chen, Qiaoling, et al.
Pubblicazione: (2024)
LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
di: Liu, Xinyi, et al.
Pubblicazione: (2026)
di: Liu, Xinyi, et al.
Pubblicazione: (2026)
MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production
di: Jin, Chao, et al.
Pubblicazione: (2025)
di: Jin, Chao, et al.
Pubblicazione: (2025)
OD-MoE: On-Demand Expert Loading for Cacheless Edge-Distributed MoE Inference
di: Wang, Liujianfu, et al.
Pubblicazione: (2025)
di: Wang, Liujianfu, et al.
Pubblicazione: (2025)
Documenti analoghi
-
HAP: Hybrid Adaptive Parallelism for Efficient Mixture-of-Experts Inference
di: Lin, Haoran, et al.
Pubblicazione: (2025) -
UniEP: Unified Expert-Parallel MoE MegaKernel for LLM Training
di: Zheng, Size, et al.
Pubblicazione: (2026) -
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism
di: Zhu, Ruidong, et al.
Pubblicazione: (2025) -
NanoCP: Request-Level Dynamic Context Parallelism for Data-Expert Parallel Decoding
di: Chen, Jiefei, et al.
Pubblicazione: (2026) -
Toward Cost-Efficient Serving of Mixture-of-Experts with Asynchrony
di: Wang, Shaoyu, et al.
Pubblicazione: (2025)