:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yang, Weihao, Huang, Hao, Wu, Donglei, Li, Ningke, Pan, Yanqi, Zheng, Qiyang, Xia, Wen, Li, Shiyi, Wang, Qiang
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Distributed, Parallel, and Cluster Computing Artificial Intelligence Machine Learning
Accesso online:	https://arxiv.org/abs/2510.19470
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

HAP: Hybrid Adaptive Parallelism for Efficient Mixture-of-Experts Inference
di: Lin, Haoran, et al.
Pubblicazione: (2025)

UniEP: Unified Expert-Parallel MoE MegaKernel for LLM Training
di: Zheng, Size, et al.
Pubblicazione: (2026)

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism
di: Zhu, Ruidong, et al.
Pubblicazione: (2025)

NanoCP: Request-Level Dynamic Context Parallelism for Data-Expert Parallel Decoding
di: Chen, Jiefei, et al.
Pubblicazione: (2026)

Toward Cost-Efficient Serving of Mixture-of-Experts with Asynchrony
di: Wang, Shaoyu, et al.
Pubblicazione: (2025)

Oases: Efficient Large-Scale Model Training on Commodity Servers via Overlapped and Automated Tensor Model Parallelism
di: Li, Shengwei, et al.
Pubblicazione: (2023)

MuxTune: Efficient Multi-Task LLM Fine-Tuning in Multi-Tenant Datacenters via Spatial-Temporal Backbone Multiplexing
di: Xue, Chunyu, et al.
Pubblicazione: (2026)

ExpertWeave: Efficiently Serving Expert-Specialized Fine-Tuned Adapters at Scale
di: Shi, Ge, et al.
Pubblicazione: (2025)

CrossPipe: Towards Optimal Pipeline Schedules for Cross-Datacenter Training
di: Chen, Tiancheng, et al.
Pubblicazione: (2025)

QAOA in Quantum Datacenters: Parallelization, Simulation, and Orchestration
di: Liaqat, Amana, et al.
Pubblicazione: (2025)

UCCL-EP: Portable Expert-Parallel Communication
di: Mao, Ziming, et al.
Pubblicazione: (2025)

Fault-Tolerant Hybrid-Parallel Training at Scale with Reliable and Efficient In-memory Checkpointing
di: Wang, Yuxin, et al.
Pubblicazione: (2023)

DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism
di: Niu, Yifan, et al.
Pubblicazione: (2026)

Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter
di: Qin, Ruoyu, et al.
Pubblicazione: (2026)

Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization
di: Li, Haoyang, et al.
Pubblicazione: (2024)

MoEntwine: Unleashing the Potential of Wafer-scale Chips for Large-scale Expert Parallel Inference
di: Tang, Xinru, et al.
Pubblicazione: (2025)

Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference
di: Sun, Xun, et al.
Pubblicazione: (2026)

Capsule: Efficient Player Isolation for Datacenters
di: Du, Zhouheng, et al.
Pubblicazione: (2025)

Stable-MoE: Lyapunov-based Token Routing for Distributed Mixture-of-Experts Training over Edge Networks
di: Shi, Long, et al.
Pubblicazione: (2025)

ElasticMoE: An Efficient Auto Scaling Method for Mixture-of-Experts Models
di: Singh, Gursimran, et al.
Pubblicazione: (2025)

Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts
di: Cai, Weilin, et al.
Pubblicazione: (2024)

Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
di: Pan, Xinglin, et al.
Pubblicazione: (2025)

ElasWave: An Elastic-Native System for Scalable Hybrid-Parallel Training
di: Kang, Xueze, et al.
Pubblicazione: (2025)

Datacenter Energy Optimized Power Profiles
di: Narayanaswamy, Sreedhar, et al.
Pubblicazione: (2025)

Uncertainty-Aware Decarbonization for Datacenters
di: Li, Amy, et al.
Pubblicazione: (2024)

Elastic Mixture of Rank-Wise Experts for Knowledge Reuse in Federated Fine-Tuning
di: Wu, Yebo, et al.
Pubblicazione: (2025)

Adaptra: Straggler-Resilient Hybrid-Parallel Training with Pipeline Adaptation
di: Wu, Tianyuan, et al.
Pubblicazione: (2025)

MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts
di: Wang, Wenfeng, et al.
Pubblicazione: (2025)

Serving Compound Inference Systems on Datacenter GPUs
di: Devata, Sriram, et al.
Pubblicazione: (2026)

Survey of Disaggregated Memory: Cross-layer Technique Insights for Next-Generation Datacenters
di: Wang, Jing, et al.
Pubblicazione: (2025)

FALCON: Pinpointing and Mitigating Stragglers for Large-Scale Hybrid-Parallel Training
di: Wu, Tianyuan, et al.
Pubblicazione: (2024)

ResiHP: Taming LLM Training Failures with Dynamic Hybrid Parallelism
di: Ma, Tenghui, et al.
Pubblicazione: (2026)

High-Performance Sorting-Based k-mer Counting in Distributed Memory with Flexible Hybrid Parallelism
di: Li, Yifan, et al.
Pubblicazione: (2024)

Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference
di: Luo, Shuqing, et al.
Pubblicazione: (2025)

Hexa-MoE: Efficient and Heterogeneous-aware Training for Mixture-of-Experts
di: Luo, Shuqing, et al.
Pubblicazione: (2024)

Parallel GPU-Enabled Algorithms for SpGEMM on Arbitrary Semirings with Hybrid Communication
di: McFarland, Thomas, et al.
Pubblicazione: (2025)

InternEvo: Efficient Long-sequence Large Language Model Training via Hybrid Parallelism and Redundant Sharding
di: Chen, Qiaoling, et al.
Pubblicazione: (2024)

LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
di: Liu, Xinyi, et al.
Pubblicazione: (2026)

MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production
di: Jin, Chao, et al.
Pubblicazione: (2025)

OD-MoE: On-Demand Expert Loading for Cacheless Edge-Distributed MoE Inference
di: Wang, Liujianfu, et al.
Pubblicazione: (2025)