Gespeichert in:
| Hauptverfasser: | Chen, Lei, Liu, Shi, Wang, Chenxi, Ma, Haoran, Qiao, Yifan, Wang, Zhe, Wu, Chenggang, Lu, Youyou, Feng, Xiaobing, Cui, Huimin, Lu, Shan, Xu, Harry |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2406.16005 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
DRust: Language-Guided Distributed Shared Memory with Fine Granularity, Full Transparency, and Ultra Efficiency
von: Ma, Haoran, et al.
Veröffentlicht: (2024)
von: Ma, Haoran, et al.
Veröffentlicht: (2024)
SwitchDelta: Asynchronous Metadata Updating for Distributed Storage with In-Network Data Visibility
von: Li, Junru, et al.
Veröffentlicht: (2025)
von: Li, Junru, et al.
Veröffentlicht: (2025)
A Tale of Two Scales: Reconciling Horizontal and Vertical Scaling for Inference Serving Systems
von: Razavi, Kamran, et al.
Veröffentlicht: (2024)
von: Razavi, Kamran, et al.
Veröffentlicht: (2024)
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
von: Hu, Cunchen, et al.
Veröffentlicht: (2024)
von: Hu, Cunchen, et al.
Veröffentlicht: (2024)
KCES: A Workflow Containerization Scheduling Scheme Under Cloud-Edge Collaboration Framework
von: Shan, Chenggang, et al.
Veröffentlicht: (2024)
von: Shan, Chenggang, et al.
Veröffentlicht: (2024)
Adaptive Resource Allocation for Workflow Containerization on Kubernetes
von: Shan, Chenggang, et al.
Veröffentlicht: (2023)
von: Shan, Chenggang, et al.
Veröffentlicht: (2023)
Lambdas at the Far Edge: a Tale of Flying Lambdas and Lambdas on Wheels
von: Audrito, Giorgio, et al.
Veröffentlicht: (2026)
von: Audrito, Giorgio, et al.
Veröffentlicht: (2026)
High-Performance Sorting-Based k-mer Counting in Distributed Memory with Flexible Hybrid Parallelism
von: Li, Yifan, et al.
Veröffentlicht: (2024)
von: Li, Yifan, et al.
Veröffentlicht: (2024)
SAGkit: A Python SAG Toolkit for Response Time Analysis of Hybrid-Triggered Jobs
von: Cao, Ruide, et al.
Veröffentlicht: (2025)
von: Cao, Ruide, et al.
Veröffentlicht: (2025)
A Hybrid Cloud Management Plane for Data Processing Pipelines
von: Babu, Vignesh, et al.
Veröffentlicht: (2025)
von: Babu, Vignesh, et al.
Veröffentlicht: (2025)
Hummingbird: SLO-Oriented GPU Preemption at Microsecond-scale
von: Hu, Tiancheng, et al.
Veröffentlicht: (2026)
von: Hu, Tiancheng, et al.
Veröffentlicht: (2026)
On the Performance and Memory Footprint of Distributed Training: An Empirical Study on Transformers
von: Lu, Zhengxian, et al.
Veröffentlicht: (2024)
von: Lu, Zhengxian, et al.
Veröffentlicht: (2024)
DAWN: Matrix Operation-Optimized Algorithm for Shortest Paths Problem on Unweighted Graphs
von: Feng, Yelai, et al.
Veröffentlicht: (2022)
von: Feng, Yelai, et al.
Veröffentlicht: (2022)
MPI-Q: A Message Communication Library for Large-Scale Classical-Quantum Heterogeneous Hybrid Distributed Computing
von: Wang, Feng, et al.
Veröffentlicht: (2026)
von: Wang, Feng, et al.
Veröffentlicht: (2026)
Tessera: Unlocking Heterogeneous GPUs through Kernel-Granularity Disaggregation
von: Hu, Tiancheng, et al.
Veröffentlicht: (2026)
von: Hu, Tiancheng, et al.
Veröffentlicht: (2026)
ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving
von: Qiao, Yifan, et al.
Veröffentlicht: (2024)
von: Qiao, Yifan, et al.
Veröffentlicht: (2024)
OMP-Engineer: Bridging Syntax Analysis and In-Context Learning for Efficient Automated OpenMP Parallelization
von: Wang, Weidong, et al.
Veröffentlicht: (2024)
von: Wang, Weidong, et al.
Veröffentlicht: (2024)
Efficient Training on Multiple Consumer GPUs with RoundPipe
von: Luo, Yibin, et al.
Veröffentlicht: (2026)
von: Luo, Yibin, et al.
Veröffentlicht: (2026)
ResiHP: Taming LLM Training Failures with Dynamic Hybrid Parallelism
von: Ma, Tenghui, et al.
Veröffentlicht: (2026)
von: Ma, Tenghui, et al.
Veröffentlicht: (2026)
Adaptra: Straggler-Resilient Hybrid-Parallel Training with Pipeline Adaptation
von: Wu, Tianyuan, et al.
Veröffentlicht: (2025)
von: Wu, Tianyuan, et al.
Veröffentlicht: (2025)
INDIGO: Page Migration for Hardware Memory Disaggregation Across a Network
von: Patke, Archit, et al.
Veröffentlicht: (2025)
von: Patke, Archit, et al.
Veröffentlicht: (2025)
An Empirical Study of Production Incidents in Generative AI Cloud Services
von: Yan, Haoran, et al.
Veröffentlicht: (2025)
von: Yan, Haoran, et al.
Veröffentlicht: (2025)
Towards Efficient and Practical GPU Multitasking in the Era of LLM
von: Xing, Jiarong, et al.
Veröffentlicht: (2025)
von: Xing, Jiarong, et al.
Veröffentlicht: (2025)
DEX: Scalable Range Indexing on Disaggregated Memory [Extended Version]
von: Lu, Baotong, et al.
Veröffentlicht: (2024)
von: Lu, Baotong, et al.
Veröffentlicht: (2024)
NL-CPS: Reinforcement Learning-Based Kubernetes Control Plane Placement in Multi-Region Clusters
von: Alam, Sajid, et al.
Veröffentlicht: (2026)
von: Alam, Sajid, et al.
Veröffentlicht: (2026)
Exploiting the Uncertainty of the Longest Paths: Response Time Analysis for Probabilistic DAG Tasks
von: Gao, Yiyang, et al.
Veröffentlicht: (2025)
von: Gao, Yiyang, et al.
Veröffentlicht: (2025)
A Heuristic Algorithm for Shortest Path Search
von: Yu, Huashan, et al.
Veröffentlicht: (2025)
von: Yu, Huashan, et al.
Veröffentlicht: (2025)
AME: An Efficient Heterogeneous Agentic Memory Engine for Smartphones
von: Zhao, Xinkui, et al.
Veröffentlicht: (2025)
von: Zhao, Xinkui, et al.
Veröffentlicht: (2025)
Justin: Hybrid CPU/Memory Elastic Scaling for Distributed Stream Processing
von: Schmitz, Donatien, et al.
Veröffentlicht: (2025)
von: Schmitz, Donatien, et al.
Veröffentlicht: (2025)
MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments
von: Liu, Guangyi, et al.
Veröffentlicht: (2026)
von: Liu, Guangyi, et al.
Veröffentlicht: (2026)
Towards Affordable, Adaptive and Automatic GNN Training on CPU-GPU Heterogeneous Platforms
von: Qiao, Tong, et al.
Veröffentlicht: (2025)
von: Qiao, Tong, et al.
Veröffentlicht: (2025)
Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads
von: Hu, Cunchen, et al.
Veröffentlicht: (2024)
von: Hu, Cunchen, et al.
Veröffentlicht: (2024)
Breaking the Memory Wall: A Study of I/O Patterns and GPU Memory Utilization for Hybrid CPU-GPU Offloaded Optimizers
von: Maurya, Avinash, et al.
Veröffentlicht: (2024)
von: Maurya, Avinash, et al.
Veröffentlicht: (2024)
Frenzy: A Memory-Aware Serverless LLM Training System for Heterogeneous GPU Clusters
von: Chang, Zihan, et al.
Veröffentlicht: (2024)
von: Chang, Zihan, et al.
Veröffentlicht: (2024)
Prefetching in Deep Memory Hierarchies with NVRAM as Main Memory
von: Lurbe, Manel, et al.
Veröffentlicht: (2025)
von: Lurbe, Manel, et al.
Veröffentlicht: (2025)
Pythia: Exploiting Workflow Predictability for Efficient Agent-Native LLM Serving
von: Yu, Shan, et al.
Veröffentlicht: (2026)
von: Yu, Shan, et al.
Veröffentlicht: (2026)
Toward Efficient SpMV in Sparse LLMs via Block Extraction and Compressed Storage
von: Lin, Junqing, et al.
Veröffentlicht: (2025)
von: Lin, Junqing, et al.
Veröffentlicht: (2025)
MemFine: Memory-Aware Fine-Grained Scheduling for MoE Training
von: Zhao, Lu, et al.
Veröffentlicht: (2025)
von: Zhao, Lu, et al.
Veröffentlicht: (2025)
Towards Privacy-, Budget-, and Deadline-Aware Service Optimization for Large Medical Image Processing across Hybrid Clouds
von: Wang, Yuandou, et al.
Veröffentlicht: (2024)
von: Wang, Yuandou, et al.
Veröffentlicht: (2024)
DiOMP-Offloading: Toward Portable Distributed Heterogeneous OpenMP
von: Shan, Baodi, et al.
Veröffentlicht: (2025)
von: Shan, Baodi, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
DRust: Language-Guided Distributed Shared Memory with Fine Granularity, Full Transparency, and Ultra Efficiency
von: Ma, Haoran, et al.
Veröffentlicht: (2024) -
SwitchDelta: Asynchronous Metadata Updating for Distributed Storage with In-Network Data Visibility
von: Li, Junru, et al.
Veröffentlicht: (2025) -
A Tale of Two Scales: Reconciling Horizontal and Vertical Scaling for Inference Serving Systems
von: Razavi, Kamran, et al.
Veröffentlicht: (2024) -
MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
von: Hu, Cunchen, et al.
Veröffentlicht: (2024) -
KCES: A Workflow Containerization Scheduling Scheme Under Cloud-Edge Collaboration Framework
von: Shan, Chenggang, et al.
Veröffentlicht: (2024)