:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Charrwi, Mohammad Walid, Hussain, Zaid
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Distributed, Parallel, and Cluster Computing Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2601.21090
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Resilient Packet Forwarding: A Reinforcement Learning Approach to Routing in Gaussian Interconnected Networks with Clustered Faults
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)

Toward Self-Healing Networks-on-Chip: RL-Driven Routing in 2D Torus Architectures
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)

Adaptive Fault Tolerance Mechanisms of Large Language Models in Cloud Computing Environments
von: Jin, Yihong, et al.
Veröffentlicht: (2025)

Achieving High-Performance Fault-Tolerant Routing in HyperX Interconnection Networks
von: Camarero, Cristóbal, et al.
Veröffentlicht: (2024)

EPSILON: Adaptive Fault Mitigation in Approximate Deep Neural Network using Statistical Signatures
von: Khalil, Khurram, et al.
Veröffentlicht: (2025)

Deep Reinforcement Learning for Job Scheduling and Resource Management in Cloud Computing: An Algorithm-Level Review
von: Gu, Yan, et al.
Veröffentlicht: (2025)

PacTrain: Pruning and Adaptive Sparse Gradient Compression for Efficient Collective Communication in Distributed Deep Learning
von: Wang, Yisu, et al.
Veröffentlicht: (2025)

DeF-DReL: Systematic Deployment of Serverless Functions in Fog and Cloud environments using Deep Reinforcement Learning
von: Dehury, Chinmaya Kumar, et al.
Veröffentlicht: (2021)

Training LLMs with Fault Tolerant HSDP on 100,000 GPUs
von: Salpekar, Omkar, et al.
Veröffentlicht: (2026)

OpenTinker: Separating Concerns in Agentic Reinforcement Learning
von: Zhu, Siqi, et al.
Veröffentlicht: (2026)

Hardware Utilization and Inference Performance of Edge Object Detection Under Fault Injection
von: Pasandideh, Faezeh, et al.
Veröffentlicht: (2026)

TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training
von: Han, Shujie, et al.
Veröffentlicht: (2026)

MARLaaS: Multi-Tenant Asynchronous Reinforcement Learning as a Service
von: Yu, Timothy Tin Long, et al.
Veröffentlicht: (2026)

ClusterRCA: An End-to-End Approach for Network Fault Localization and Classification for HPC System
von: Sun, Yongqian, et al.
Veröffentlicht: (2025)

Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
von: Chen, Huamin, et al.
Veröffentlicht: (2026)

Deep Reinforcement Learning for System-on-Chip: Myths and Realities
von: Sung, Tegg Taekyong, et al.
Veröffentlicht: (2022)

Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
von: Li, Boyang, et al.
Veröffentlicht: (2024)

Towards using Reinforcement Learning for Scaling and Data Replication in Cloud Systems
von: Mokadem, Riad, et al.
Veröffentlicht: (2024)

Tesserae: Scalable Placement Policies for Deep Learning Workloads
von: Bian, Song, et al.
Veröffentlicht: (2025)

Quality Scalable Quantization Methodology for Deep Learning on Edge
von: Khaliq, Salman Abdul, et al.
Veröffentlicht: (2024)

Speeding up Local Optimization in Vehicle Routing with Tensor-based GPU Acceleration
von: Lei, Zhenyu, et al.
Veröffentlicht: (2025)

Reinforcement Learning-driven Data-intensive Workflow Scheduling for Volunteer Edge-Cloud
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)

Mixture-of-Schedulers: An Adaptive Scheduling Agent as a Learned Router for Expert Policies
von: Wang, Xinbo, et al.
Veröffentlicht: (2025)

ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload
von: Liu, Ziyue, et al.
Veröffentlicht: (2026)

Cloud-Based AI Systems: Leveraging Large Language Models for Intelligent Fault Detection and Autonomous Self-Healing
von: Ji, Cheng, et al.
Veröffentlicht: (2025)

High-Dimensional Data Processing: Benchmarking Machine Learning and Deep Learning Architectures in Local and Distributed Environments
von: Rodriguez, Julian, et al.
Veröffentlicht: (2025)

SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead
von: Kim, Minsu, et al.
Veröffentlicht: (2024)

Byzantine Fault-Tolerant Multi-Agent System for Healthcare: A Gossip Protocol Approach to Secure Medical Message Propagation
von: Chadderwala, Nihir
Veröffentlicht: (2025)

iScheduler: Reinforcement Learning-Driven Continual Optimization for Large-Scale Resource Investment Problems
von: Hu, Yi-Xiang, et al.
Veröffentlicht: (2026)

Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis
von: Shi, Jiabo, et al.
Veröffentlicht: (2025)

Verify Distributed Deep Learning Model Implementation Refinement with Iterative Relation Inference
von: Wang, Zhanghan, et al.
Veröffentlicht: (2025)

Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
von: Liang, Feng, et al.
Veröffentlicht: (2024)

FedAA: A Reinforcement Learning Perspective on Adaptive Aggregation for Fair and Robust Federated Learning
von: He, Jialuo, et al.
Veröffentlicht: (2024)

Deep Reinforcement Learning for Optimizing Energy Consumption in Smart Grid Systems
von: Alsheikhi, Abeer, et al.
Veröffentlicht: (2026)

EdgeRL: Reinforcement Learning-driven Deep Learning Model Inference Optimization at Edge
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)

Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies
von: Mehta, Deep Pankajbhai
Veröffentlicht: (2026)

Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey
von: Liang, Feng, et al.
Veröffentlicht: (2024)

Topology-aware Preemptive Scheduling for Co-located LLM Workloads
von: Zhang, Ping, et al.
Veröffentlicht: (2024)

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
von: Wang, Haodong, et al.
Veröffentlicht: (2025)

Acceleration for Deep Reinforcement Learning using Parallel and Distributed Computing: A Survey
von: Liu, Zhihong, et al.
Veröffentlicht: (2024)