Gespeichert in:
| Hauptverfasser: | Charrwi, Mohammad Walid, Hussain, Zaid |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.21090 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Resilient Packet Forwarding: A Reinforcement Learning Approach to Routing in Gaussian Interconnected Networks with Clustered Faults
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)
Toward Self-Healing Networks-on-Chip: RL-Driven Routing in 2D Torus Architectures
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025)
Adaptive Fault Tolerance Mechanisms of Large Language Models in Cloud Computing Environments
von: Jin, Yihong, et al.
Veröffentlicht: (2025)
von: Jin, Yihong, et al.
Veröffentlicht: (2025)
Achieving High-Performance Fault-Tolerant Routing in HyperX Interconnection Networks
von: Camarero, Cristóbal, et al.
Veröffentlicht: (2024)
von: Camarero, Cristóbal, et al.
Veröffentlicht: (2024)
EPSILON: Adaptive Fault Mitigation in Approximate Deep Neural Network using Statistical Signatures
von: Khalil, Khurram, et al.
Veröffentlicht: (2025)
von: Khalil, Khurram, et al.
Veröffentlicht: (2025)
Deep Reinforcement Learning for Job Scheduling and Resource Management in Cloud Computing: An Algorithm-Level Review
von: Gu, Yan, et al.
Veröffentlicht: (2025)
von: Gu, Yan, et al.
Veröffentlicht: (2025)
PacTrain: Pruning and Adaptive Sparse Gradient Compression for Efficient Collective Communication in Distributed Deep Learning
von: Wang, Yisu, et al.
Veröffentlicht: (2025)
von: Wang, Yisu, et al.
Veröffentlicht: (2025)
DeF-DReL: Systematic Deployment of Serverless Functions in Fog and Cloud environments using Deep Reinforcement Learning
von: Dehury, Chinmaya Kumar, et al.
Veröffentlicht: (2021)
von: Dehury, Chinmaya Kumar, et al.
Veröffentlicht: (2021)
Training LLMs with Fault Tolerant HSDP on 100,000 GPUs
von: Salpekar, Omkar, et al.
Veröffentlicht: (2026)
von: Salpekar, Omkar, et al.
Veröffentlicht: (2026)
OpenTinker: Separating Concerns in Agentic Reinforcement Learning
von: Zhu, Siqi, et al.
Veröffentlicht: (2026)
von: Zhu, Siqi, et al.
Veröffentlicht: (2026)
Hardware Utilization and Inference Performance of Edge Object Detection Under Fault Injection
von: Pasandideh, Faezeh, et al.
Veröffentlicht: (2026)
von: Pasandideh, Faezeh, et al.
Veröffentlicht: (2026)
TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training
von: Han, Shujie, et al.
Veröffentlicht: (2026)
von: Han, Shujie, et al.
Veröffentlicht: (2026)
MARLaaS: Multi-Tenant Asynchronous Reinforcement Learning as a Service
von: Yu, Timothy Tin Long, et al.
Veröffentlicht: (2026)
von: Yu, Timothy Tin Long, et al.
Veröffentlicht: (2026)
ClusterRCA: An End-to-End Approach for Network Fault Localization and Classification for HPC System
von: Sun, Yongqian, et al.
Veröffentlicht: (2025)
von: Sun, Yongqian, et al.
Veröffentlicht: (2025)
Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
von: Chen, Huamin, et al.
Veröffentlicht: (2026)
von: Chen, Huamin, et al.
Veröffentlicht: (2026)
Deep Reinforcement Learning for System-on-Chip: Myths and Realities
von: Sung, Tegg Taekyong, et al.
Veröffentlicht: (2022)
von: Sung, Tegg Taekyong, et al.
Veröffentlicht: (2022)
Interpretable Modeling of Deep Reinforcement Learning Driven Scheduling
von: Li, Boyang, et al.
Veröffentlicht: (2024)
von: Li, Boyang, et al.
Veröffentlicht: (2024)
Towards using Reinforcement Learning for Scaling and Data Replication in Cloud Systems
von: Mokadem, Riad, et al.
Veröffentlicht: (2024)
von: Mokadem, Riad, et al.
Veröffentlicht: (2024)
Tesserae: Scalable Placement Policies for Deep Learning Workloads
von: Bian, Song, et al.
Veröffentlicht: (2025)
von: Bian, Song, et al.
Veröffentlicht: (2025)
Quality Scalable Quantization Methodology for Deep Learning on Edge
von: Khaliq, Salman Abdul, et al.
Veröffentlicht: (2024)
von: Khaliq, Salman Abdul, et al.
Veröffentlicht: (2024)
Speeding up Local Optimization in Vehicle Routing with Tensor-based GPU Acceleration
von: Lei, Zhenyu, et al.
Veröffentlicht: (2025)
von: Lei, Zhenyu, et al.
Veröffentlicht: (2025)
Reinforcement Learning-driven Data-intensive Workflow Scheduling for Volunteer Edge-Cloud
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)
Mixture-of-Schedulers: An Adaptive Scheduling Agent as a Learned Router for Expert Policies
von: Wang, Xinbo, et al.
Veröffentlicht: (2025)
von: Wang, Xinbo, et al.
Veröffentlicht: (2025)
ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload
von: Liu, Ziyue, et al.
Veröffentlicht: (2026)
von: Liu, Ziyue, et al.
Veröffentlicht: (2026)
Cloud-Based AI Systems: Leveraging Large Language Models for Intelligent Fault Detection and Autonomous Self-Healing
von: Ji, Cheng, et al.
Veröffentlicht: (2025)
von: Ji, Cheng, et al.
Veröffentlicht: (2025)
High-Dimensional Data Processing: Benchmarking Machine Learning and Deep Learning Architectures in Local and Distributed Environments
von: Rodriguez, Julian, et al.
Veröffentlicht: (2025)
von: Rodriguez, Julian, et al.
Veröffentlicht: (2025)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead
von: Kim, Minsu, et al.
Veröffentlicht: (2024)
von: Kim, Minsu, et al.
Veröffentlicht: (2024)
Byzantine Fault-Tolerant Multi-Agent System for Healthcare: A Gossip Protocol Approach to Secure Medical Message Propagation
von: Chadderwala, Nihir
Veröffentlicht: (2025)
von: Chadderwala, Nihir
Veröffentlicht: (2025)
iScheduler: Reinforcement Learning-Driven Continual Optimization for Large-Scale Resource Investment Problems
von: Hu, Yi-Xiang, et al.
Veröffentlicht: (2026)
von: Hu, Yi-Xiang, et al.
Veröffentlicht: (2026)
Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis
von: Shi, Jiabo, et al.
Veröffentlicht: (2025)
von: Shi, Jiabo, et al.
Veröffentlicht: (2025)
Verify Distributed Deep Learning Model Implementation Refinement with Iterative Relation Inference
von: Wang, Zhanghan, et al.
Veröffentlicht: (2025)
von: Wang, Zhanghan, et al.
Veröffentlicht: (2025)
Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
von: Liang, Feng, et al.
Veröffentlicht: (2024)
von: Liang, Feng, et al.
Veröffentlicht: (2024)
FedAA: A Reinforcement Learning Perspective on Adaptive Aggregation for Fair and Robust Federated Learning
von: He, Jialuo, et al.
Veröffentlicht: (2024)
von: He, Jialuo, et al.
Veröffentlicht: (2024)
Deep Reinforcement Learning for Optimizing Energy Consumption in Smart Grid Systems
von: Alsheikhi, Abeer, et al.
Veröffentlicht: (2026)
von: Alsheikhi, Abeer, et al.
Veröffentlicht: (2026)
EdgeRL: Reinforcement Learning-driven Deep Learning Model Inference Optimization at Edge
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)
von: Mounesan, Motahare, et al.
Veröffentlicht: (2024)
Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies
von: Mehta, Deep Pankajbhai
Veröffentlicht: (2026)
von: Mehta, Deep Pankajbhai
Veröffentlicht: (2026)
Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey
von: Liang, Feng, et al.
Veröffentlicht: (2024)
von: Liang, Feng, et al.
Veröffentlicht: (2024)
Topology-aware Preemptive Scheduling for Co-located LLM Workloads
von: Zhang, Ping, et al.
Veröffentlicht: (2024)
von: Zhang, Ping, et al.
Veröffentlicht: (2024)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
von: Wang, Haodong, et al.
Veröffentlicht: (2025)
von: Wang, Haodong, et al.
Veröffentlicht: (2025)
Acceleration for Deep Reinforcement Learning using Parallel and Distributed Computing: A Survey
von: Liu, Zhihong, et al.
Veröffentlicht: (2024)
von: Liu, Zhihong, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Resilient Packet Forwarding: A Reinforcement Learning Approach to Routing in Gaussian Interconnected Networks with Clustered Faults
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025) -
Toward Self-Healing Networks-on-Chip: RL-Driven Routing in 2D Torus Architectures
von: Charrwi, Mohammad Walid, et al.
Veröffentlicht: (2025) -
Adaptive Fault Tolerance Mechanisms of Large Language Models in Cloud Computing Environments
von: Jin, Yihong, et al.
Veröffentlicht: (2025) -
Achieving High-Performance Fault-Tolerant Routing in HyperX Interconnection Networks
von: Camarero, Cristóbal, et al.
Veröffentlicht: (2024) -
EPSILON: Adaptive Fault Mitigation in Approximate Deep Neural Network using Statistical Signatures
von: Khalil, Khurram, et al.
Veröffentlicht: (2025)