:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Liu, Yiqi, Xue, Yuqi, Crawford, Noelle, Xue, Jilong, Huang, Jian
Format:	Preprint
Publié:	2025
Sujets:	Hardware Architecture Distributed, Parallel, and Cluster Computing Machine Learning
Accès en ligne:	https://arxiv.org/abs/2507.11506
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel
par: Liu, Yiqi, et autres
Publié: (2026)

DeepStack: Scalable and Accurate Design Space Exploration for Distributed 3D-Stacked AI Accelerators
par: Mo, Zhiwen, et autres
Publié: (2026)

Topology-Aware Virtualization over Inter-Core Connected Neural Processing Units
par: Feng, Dahu, et autres
Publié: (2025)

Scheduling Techniques of AI Models on Modern Heterogeneous Edge GPU -- A Critical Review
par: Majeed, Ashiyana Abdul, et autres
Publié: (2025)

Functionally-Complete Boolean Logic in Real DRAM Chips: Experimental Characterization and Analysis
par: Yuksel, Ismail Emir, et autres
Publié: (2024)

Muchisim: A Simulation Framework for Design Exploration of Multi-Chip Manycore Systems
par: Orenes-Vera, Marcelo, et autres
Publié: (2023)

Simultaneous Many-Row Activation in Off-the-Shelf DRAM Chips: Experimental Characterization and Analysis
par: Yuksel, Ismail Emir, et autres
Publié: (2024)

PULSAR: Simultaneous Many-Row Activation for Reliable and High-Performance Computing in Off-the-Shelf DRAM Chips
par: Yuksel, Ismail Emir, et autres
Publié: (2023)

Deep Learning and Machine Learning with GPGPU and CUDA: Unlocking the Power of Parallel Computing
par: Li, Ming, et autres
Publié: (2024)

Workload-Aware Hardware Accelerator Mining for Distributed Deep Learning Training
par: Adnan, Muhammad, et autres
Publié: (2024)

Compiler Support for Speculation in Decoupled Access/Execute Architectures
par: Szafarczyk, Robert, et autres
Publié: (2025)

Enhancing Regression Models for Complex Systems Using Evolutionary Techniques for Feature Engineering
par: Arroba, Patricia, et autres
Publié: (2024)

Survey of Disaggregated Memory: Cross-layer Technique Insights for Next-Generation Datacenters
par: Wang, Jing, et autres
Publié: (2025)

Improving Multi-Instance GPU Efficiency via Sub-Entry Sharing TLB Design
par: Li, Bingyao, et autres
Publié: (2024)

ZipFlow: a Compiler-based Framework to Unleash Compressed Data Movement for Modern GPUs
par: Yeo, Gwangoo, et autres
Publié: (2026)

A High Energy-Efficiency Multi-core Neuromorphic Architecture for Deep SNN Training
par: Li, Mingjing, et autres
Publié: (2024)

Enabling Mixed criticality applications for the Versal AI-Engines
par: Sprave, Vincent, et autres
Publié: (2026)

Achieving Dependability of AI Execution with Radiation Hardened Processors
par: Taquichiri, Carlos Rafael Tordoya, et autres
Publié: (2025)

Automated Deep Neural Network Inference Partitioning for Distributed Embedded Systems
par: Kreß, Fabian, et autres
Publié: (2024)

FengHuang: Next-Generation Memory Orchestration for AI Inferencing
par: Li, Jiamin, et autres
Publié: (2025)

Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor with T10
par: Liu, Yiqi, et autres
Publié: (2024)

MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems from Microwatts to Megawatts for Sustainable AI
par: Tschand, Arya, et autres
Publié: (2024)

Improving AI Efficiency in Data Centres by Power Dynamic Response
par: Marinoni, Andrea, et autres
Publié: (2025)

A Reliable, Time-Predictable Heterogeneous SoC for AI-Enhanced Mixed-Criticality Edge Applications
par: Garofalo, Angelo, et autres
Publié: (2025)

Exploration of Cryptocurrency Mining-Specific GPUs in AI Applications: A Case Study of CMP 170HX
par: Kangwei, Xing
Publié: (2025)

TT-Edge: A Hardware-Software Co-Design for Energy-Efficient Tensor-Train Decomposition on Edge AI
par: Kwak, Hyunseok, et autres
Publié: (2025)

Exploring energy consumption of AI frameworks on a 64-core RV64 Server CPU
par: Malenza, Giulio, et autres
Publié: (2025)

RUBICON: A Framework for Designing Efficient Deep Learning-Based Genomic Basecallers
par: Singh, Gagandeep, et autres
Publié: (2022)

cMPI: Using CXL Memory Sharing for MPI One-Sided and Two-Sided Inter-Node Communications
par: Wang, Xi, et autres
Publié: (2025)

Atomique: A Quantum Compiler for Reconfigurable Neutral Atom Arrays
par: Wang, Hanrui, et autres
Publié: (2023)

BlockAMC: Scalable In-Memory Analog Matrix Computing for Solving Linear Systems
par: Pan, Lunshuai, et autres
Publié: (2024)

Knowledge-Guided Attention-Inspired Learning for Task Offloading in Vehicle Edge Computing
par: Ma, Ke, et autres
Publié: (2025)

FlexStep: Enabling Flexible Error Detection in Multi/Many-core Real-time Systems
par: Wang, Tinglue, et autres
Publié: (2025)

Exploring and Evaluating Real-world CXL: Use Cases and System Adoption
par: Wang, Xi, et autres
Publié: (2024)

FpgaHub: Fpga-centric Hyper-heterogeneous Computing Platform for Big Data Analytics
par: Wang, Zeke, et autres
Publié: (2025)

Efficient MoE Serving in the Memory-Bound Regime: Balance Activated Experts, Not Tokens
par: Yu, Yanpeng, et autres
Publié: (2025)

DCC: Data-Centric Compilation of Machine Learning Kernels for Processing-In-Memory Architectures
par: Yang, Peiming, et autres
Publié: (2025)

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service
par: Zheng, Xianzhe, et autres
Publié: (2026)

Exploring Parallelism in FPGA-Based Accelerators for Machine Learning Applications
par: Centeno, Sed, et autres
Publié: (2025)

INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing
par: Abi-Karam, Stefan, et autres
Publié: (2023)