Gespeichert in:
| Hauptverfasser: | Carrica, Vicki, Onyango, Maxwell, Alomairy, Rabab, Ringoot, Evelyne, Schloss, James, Edelman, Alan |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2504.13821 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Hierarchical Recursive Precision for Accelerating Symmetric Linear Solves on MXUs
von: Carrica, Vicki, et al.
Veröffentlicht: (2026)
von: Carrica, Vicki, et al.
Veröffentlicht: (2026)
Performant Unified GPU Kernels for Portable Singular Value Computation Across Hardware and Precision
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025)
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025)
Accelerating Bidiagonalization of Banded Matrices through Memory-Aware Bulge-Chasing on GPUs
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025)
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025)
Implementing Multi-GPU Scientific Computing Miniapps Across Performance Portable Frameworks
von: Villalobos, Johansell, et al.
Veröffentlicht: (2025)
von: Villalobos, Johansell, et al.
Veröffentlicht: (2025)
GPU Implementations for Midsize Integer Addition and Multiplication
von: Oancea, Cosmin E., et al.
Veröffentlicht: (2024)
von: Oancea, Cosmin E., et al.
Veröffentlicht: (2024)
Pipelined Dense Symmetric Eigenvalue Decomposition on Multi-GPU Architectures
von: Wang, Hansheng, et al.
Veröffentlicht: (2025)
von: Wang, Hansheng, et al.
Veröffentlicht: (2025)
Ocean: Fast Estimation-Based Sparse General Matrix-Matrix Multiplication on GPU
von: Li, Yifan, et al.
Veröffentlicht: (2026)
von: Li, Yifan, et al.
Veröffentlicht: (2026)
Communication-Avoiding SpGEMM via Trident Partitioning on Hierarchical GPU Interconnects
von: Bellavita, Julian, et al.
Veröffentlicht: (2026)
von: Bellavita, Julian, et al.
Veröffentlicht: (2026)
Integrating Odeint Time Stepping into OpenFPM for Distributed and GPU Accelerated Numerical Solvers
von: Singh, Abhinav, et al.
Veröffentlicht: (2023)
von: Singh, Abhinav, et al.
Veröffentlicht: (2023)
Julia GraphBLAS with Nonblocking Execution
von: Costanza, Pascal, et al.
Veröffentlicht: (2025)
von: Costanza, Pascal, et al.
Veröffentlicht: (2025)
On the energy efficiency of sparse matrix computations on multi-GPU clusters
von: Bernaschi, Massimo, et al.
Veröffentlicht: (2025)
von: Bernaschi, Massimo, et al.
Veröffentlicht: (2025)
High-Performance Star-M SVD for Big Data Compression
von: Hussain, Md Taufique, et al.
Veröffentlicht: (2026)
von: Hussain, Md Taufique, et al.
Veröffentlicht: (2026)
SPUMA: a minimally invasive approach to the GPU porting of OPENFOAM
von: Bnà, Simone, et al.
Veröffentlicht: (2025)
von: Bnà, Simone, et al.
Veröffentlicht: (2025)
Black-Scholes Option Pricing on Intel CPUs and GPUs: Implementation on SYCL and Optimization Techniques
von: Panova, Elena, et al.
Veröffentlicht: (2022)
von: Panova, Elena, et al.
Veröffentlicht: (2022)
GoldbachGPU: An Open Source GPU-Accelerated Framework for Verification of Goldbach's Conjecture
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
von: Llorente-Saguer, Isaac
Veröffentlicht: (2026)
Performance measurements of modern Fortran MPI applications with Score-P
von: Corbin, Gregor
Veröffentlicht: (2025)
von: Corbin, Gregor
Veröffentlicht: (2025)
PETSc/TAO Developments for GPU-Based Early Exascale Systems
von: Mills, Richard Tran, et al.
Veröffentlicht: (2024)
von: Mills, Richard Tran, et al.
Veröffentlicht: (2024)
Enabling mixed-precision in spectral element codes
von: Chen, Yanxiang, et al.
Veröffentlicht: (2025)
von: Chen, Yanxiang, et al.
Veröffentlicht: (2025)
A shared compilation stack for distributed-memory parallelism in stencil DSLs
von: Bisbas, George, et al.
Veröffentlicht: (2024)
von: Bisbas, George, et al.
Veröffentlicht: (2024)
FalconGEMM: Surpassing Hardware Peaks with Lower-Complexity Matrix Multiplication
von: Zhu, Honglin, et al.
Veröffentlicht: (2026)
von: Zhu, Honglin, et al.
Veröffentlicht: (2026)
Robustness and Accuracy in Pipelined Bi-Conjugate Gradient Stabilized Method: A Comparative Study
von: Havdiak, Mykhailo, et al.
Veröffentlicht: (2024)
von: Havdiak, Mykhailo, et al.
Veröffentlicht: (2024)
Efficient N-to-M Checkpointing Algorithm for Finite Element Simulations
von: Ham, David A., et al.
Veröffentlicht: (2024)
von: Ham, David A., et al.
Veröffentlicht: (2024)
On the Challenges of Energy-Efficiency Analysis in HPC Systems: Evaluating Synthetic Benchmarks and Gromacs
von: Machado, Rafael Ravedutti Lucio, et al.
Veröffentlicht: (2025)
von: Machado, Rafael Ravedutti Lucio, et al.
Veröffentlicht: (2025)
A new open source framework for multiscale modeling of fibrous materials on heterogeneous supercomputers
von: Merson, Jacob, et al.
Veröffentlicht: (2023)
von: Merson, Jacob, et al.
Veröffentlicht: (2023)
Enabling MPI communication within Numba/LLVM JIT-compiled Python code using numba-mpi v1.0
von: Derlatka, Kacper, et al.
Veröffentlicht: (2024)
von: Derlatka, Kacper, et al.
Veröffentlicht: (2024)
SYCL compute kernels for ExaHyPE
von: Loi, Chung Ming, et al.
Veröffentlicht: (2023)
von: Loi, Chung Ming, et al.
Veröffentlicht: (2023)
Performant Automatic BLAS Offloading on Unified Memory Architecture with OpenMP First-Touch Style Data Movement
von: Li, Junjie
Veröffentlicht: (2024)
von: Li, Junjie
Veröffentlicht: (2024)
Leveraging Hardware-Aware Computation in Mixed-Precision Matrix Multiply: A Tile-Centric Approach
von: Zhang, Qiao, et al.
Veröffentlicht: (2025)
von: Zhang, Qiao, et al.
Veröffentlicht: (2025)
High-Performance Portable GPU Primitives for Arbitrary Types and Operators in Julia
von: Pilliat, Emmanuel
Veröffentlicht: (2026)
von: Pilliat, Emmanuel
Veröffentlicht: (2026)
Enabling mixed-precision with the help of tools: A Nekbone case study
von: Chen, Yanxiang, et al.
Veröffentlicht: (2024)
von: Chen, Yanxiang, et al.
Veröffentlicht: (2024)
Performance Evaluation of General Purpose Large Language Models for Basic Linear Algebra Subprograms Code Generation
von: Mukunoki, Daichi, et al.
Veröffentlicht: (2025)
von: Mukunoki, Daichi, et al.
Veröffentlicht: (2025)
Xabclib:A Fully Auto-tuned Sparse Iterative Solver
von: Katagiri, Takahiro, et al.
Veröffentlicht: (2024)
von: Katagiri, Takahiro, et al.
Veröffentlicht: (2024)
Automated MPI-X code generation for scalable finite-difference solvers
von: Bisbas, George, et al.
Veröffentlicht: (2023)
von: Bisbas, George, et al.
Veröffentlicht: (2023)
NApy: Efficient Statistics in Python for Large-Scale Heterogeneous Data with Enhanced Support for Missing Data
von: Woller, Fabian, et al.
Veröffentlicht: (2025)
von: Woller, Fabian, et al.
Veröffentlicht: (2025)
A Communication Avoiding and Reducing Algorithm for Symmetric Eigenproblem for Very Small Matrices
von: Katagiri, Takahiro, et al.
Veröffentlicht: (2024)
von: Katagiri, Takahiro, et al.
Veröffentlicht: (2024)
Beating vDSP: A 138 GFLOPS Radix-8 Stockham FFT on Apple Silicon via Two-Tier Register-Threadgroup Memory Decomposition
von: Bergach, Mohamed Amine
Veröffentlicht: (2026)
von: Bergach, Mohamed Amine
Veröffentlicht: (2026)
Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores
von: Tu, Jiqun, et al.
Veröffentlicht: (2026)
von: Tu, Jiqun, et al.
Veröffentlicht: (2026)
GPU Accelerated Newton for Taylor Series Solutions of Polynomial Homotopies in Multiple Double Precision
von: Verschelde, Jan
Veröffentlicht: (2023)
von: Verschelde, Jan
Veröffentlicht: (2023)
pyGinkgo: A Sparse Linear Algebra Operator Framework for Python
von: Tuteja, Keshvi, et al.
Veröffentlicht: (2025)
von: Tuteja, Keshvi, et al.
Veröffentlicht: (2025)
Verification Challenges in Sparse Matrix Vector Multiplication in High Performance Computing: Part I
von: Zhang, Junchao
Veröffentlicht: (2025)
von: Zhang, Junchao
Veröffentlicht: (2025)
Ähnliche Einträge
-
Hierarchical Recursive Precision for Accelerating Symmetric Linear Solves on MXUs
von: Carrica, Vicki, et al.
Veröffentlicht: (2026) -
Performant Unified GPU Kernels for Portable Singular Value Computation Across Hardware and Precision
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025) -
Accelerating Bidiagonalization of Banded Matrices through Memory-Aware Bulge-Chasing on GPUs
von: Ringoot, Evelyne, et al.
Veröffentlicht: (2025) -
Implementing Multi-GPU Scientific Computing Miniapps Across Performance Portable Frameworks
von: Villalobos, Johansell, et al.
Veröffentlicht: (2025) -
GPU Implementations for Midsize Integer Addition and Multiplication
von: Oancea, Cosmin E., et al.
Veröffentlicht: (2024)