:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Li, Zhuoran, Asl, Hanieh Totonchi, Cai, Yifei, Nouri, Ebrahim, Zhao, Danella
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Hardware Architecture
Online-Zugang:	https://arxiv.org/abs/2603.24861
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design
von: Li, Zhuoran, et al.
Veröffentlicht: (2025)

Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators
von: Wu, Junchi, et al.
Veröffentlicht: (2025)

MINISA: Minimal Instruction Set Architecture for Next-gen Reconfigurable Inference Accelerator
von: Tong, Jianming, et al.
Veröffentlicht: (2026)

AGS: Accelerating 3D Gaussian Splatting SLAM via CODEC-Assisted Frame Covisibility Detection
von: He, Houshu, et al.
Veröffentlicht: (2025)

GPU Acceleration of TFHE-Based High-Precision Nonlinear Layers for Encrypted LLM Inference
von: Chen, Guoci, et al.
Veröffentlicht: (2026)

PC2IM: An Efficient In-Memory Computing Accelerator for 3D Point Cloud
von: Wang, Dengfeng, et al.
Veröffentlicht: (2026)

MCBP: A Memory-Compute Efficient LLM Inference Accelerator Leveraging Bit-Slice-enabled Sparsity and Repetitiveness
von: Wang, Huizheng, et al.
Veröffentlicht: (2025)

SpecMamba: Accelerating Mamba Inference on FPGA with Speculative Decoding
von: Zhong, Linfeng, et al.
Veröffentlicht: (2025)

GCC: A 3DGS Inference Architecture with Gaussian-Wise and Cross-Stage Conditional Processing
von: Pei, Minnan, et al.
Veröffentlicht: (2025)

ONE-SA: Enabling Nonlinear Operations in Systolic Arrays for Efficient and Flexible Neural Network Inference
von: Sun, Ruiqi, et al.
Veröffentlicht: (2024)

HPIM: Heterogeneous Processing-In-Memory-based Accelerator for Large Language Models Inference
von: Duan, Cenlin, et al.
Veröffentlicht: (2025)

NASiC: 3D NAND-based CAM-Selected Multibit CIM Architecture for Efficient On-Device Mixture-of-Experts LLM Inference
von: Xu, Weikai, et al.
Veröffentlicht: (2026)

Mapping Space Exploration for Multi-Chiplet Accelerators Targeting LLM Inference Serving Workloads
von: Li, Boyu, et al.
Veröffentlicht: (2025)

FusionCIM: Accelerating LLM Inference with Fusion-Driven Computing-in-Memory Architecture
von: Xuan, Zihao, et al.
Veröffentlicht: (2026)

Distributed Inference with Minimal Off-Chip Traffic for Transformers on Low-Power MCUs
von: Bochem, Severin, et al.
Veröffentlicht: (2024)

An Efficient Sparse Hardware Accelerator for Spike-Driven Transformer
von: Li, Zhengke, et al.
Veröffentlicht: (2025)

A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network
von: Jiang, Aojie, et al.
Veröffentlicht: (2026)

Transitive Array: An Efficient GEMM Accelerator with Result Reuse
von: Guo, Cong, et al.
Veröffentlicht: (2025)

CompAir: Synergizing Complementary PIMs and In-Transit NoC Computation for Efficient LLM Acceleration
von: Li, Hongyi, et al.
Veröffentlicht: (2025)

Hardware Acceleration of Kolmogorov-Arnold Network (KAN) for Lightweight Edge Inference
von: Huang, Wei-Hsing, et al.
Veröffentlicht: (2024)

Instruction-Based Coordination of Heterogeneous Processing Units for Acceleration of DNN Inference
von: Petropoulos, Anastasios, et al.
Veröffentlicht: (2025)

NeuPIMs: NPU-PIM Heterogeneous Acceleration for Batched LLM Inferencing
von: Heo, Guseul, et al.
Veröffentlicht: (2024)

High Utilization Energy-Aware Real-Time Inference Deep Convolutional Neural Network Accelerator
von: Lin, Kuan-Ting, et al.
Veröffentlicht: (2025)

LlamaF: An Efficient Llama2 Architecture Accelerator on Embedded FPGAs
von: Xu, Han, et al.
Veröffentlicht: (2024)

Efficient yet Accurate End-to-End SC Accelerator Design
von: Li, Meng, et al.
Veröffentlicht: (2024)

ReaLM: Reliable and Efficient Large Language Model Inference with Statistical Algorithm-Based Fault Tolerance
von: Xie, Tong, et al.
Veröffentlicht: (2025)

A Dataflow Compiler for Efficient LLM Inference using Custom Microscaling Formats
von: Cheng, Jianyi, et al.
Veröffentlicht: (2023)

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator
von: Chong, Yue Jiet, et al.
Veröffentlicht: (2026)

FETTA: Flexible and Efficient Hardware Accelerator for Tensorized Neural Network Training
von: Lu, Jinming, et al.
Veröffentlicht: (2025)

TerEffic: Highly Efficient Ternary LLM Inference on FPGA
von: Yin, Chenyang, et al.
Veröffentlicht: (2025)

SAIL: SRAM-Accelerated LLM Inference System with Lookup-Table-based GEMV
von: Zhang, Jingyao, et al.
Veröffentlicht: (2025)

SpeedLLM: An FPGA Co-design of Large Language Model Inference Accelerator
von: Wang, Peipei, et al.
Veröffentlicht: (2025)

Hardware-Software Co-Design for Accelerating Transformer Inference Leveraging Compute-in-Memory
von: Kim, Dong Eun, et al.
Veröffentlicht: (2025)

Aging Aware Adaptive Voltage Scaling for Reliable and Efficient AI Accelerators
von: Xie, Tong, et al.
Veröffentlicht: (2026)

Efficient Nonlinear Function Approximation in Analog Resistive Crossbars for Recurrent Neural Networks
von: Yang, Junyi, et al.
Veröffentlicht: (2024)

Late Breaking Result: FPGA-Based Emulation and Fault Injection for CNN Inference Accelerators
von: Masar, Filip, et al.
Veröffentlicht: (2025)

Hyft: A Reconfigurable Softmax Accelerator with Hybrid Numeric Format for both Training and Inference
von: Xia, Tianhua, et al.
Veröffentlicht: (2023)

DRIFT: Harnessing Inherent Fault Tolerance for Efficient and Reliable Diffusion Model Inference
von: Wen, Jinqi, et al.
Veröffentlicht: (2026)

The Immutable Tensor Architecture: A Pure Dataflow Approach for Secure, Energy-Efficient AI Inference
von: Li, Fang
Veröffentlicht: (2025)

On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration
von: Xiang, Maoyang, et al.
Veröffentlicht: (2025)