Gespeichert in:
| Hauptverfasser: | Li, Zhuoran, Asl, Hanieh Totonchi, Cai, Yifei, Nouri, Ebrahim, Zhao, Danella |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2603.24861 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design
von: Li, Zhuoran, et al.
Veröffentlicht: (2025)
von: Li, Zhuoran, et al.
Veröffentlicht: (2025)
Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators
von: Wu, Junchi, et al.
Veröffentlicht: (2025)
von: Wu, Junchi, et al.
Veröffentlicht: (2025)
MINISA: Minimal Instruction Set Architecture for Next-gen Reconfigurable Inference Accelerator
von: Tong, Jianming, et al.
Veröffentlicht: (2026)
von: Tong, Jianming, et al.
Veröffentlicht: (2026)
AGS: Accelerating 3D Gaussian Splatting SLAM via CODEC-Assisted Frame Covisibility Detection
von: He, Houshu, et al.
Veröffentlicht: (2025)
von: He, Houshu, et al.
Veröffentlicht: (2025)
GPU Acceleration of TFHE-Based High-Precision Nonlinear Layers for Encrypted LLM Inference
von: Chen, Guoci, et al.
Veröffentlicht: (2026)
von: Chen, Guoci, et al.
Veröffentlicht: (2026)
PC2IM: An Efficient In-Memory Computing Accelerator for 3D Point Cloud
von: Wang, Dengfeng, et al.
Veröffentlicht: (2026)
von: Wang, Dengfeng, et al.
Veröffentlicht: (2026)
MCBP: A Memory-Compute Efficient LLM Inference Accelerator Leveraging Bit-Slice-enabled Sparsity and Repetitiveness
von: Wang, Huizheng, et al.
Veröffentlicht: (2025)
von: Wang, Huizheng, et al.
Veröffentlicht: (2025)
SpecMamba: Accelerating Mamba Inference on FPGA with Speculative Decoding
von: Zhong, Linfeng, et al.
Veröffentlicht: (2025)
von: Zhong, Linfeng, et al.
Veröffentlicht: (2025)
GCC: A 3DGS Inference Architecture with Gaussian-Wise and Cross-Stage Conditional Processing
von: Pei, Minnan, et al.
Veröffentlicht: (2025)
von: Pei, Minnan, et al.
Veröffentlicht: (2025)
ONE-SA: Enabling Nonlinear Operations in Systolic Arrays for Efficient and Flexible Neural Network Inference
von: Sun, Ruiqi, et al.
Veröffentlicht: (2024)
von: Sun, Ruiqi, et al.
Veröffentlicht: (2024)
HPIM: Heterogeneous Processing-In-Memory-based Accelerator for Large Language Models Inference
von: Duan, Cenlin, et al.
Veröffentlicht: (2025)
von: Duan, Cenlin, et al.
Veröffentlicht: (2025)
NASiC: 3D NAND-based CAM-Selected Multibit CIM Architecture for Efficient On-Device Mixture-of-Experts LLM Inference
von: Xu, Weikai, et al.
Veröffentlicht: (2026)
von: Xu, Weikai, et al.
Veröffentlicht: (2026)
Mapping Space Exploration for Multi-Chiplet Accelerators Targeting LLM Inference Serving Workloads
von: Li, Boyu, et al.
Veröffentlicht: (2025)
von: Li, Boyu, et al.
Veröffentlicht: (2025)
FusionCIM: Accelerating LLM Inference with Fusion-Driven Computing-in-Memory Architecture
von: Xuan, Zihao, et al.
Veröffentlicht: (2026)
von: Xuan, Zihao, et al.
Veröffentlicht: (2026)
Distributed Inference with Minimal Off-Chip Traffic for Transformers on Low-Power MCUs
von: Bochem, Severin, et al.
Veröffentlicht: (2024)
von: Bochem, Severin, et al.
Veröffentlicht: (2024)
An Efficient Sparse Hardware Accelerator for Spike-Driven Transformer
von: Li, Zhengke, et al.
Veröffentlicht: (2025)
von: Li, Zhengke, et al.
Veröffentlicht: (2025)
A Switch-Centric In-Network Architecture for Accelerating LLM Inference in Shared-Memory Network
von: Jiang, Aojie, et al.
Veröffentlicht: (2026)
von: Jiang, Aojie, et al.
Veröffentlicht: (2026)
Transitive Array: An Efficient GEMM Accelerator with Result Reuse
von: Guo, Cong, et al.
Veröffentlicht: (2025)
von: Guo, Cong, et al.
Veröffentlicht: (2025)
CompAir: Synergizing Complementary PIMs and In-Transit NoC Computation for Efficient LLM Acceleration
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
von: Li, Hongyi, et al.
Veröffentlicht: (2025)
Hardware Acceleration of Kolmogorov-Arnold Network (KAN) for Lightweight Edge Inference
von: Huang, Wei-Hsing, et al.
Veröffentlicht: (2024)
von: Huang, Wei-Hsing, et al.
Veröffentlicht: (2024)
Instruction-Based Coordination of Heterogeneous Processing Units for Acceleration of DNN Inference
von: Petropoulos, Anastasios, et al.
Veröffentlicht: (2025)
von: Petropoulos, Anastasios, et al.
Veröffentlicht: (2025)
NeuPIMs: NPU-PIM Heterogeneous Acceleration for Batched LLM Inferencing
von: Heo, Guseul, et al.
Veröffentlicht: (2024)
von: Heo, Guseul, et al.
Veröffentlicht: (2024)
High Utilization Energy-Aware Real-Time Inference Deep Convolutional Neural Network Accelerator
von: Lin, Kuan-Ting, et al.
Veröffentlicht: (2025)
von: Lin, Kuan-Ting, et al.
Veröffentlicht: (2025)
LlamaF: An Efficient Llama2 Architecture Accelerator on Embedded FPGAs
von: Xu, Han, et al.
Veröffentlicht: (2024)
von: Xu, Han, et al.
Veröffentlicht: (2024)
Efficient yet Accurate End-to-End SC Accelerator Design
von: Li, Meng, et al.
Veröffentlicht: (2024)
von: Li, Meng, et al.
Veröffentlicht: (2024)
ReaLM: Reliable and Efficient Large Language Model Inference with Statistical Algorithm-Based Fault Tolerance
von: Xie, Tong, et al.
Veröffentlicht: (2025)
von: Xie, Tong, et al.
Veröffentlicht: (2025)
A Dataflow Compiler for Efficient LLM Inference using Custom Microscaling Formats
von: Cheng, Jianyi, et al.
Veröffentlicht: (2023)
von: Cheng, Jianyi, et al.
Veröffentlicht: (2023)
PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator
von: Chong, Yue Jiet, et al.
Veröffentlicht: (2026)
von: Chong, Yue Jiet, et al.
Veröffentlicht: (2026)
FETTA: Flexible and Efficient Hardware Accelerator for Tensorized Neural Network Training
von: Lu, Jinming, et al.
Veröffentlicht: (2025)
von: Lu, Jinming, et al.
Veröffentlicht: (2025)
TerEffic: Highly Efficient Ternary LLM Inference on FPGA
von: Yin, Chenyang, et al.
Veröffentlicht: (2025)
von: Yin, Chenyang, et al.
Veröffentlicht: (2025)
SAIL: SRAM-Accelerated LLM Inference System with Lookup-Table-based GEMV
von: Zhang, Jingyao, et al.
Veröffentlicht: (2025)
von: Zhang, Jingyao, et al.
Veröffentlicht: (2025)
SpeedLLM: An FPGA Co-design of Large Language Model Inference Accelerator
von: Wang, Peipei, et al.
Veröffentlicht: (2025)
von: Wang, Peipei, et al.
Veröffentlicht: (2025)
Hardware-Software Co-Design for Accelerating Transformer Inference Leveraging Compute-in-Memory
von: Kim, Dong Eun, et al.
Veröffentlicht: (2025)
von: Kim, Dong Eun, et al.
Veröffentlicht: (2025)
Aging Aware Adaptive Voltage Scaling for Reliable and Efficient AI Accelerators
von: Xie, Tong, et al.
Veröffentlicht: (2026)
von: Xie, Tong, et al.
Veröffentlicht: (2026)
Efficient Nonlinear Function Approximation in Analog Resistive Crossbars for Recurrent Neural Networks
von: Yang, Junyi, et al.
Veröffentlicht: (2024)
von: Yang, Junyi, et al.
Veröffentlicht: (2024)
Late Breaking Result: FPGA-Based Emulation and Fault Injection for CNN Inference Accelerators
von: Masar, Filip, et al.
Veröffentlicht: (2025)
von: Masar, Filip, et al.
Veröffentlicht: (2025)
Hyft: A Reconfigurable Softmax Accelerator with Hybrid Numeric Format for both Training and Inference
von: Xia, Tianhua, et al.
Veröffentlicht: (2023)
von: Xia, Tianhua, et al.
Veröffentlicht: (2023)
DRIFT: Harnessing Inherent Fault Tolerance for Efficient and Reliable Diffusion Model Inference
von: Wen, Jinqi, et al.
Veröffentlicht: (2026)
von: Wen, Jinqi, et al.
Veröffentlicht: (2026)
The Immutable Tensor Architecture: A Pure Dataflow Approach for Secure, Energy-Efficient AI Inference
von: Li, Fang
Veröffentlicht: (2025)
von: Li, Fang
Veröffentlicht: (2025)
On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration
von: Xiang, Maoyang, et al.
Veröffentlicht: (2025)
von: Xiang, Maoyang, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design
von: Li, Zhuoran, et al.
Veröffentlicht: (2025) -
Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators
von: Wu, Junchi, et al.
Veröffentlicht: (2025) -
MINISA: Minimal Instruction Set Architecture for Next-gen Reconfigurable Inference Accelerator
von: Tong, Jianming, et al.
Veröffentlicht: (2026) -
AGS: Accelerating 3D Gaussian Splatting SLAM via CODEC-Assisted Frame Covisibility Detection
von: He, Houshu, et al.
Veröffentlicht: (2025) -
GPU Acceleration of TFHE-Based High-Precision Nonlinear Layers for Encrypted LLM Inference
von: Chen, Guoci, et al.
Veröffentlicht: (2026)