Gespeichert in:
| 1. Verfasser: | Norgren, Victor |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2605.26289 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers
von: Norgren, Victor
Veröffentlicht: (2026)
von: Norgren, Victor
Veröffentlicht: (2026)
Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
von: Ta, Anh, et al.
Veröffentlicht: (2026)
von: Ta, Anh, et al.
Veröffentlicht: (2026)
Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents
von: Chu, Kexin, et al.
Veröffentlicht: (2026)
von: Chu, Kexin, et al.
Veröffentlicht: (2026)
Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml
von: Jiang, Zhixing, et al.
Veröffentlicht: (2024)
von: Jiang, Zhixing, et al.
Veröffentlicht: (2024)
Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling
von: Hooper, Coleman, et al.
Veröffentlicht: (2026)
von: Hooper, Coleman, et al.
Veröffentlicht: (2026)
ML Inference Scheduling with Predictable Latency
von: Zhao, Haidong, et al.
Veröffentlicht: (2025)
von: Zhao, Haidong, et al.
Veröffentlicht: (2025)
Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference
von: Chen, Huamin, et al.
Veröffentlicht: (2026)
von: Chen, Huamin, et al.
Veröffentlicht: (2026)
Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)
von: Knorr, Marius S., et al.
Veröffentlicht: (2026)
von: Knorr, Marius S., et al.
Veröffentlicht: (2026)
ServerlessLLM: Low-Latency Serverless Inference for Large Language Models
von: Fu, Yao, et al.
Veröffentlicht: (2024)
von: Fu, Yao, et al.
Veröffentlicht: (2024)
To Call or Not to Call: Diagnosing Intrinsic Over-Calling Bias in LLM Agents
von: Shi, Wei, et al.
Veröffentlicht: (2026)
von: Shi, Wei, et al.
Veröffentlicht: (2026)
Architectural Implications of Neural Network Inference for High Data-Rate, Low-Latency Scientific Applications
von: Weng, Olivia, et al.
Veröffentlicht: (2024)
von: Weng, Olivia, et al.
Veröffentlicht: (2024)
PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA LUT-based Inference
von: Andronic, Marta, et al.
Veröffentlicht: (2023)
von: Andronic, Marta, et al.
Veröffentlicht: (2023)
Dynamic Tool Dependency Retrieval for Lightweight Function Calling
von: Patel, Bhrij, et al.
Veröffentlicht: (2025)
von: Patel, Bhrij, et al.
Veröffentlicht: (2025)
ChipChat: Low-Latency Cascaded Conversational Agent in MLX
von: Likhomanenko, Tatiana, et al.
Veröffentlicht: (2025)
von: Likhomanenko, Tatiana, et al.
Veröffentlicht: (2025)
Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
von: Yadav, Divakar Kumar, et al.
Veröffentlicht: (2026)
von: Yadav, Divakar Kumar, et al.
Veröffentlicht: (2026)
LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments
von: Huang, Jin, et al.
Veröffentlicht: (2025)
von: Huang, Jin, et al.
Veröffentlicht: (2025)
Low-Latency Neural Inference on an Edge Device for Real-Time Handwriting Recognition from EEG Signals
von: Sen, Ovishake, et al.
Veröffentlicht: (2025)
von: Sen, Ovishake, et al.
Veröffentlicht: (2025)
SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
von: Wang, Shuaiqi, et al.
Veröffentlicht: (2026)
von: Wang, Shuaiqi, et al.
Veröffentlicht: (2026)
SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety
von: Xu, Zixuan, et al.
Veröffentlicht: (2026)
von: Xu, Zixuan, et al.
Veröffentlicht: (2026)
SNAP: Low-Latency Test-Time Adaptation with Sparse Updates
von: Cha, Hyeongheon, et al.
Veröffentlicht: (2025)
von: Cha, Hyeongheon, et al.
Veröffentlicht: (2025)
TinyAgent: Function Calling at the Edge
von: Erdogan, Lutfi Eren, et al.
Veröffentlicht: (2024)
von: Erdogan, Lutfi Eren, et al.
Veröffentlicht: (2024)
lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models
von: Wang, Haoxin, et al.
Veröffentlicht: (2025)
von: Wang, Haoxin, et al.
Veröffentlicht: (2025)
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
von: Zhang, Kangning, et al.
Veröffentlicht: (2025)
von: Zhang, Kangning, et al.
Veröffentlicht: (2025)
LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
von: Du, Yin, et al.
Veröffentlicht: (2026)
von: Du, Yin, et al.
Veröffentlicht: (2026)
Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling
von: Winston, Caleb, et al.
Veröffentlicht: (2026)
von: Winston, Caleb, et al.
Veröffentlicht: (2026)
An LLM-Tool Compiler for Fused Parallel Function Calling
von: Singh, Simranjit, et al.
Veröffentlicht: (2024)
von: Singh, Simranjit, et al.
Veröffentlicht: (2024)
ToolACE: Winning the Points of LLM Function Calling
von: Liu, Weiwen, et al.
Veröffentlicht: (2024)
von: Liu, Weiwen, et al.
Veröffentlicht: (2024)
Greening AI Inference with Accuracy and Latency-aware User Incentives
von: Siris, Vasilios A., et al.
Veröffentlicht: (2026)
von: Siris, Vasilios A., et al.
Veröffentlicht: (2026)
Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation
von: Shtoff, Alex, et al.
Veröffentlicht: (2024)
von: Shtoff, Alex, et al.
Veröffentlicht: (2024)
Truncated Neural Likelihood Estimation for Simulation-Based Inference in State-Space Models
von: Tsampourakis, Kostas, et al.
Veröffentlicht: (2026)
von: Tsampourakis, Kostas, et al.
Veröffentlicht: (2026)
TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents
von: Kumar, Abhishek Vijaya, et al.
Veröffentlicht: (2026)
von: Kumar, Abhishek Vijaya, et al.
Veröffentlicht: (2026)
A Multi-Agent Framework for Stateful Inference-Time Search
von: Lalan, Arshika, et al.
Veröffentlicht: (2025)
von: Lalan, Arshika, et al.
Veröffentlicht: (2025)
Towards Deep Encrypted Training: Low-Latency, Memory-Efficient, and High-Throughput Inference for Privacy-Preserving Neural Networks
von: Njungle, Nges Brian, et al.
Veröffentlicht: (2026)
von: Njungle, Nges Brian, et al.
Veröffentlicht: (2026)
Research on Low-Latency Inference and Training Efficiency Optimization for Graph Neural Network and Large Language Model-Based Recommendation Systems
von: Zhao, Yushang, et al.
Veröffentlicht: (2025)
von: Zhao, Yushang, et al.
Veröffentlicht: (2025)
Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
von: Agrawal, Amey, et al.
Veröffentlicht: (2024)
von: Agrawal, Amey, et al.
Veröffentlicht: (2024)
On-device Semantic Selection Made Low Latency and Memory Efficient with Monolithic Forwarding
von: Zhou, Jiahao, et al.
Veröffentlicht: (2025)
von: Zhou, Jiahao, et al.
Veröffentlicht: (2025)
Content-Aware Attack Detection in LLM Agent Tool-Call Traffic: An Empirical Study of Features, Architectures, and Evaluation Protocols
von: Zavrak, Sultan
Veröffentlicht: (2026)
von: Zavrak, Sultan
Veröffentlicht: (2026)
Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
von: Pahwa, Ramit, et al.
Veröffentlicht: (2026)
von: Pahwa, Ramit, et al.
Veröffentlicht: (2026)
InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs
von: Liu, Hao, et al.
Veröffentlicht: (2026)
von: Liu, Hao, et al.
Veröffentlicht: (2026)
DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis
von: Han, Yunchu, et al.
Veröffentlicht: (2025)
von: Han, Yunchu, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers
von: Norgren, Victor
Veröffentlicht: (2026) -
Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
von: Ta, Anh, et al.
Veröffentlicht: (2026) -
Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents
von: Chu, Kexin, et al.
Veröffentlicht: (2026) -
Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml
von: Jiang, Zhixing, et al.
Veröffentlicht: (2024) -
Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling
von: Hooper, Coleman, et al.
Veröffentlicht: (2026)