:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Norgren, Victor
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Machine Learning
Online-Zugang:	https://arxiv.org/abs/2605.26289
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers
von: Norgren, Victor
Veröffentlicht: (2026)

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
von: Ta, Anh, et al.
Veröffentlicht: (2026)

Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents
von: Chu, Kexin, et al.
Veröffentlicht: (2026)

Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml
von: Jiang, Zhixing, et al.
Veröffentlicht: (2024)

Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling
von: Hooper, Coleman, et al.
Veröffentlicht: (2026)

ML Inference Scheduling with Predictable Latency
von: Zhao, Haidong, et al.
Veröffentlicht: (2025)

Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference
von: Chen, Huamin, et al.
Veröffentlicht: (2026)

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)
von: Knorr, Marius S., et al.
Veröffentlicht: (2026)

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models
von: Fu, Yao, et al.
Veröffentlicht: (2024)

To Call or Not to Call: Diagnosing Intrinsic Over-Calling Bias in LLM Agents
von: Shi, Wei, et al.
Veröffentlicht: (2026)

Architectural Implications of Neural Network Inference for High Data-Rate, Low-Latency Scientific Applications
von: Weng, Olivia, et al.
Veröffentlicht: (2024)

PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA LUT-based Inference
von: Andronic, Marta, et al.
Veröffentlicht: (2023)

Dynamic Tool Dependency Retrieval for Lightweight Function Calling
von: Patel, Bhrij, et al.
Veröffentlicht: (2025)

ChipChat: Low-Latency Cascaded Conversational Agent in MLX
von: Likhomanenko, Tatiana, et al.
Veröffentlicht: (2025)

Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference
von: Yadav, Divakar Kumar, et al.
Veröffentlicht: (2026)

LiteVLM: A Low-Latency Vision-Language Model Inference Pipeline for Resource-Constrained Environments
von: Huang, Jin, et al.
Veröffentlicht: (2025)

Low-Latency Neural Inference on an Edge Device for Real-Time Handwriting Recognition from EEG Signals
von: Sen, Ovishake, et al.
Veröffentlicht: (2025)

SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
von: Wang, Shuaiqi, et al.
Veröffentlicht: (2026)

SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety
von: Xu, Zixuan, et al.
Veröffentlicht: (2026)

SNAP: Low-Latency Test-Time Adaptation with Sparse Updates
von: Cha, Hyeongheon, et al.
Veröffentlicht: (2025)

TinyAgent: Function Calling at the Edge
von: Erdogan, Lutfi Eren, et al.
Veröffentlicht: (2024)

lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models
von: Wang, Haoxin, et al.
Veröffentlicht: (2025)

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
von: Zhang, Kangning, et al.
Veröffentlicht: (2025)

LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
von: Du, Yin, et al.
Veröffentlicht: (2026)

Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling
von: Winston, Caleb, et al.
Veröffentlicht: (2026)

An LLM-Tool Compiler for Fused Parallel Function Calling
von: Singh, Simranjit, et al.
Veröffentlicht: (2024)

ToolACE: Winning the Points of LLM Function Calling
von: Liu, Weiwen, et al.
Veröffentlicht: (2024)

Greening AI Inference with Accuracy and Latency-aware User Incentives
von: Siris, Vasilios A., et al.
Veröffentlicht: (2026)

Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation
von: Shtoff, Alex, et al.
Veröffentlicht: (2024)

Truncated Neural Likelihood Estimation for Simulation-Based Inference in State-Space Models
von: Tsampourakis, Kostas, et al.
Veröffentlicht: (2026)

TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents
von: Kumar, Abhishek Vijaya, et al.
Veröffentlicht: (2026)

A Multi-Agent Framework for Stateful Inference-Time Search
von: Lalan, Arshika, et al.
Veröffentlicht: (2025)

Towards Deep Encrypted Training: Low-Latency, Memory-Efficient, and High-Throughput Inference for Privacy-Preserving Neural Networks
von: Njungle, Nges Brian, et al.
Veröffentlicht: (2026)

Research on Low-Latency Inference and Training Efficiency Optimization for Graph Neural Network and Large Language Model-Based Recommendation Systems
von: Zhao, Yushang, et al.
Veröffentlicht: (2025)

Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
von: Agrawal, Amey, et al.
Veröffentlicht: (2024)

On-device Semantic Selection Made Low Latency and Memory Efficient with Monolithic Forwarding
von: Zhou, Jiahao, et al.
Veröffentlicht: (2025)

Content-Aware Attack Detection in LLM Agent Tool-Call Traffic: An Empirical Study of Features, Architectures, and Evaluation Protocols
von: Zavrak, Sultan
Veröffentlicht: (2026)

Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
von: Pahwa, Ramit, et al.
Veröffentlicht: (2026)

InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs
von: Liu, Hao, et al.
Veröffentlicht: (2026)

DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis
von: Han, Yunchu, et al.
Veröffentlicht: (2025)