:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Monti, Sebastiano, Nicolini, Carlo, Pellegrini, Gianni, Staiano, Jacopo, Lepri, Bruno
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2601.20856
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)

Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
von: Bronzini, Marco, et al.
Veröffentlicht: (2025)

Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph
von: Bronzini, Marco, et al.
Veröffentlicht: (2024)

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models
von: Bronzini, Marco, et al.
Veröffentlicht: (2023)

The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data
von: Luca, Massimiliano, et al.
Veröffentlicht: (2025)

Hopfield Networks for Asset Allocation
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)

I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy
von: Campedelli, Gian Maria, et al.
Veröffentlicht: (2024)

Graph Hierarchical Recurrence for Long-Range Generalization
von: Carotti, Stefano, et al.
Veröffentlicht: (2026)

HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
von: Anokhin, Petr, et al.
Veröffentlicht: (2025)

Large Language Models are Zero-Shot Next Location Predictors
von: Beneduce, Ciro, et al.
Veröffentlicht: (2024)

Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
von: Sayin, Burcu, et al.
Veröffentlicht: (2024)

Urban Safety Perception Through the Lens of Large Multimodal Models: A Persona-based Approach
von: Beneduce, Ciro, et al.
Veröffentlicht: (2025)

CLR-Bench: Evaluating Large Language Models in College-level Reasoning
von: Dong, Junnan, et al.
Veröffentlicht: (2024)

Translating Under Pressure: Domain-Aware LLMs for Crisis Communication
von: Castaldo, Antonio, et al.
Veröffentlicht: (2026)

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)

HorizonBench: Long-Horizon Personalization with Evolving Preferences
von: Li, Shuyue Stella, et al.
Veröffentlicht: (2026)

FCRF: Flexible Constructivism Reflection for Long-Horizon Robotic Task Planning with Large Language Models
von: Song, Yufan, et al.
Veröffentlicht: (2025)

$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
von: Zhang, Haoran, et al.
Veröffentlicht: (2026)

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
von: Yu, Chengjun, et al.
Veröffentlicht: (2026)

UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models
von: Zheng, Yu, et al.
Veröffentlicht: (2025)

LH-Bench: Skill-Grounded Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks
von: Chandwani, Abhishek, et al.
Veröffentlicht: (2026)

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
von: Kim, Sunghwan, et al.
Veröffentlicht: (2026)

Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks
von: Molinari, Gianni, et al.
Veröffentlicht: (2025)

LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
von: Parmar, Mihir, et al.
Veröffentlicht: (2024)

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
von: Chu, Zheng, et al.
Veröffentlicht: (2023)

RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)

ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
von: Huang, Zhiyuan, et al.
Veröffentlicht: (2025)

MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds
von: Hill, William, et al.
Veröffentlicht: (2023)

LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios
von: Chen, Tianyu, et al.
Veröffentlicht: (2026)

LifeBench: A Benchmark for Long-Horizon Multi-Source Memory
von: Cheng, Zihao, et al.
Veröffentlicht: (2026)

KellyBench: A Benchmark for Long-Horizon Sequential Decision Making
von: Grady, Thomas, et al.
Veröffentlicht: (2026)

Reflection-Bench: Evaluating Epistemic Agency in Large Language Models
von: Li, Lingyu, et al.
Veröffentlicht: (2024)

Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
von: Li, Yunfan, et al.
Veröffentlicht: (2026)

CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations
von: Gao, Huan-ang, et al.
Veröffentlicht: (2025)

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks
von: Lobo, ELita, et al.
Veröffentlicht: (2026)

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
von: Feng, Yunhai, et al.
Veröffentlicht: (2025)

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
von: Hu, Xavier, et al.
Veröffentlicht: (2026)

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
von: Sharma, Aman, et al.
Veröffentlicht: (2026)

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models
von: Wang, Tianlong, et al.
Veröffentlicht: (2026)

PlanU: Large Language Model Reasoning through Planning under Uncertainty
von: Deng, Ziwei, et al.
Veröffentlicht: (2025)