Gespeichert in:
| Hauptverfasser: | Monti, Sebastiano, Nicolini, Carlo, Pellegrini, Gianni, Staiano, Jacopo, Lepri, Bruno |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.20856 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
von: Bronzini, Marco, et al.
Veröffentlicht: (2025)
von: Bronzini, Marco, et al.
Veröffentlicht: (2025)
Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph
von: Bronzini, Marco, et al.
Veröffentlicht: (2024)
von: Bronzini, Marco, et al.
Veröffentlicht: (2024)
Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models
von: Bronzini, Marco, et al.
Veröffentlicht: (2023)
von: Bronzini, Marco, et al.
Veröffentlicht: (2023)
The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data
von: Luca, Massimiliano, et al.
Veröffentlicht: (2025)
von: Luca, Massimiliano, et al.
Veröffentlicht: (2025)
Hopfield Networks for Asset Allocation
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024)
I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy
von: Campedelli, Gian Maria, et al.
Veröffentlicht: (2024)
von: Campedelli, Gian Maria, et al.
Veröffentlicht: (2024)
Graph Hierarchical Recurrence for Long-Range Generalization
von: Carotti, Stefano, et al.
Veröffentlicht: (2026)
von: Carotti, Stefano, et al.
Veröffentlicht: (2026)
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
von: Anokhin, Petr, et al.
Veröffentlicht: (2025)
von: Anokhin, Petr, et al.
Veröffentlicht: (2025)
Large Language Models are Zero-Shot Next Location Predictors
von: Beneduce, Ciro, et al.
Veröffentlicht: (2024)
von: Beneduce, Ciro, et al.
Veröffentlicht: (2024)
Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
von: Sayin, Burcu, et al.
Veröffentlicht: (2024)
von: Sayin, Burcu, et al.
Veröffentlicht: (2024)
Urban Safety Perception Through the Lens of Large Multimodal Models: A Persona-based Approach
von: Beneduce, Ciro, et al.
Veröffentlicht: (2025)
von: Beneduce, Ciro, et al.
Veröffentlicht: (2025)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning
von: Dong, Junnan, et al.
Veröffentlicht: (2024)
von: Dong, Junnan, et al.
Veröffentlicht: (2024)
Translating Under Pressure: Domain-Aware LLMs for Crisis Communication
von: Castaldo, Antonio, et al.
Veröffentlicht: (2026)
von: Castaldo, Antonio, et al.
Veröffentlicht: (2026)
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)
von: Zhao, Yujie, et al.
Veröffentlicht: (2026)
HorizonBench: Long-Horizon Personalization with Evolving Preferences
von: Li, Shuyue Stella, et al.
Veröffentlicht: (2026)
von: Li, Shuyue Stella, et al.
Veröffentlicht: (2026)
FCRF: Flexible Constructivism Reflection for Long-Horizon Robotic Task Planning with Large Language Models
von: Song, Yufan, et al.
Veröffentlicht: (2025)
von: Song, Yufan, et al.
Veröffentlicht: (2025)
$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
von: Zhang, Haoran, et al.
Veröffentlicht: (2026)
von: Zhang, Haoran, et al.
Veröffentlicht: (2026)
EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
von: Yu, Chengjun, et al.
Veröffentlicht: (2026)
von: Yu, Chengjun, et al.
Veröffentlicht: (2026)
UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models
von: Zheng, Yu, et al.
Veröffentlicht: (2025)
von: Zheng, Yu, et al.
Veröffentlicht: (2025)
LH-Bench: Skill-Grounded Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks
von: Chandwani, Abhishek, et al.
Veröffentlicht: (2026)
von: Chandwani, Abhishek, et al.
Veröffentlicht: (2026)
On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
von: Kim, Sunghwan, et al.
Veröffentlicht: (2026)
von: Kim, Sunghwan, et al.
Veröffentlicht: (2026)
Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks
von: Molinari, Gianni, et al.
Veröffentlicht: (2025)
von: Molinari, Gianni, et al.
Veröffentlicht: (2025)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
von: Parmar, Mihir, et al.
Veröffentlicht: (2024)
von: Parmar, Mihir, et al.
Veröffentlicht: (2024)
TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
von: Chu, Zheng, et al.
Veröffentlicht: (2023)
von: Chu, Zheng, et al.
Veröffentlicht: (2023)
RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)
von: Xu, Xinbo, et al.
Veröffentlicht: (2026)
ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
von: Huang, Zhiyuan, et al.
Veröffentlicht: (2025)
von: Huang, Zhiyuan, et al.
Veröffentlicht: (2025)
MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds
von: Hill, William, et al.
Veröffentlicht: (2023)
von: Hill, William, et al.
Veröffentlicht: (2023)
LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios
von: Chen, Tianyu, et al.
Veröffentlicht: (2026)
von: Chen, Tianyu, et al.
Veröffentlicht: (2026)
LifeBench: A Benchmark for Long-Horizon Multi-Source Memory
von: Cheng, Zihao, et al.
Veröffentlicht: (2026)
von: Cheng, Zihao, et al.
Veröffentlicht: (2026)
KellyBench: A Benchmark for Long-Horizon Sequential Decision Making
von: Grady, Thomas, et al.
Veröffentlicht: (2026)
von: Grady, Thomas, et al.
Veröffentlicht: (2026)
Reflection-Bench: Evaluating Epistemic Agency in Large Language Models
von: Li, Lingyu, et al.
Veröffentlicht: (2024)
von: Li, Lingyu, et al.
Veröffentlicht: (2024)
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
von: Li, Yunfan, et al.
Veröffentlicht: (2026)
von: Li, Yunfan, et al.
Veröffentlicht: (2026)
CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations
von: Gao, Huan-ang, et al.
Veröffentlicht: (2025)
von: Gao, Huan-ang, et al.
Veröffentlicht: (2025)
STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks
von: Lobo, ELita, et al.
Veröffentlicht: (2026)
von: Lobo, ELita, et al.
Veröffentlicht: (2026)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
von: Feng, Yunhai, et al.
Veröffentlicht: (2025)
von: Feng, Yunhai, et al.
Veröffentlicht: (2025)
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies
von: Hu, Xavier, et al.
Veröffentlicht: (2026)
von: Hu, Xavier, et al.
Veröffentlicht: (2026)
EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
von: Sharma, Aman, et al.
Veröffentlicht: (2026)
von: Sharma, Aman, et al.
Veröffentlicht: (2026)
ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models
von: Wang, Tianlong, et al.
Veröffentlicht: (2026)
von: Wang, Tianlong, et al.
Veröffentlicht: (2026)
PlanU: Large Language Model Reasoning through Planning under Uncertainty
von: Deng, Ziwei, et al.
Veröffentlicht: (2025)
von: Deng, Ziwei, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models
von: Nicolini, Carlo, et al.
Veröffentlicht: (2024) -
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
von: Bronzini, Marco, et al.
Veröffentlicht: (2025) -
Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph
von: Bronzini, Marco, et al.
Veröffentlicht: (2024) -
Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models
von: Bronzini, Marco, et al.
Veröffentlicht: (2023) -
The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data
von: Luca, Massimiliano, et al.
Veröffentlicht: (2025)