Obsah: :: Library Catalog

Obálka

Uloženo v:

Podrobná bibliografie
Hlavní autor:	Ivković, Jovan
Médium:	Recurso digital
Jazyk:
Vydáno:	Zenodo 2026
Témata:	artificial intelligence AI benchmark large language models benchmark multimodal reasoning physical AI multimodal evaluation fuzzy logic dynamic simulation Zig
On-line přístup:	https://doi.org/10.5281/zenodo.20102437
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Obsah:

REAL-AI-Benchmark is a suite of real-world reasoning benchmarks for evaluating large language models beyond synthetic leaderboard tasks. It includes GO-1 to GO-6 benchmarks covering symbolic reasoning, algorithmic verification, code generation, reproducibility, and multimodal physical-AI decision-making with analog instrument reading, fuzzy inference, and dynamic simulation.