Uloženo v:
| Hlavní autor: | |
|---|---|
| Médium: | Recurso digital |
| Jazyk: | |
| Vydáno: |
Zenodo
2026
|
| Témata: | |
| On-line přístup: | https://doi.org/10.5281/zenodo.20102437 |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Obsah:
- REAL-AI-Benchmark is a suite of real-world reasoning benchmarks for evaluating large language models beyond synthetic leaderboard tasks. It includes GO-1 to GO-6 benchmarks covering symbolic reasoning, algorithmic verification, code generation, reproducibility, and multimodal physical-AI decision-making with analog instrument reading, fuzzy inference, and dynamic simulation.