:: Library Catalog

Зображення обкладинки

Збережено в:

Бібліографічні деталі
Автор:	Shalom Lijo, Solomon
Формат:	Recurso digital
Мова:	Англійська
Опубліковано:	Zenodo 2026
Предмети:	benchmarks large language models productivity evaluation human-AI collaberation net time saved resource efficiency jagged frontier hallucination cost
Онлайн доступ:	https://doi.org/10.5281/zenodo.19919043
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!

Схожі ресурси

REAL-AI-Benchmark: Real-World Reasoning and Physical-AI Benchmark Suite
за авторством: Ivković, Jovan
Опубліковано: (2026)

31. DATASET COMPLETO DE EVALUACIONES CRUZADAS RFC-EVAL-001 – 6 SISTEMAS DE IA (ENERO 2026).
за авторством: Bernal Díaz, Víctor Cristóbal
Опубліковано: (2026)

MedEd-HalluScore: A Practical Framework for Evaluating Hallucination and Educational Safety Risks in LLM-Generated Clinical Cases
за авторством: Duarte, Douglas Henrique
Опубліковано: (2026)

MedEd-HalluScore: A Practical Framework for Evaluating Hallucination and Educational Safety Risks in LLM-Generated Clinical Cases
за авторством: Duarte, Douglas Henrique
Опубліковано: (2026)

The Absurdist's Guide to AI Probing: How I Learned to Stop Worrying and Love the Nonsense
за авторством: Walton, Mathew
Опубліковано: (2026)

LLM Token Estimation Benchmarks: Tokenizer Efficiency and Cost Analysis Across 17 Large Language Models
за авторством: Khare, Mohit
Опубліковано: (2026)

30. TEORÍA DE LA POTENCIALIDAD CONSCIENTE (TPC): BENCHMARK DE CAPACIDADES COGNITIVAS EN IA - APLICACIÓN DEL PROTOCOLO RFC-EVAL-001. RESULTADOS COMPLETOS DE EVALUACIÓN CRUZADA CIEGA ENTRE 6 IAS COMERCIALES.
за авторством: Bernal Díaz, Víctor Cristóbal
Опубліковано: (2026)

30. TEORÍA DE LA POTENCIALIDAD CONSCIENTE (TPC): BENCHMARK DE CAPACIDADES COGNITIVAS EN IA - APLICACIÓN DEL PROTOCOLO RFC-EVAL-001 V1.1. RESULTADOS COMPLETOS DE EVALUACIÓN CRUZADA CIEGA ENTRE 6 IAS COMERCIALES.
за авторством: Bernal Díaz, Víctor Cristóbal
Опубліковано: (2026)

Public Comment on NIST AI 800-2: Anthropomorphic Construct Projection in AI Benchmark Evaluation
за авторством: Sophia, Franny Philos
Опубліковано: (2026)

AGI Certification Framework: A Multi-Dimensional Evaluation Standard for Measuring AI Understanding
за авторством: Head, Hank
Опубліковано: (2026)

Why AI Can't Simulate Extreme Decision-Making
за авторством: Rosehill, Daniel, та інші
Опубліковано: (2026)

Stochastic Frontier Models with Dependent Errors based on Normal and Exponential Margins
за авторством: Emilio Gómez–Déniz
Опубліковано: (2017)

How Far Does the Trolley Problem Go in AI Ethics Evaluation? Limits of a Canonical Benchmark and the Risks of Its Misuse
за авторством: mizutani, aya
Опубліковано: (2026)

TECHNICAL EFFICIENCY IN SMALL AND MEDIUM-SIZED FIRMS IN MEXICO: A STOCHASTIC FRONTIER ANALYSIS
за авторством: Saúl Basurto Hernández
Опубліковано: (2022)

Large language model-driven natural language interaction control framework for single-operator bimanual teleoperation
за авторством: Fei, Haolin, та інші
Опубліковано: (2025)

Supplementary materials for Words That Won't Hold Still
за авторством: Reynolds, Brett
Опубліковано: (2025)

Evaluation of Temperatures to Analyze the Saving and Efficiency Energy
за авторством: Hernán Daniel Magaña-Almaguer
Опубліковано: (2016)

Theatrical Compliance: A Failure Mode in Large Language Models
за авторством: Nowickij (Navitski), Kirill Vladimirovich
Опубліковано: (2026)

Metacognition Benchmark: Evaluating Confidence Calibration and Sycophancy Resistance in Clinical AI
за авторством: Khan, Nabeera
Опубліковано: (2026)

Failing at the Floor: LLM Formal Reasoning Collapse on the Primitive Duplicating Recursor
за авторством: Rahnama, Moses
Опубліковано: (2026)

Persona, Shadow, and Cheap Coherence: A Jungian Map of the Soul in the Digital Age (Read Through Structural Intelligence)
за авторством: Jovanovic, Vladisav
Опубліковано: (2026)

Premature Containment in Human–AI Interaction: A Sequencing Failure in Advanced Model Response
за авторством: Trabocco, Joe
Опубліковано: (2026)

Benchmarking LLM Agent Efficiency in Production Systems: An Observational Prospective Methodology
за авторством: Barcelos Costa, Cleber, та інші
Опубліковано: (2026)

Benchmark run results by Abhinav Gorantla, on benchmark context Benchmark: VAR-LiNGAM, PCMCIplus v3
за авторством: Abhinav Gorantla
Опубліковано: (2025)

Benchmark run results by Abhinav Gorantla, on benchmark context Tuning PC v3
за авторством: Abhinav Gorantla
Опубліковано: (2026)

Benchmark run results by Ertugrul Coban, on benchmark context Tuning PC v2
за авторством: Ertugrul Coban
Опубліковано: (2025)

Benchmark run results by Pratanu Mandal, on benchmark context Tuning PC v3
за авторством: Pratanu Mandal
Опубліковано: (2025)

Benchmark run results by Pratanu Mandal, on benchmark context Tuning PC v3
за авторством: Pratanu Mandal
Опубліковано: (2026)

Benchmark run results by Ertugrul Coban, on benchmark context Tuning PC v3
за авторством: Ertugrul Coban
Опубліковано: (2025)

Benchmark run results by Abhinav Gorantla, on benchmark context CB-StaticDiscovery v1
за авторством: Abhinav Gorantla
Опубліковано: (2025)

Benchmark run results by Shu Wan, on benchmark context PC Hyperparameter Tuning v2
за авторством: Shu Wan
Опубліковано: (2025)

AI ARTIFICIAL INTELLIGENCE IN CHEMICAL FIELD – INNOVATION AND RISK EVALUATION
за авторством: Luisetto M., та інші
Опубліковано: (2025)

Benchmark run results by Pratanu Mandal, on benchmark context Tutorial: Static Causal Discovery (Scenario 3) v1
за авторством: Pratanu Mandal
Опубліковано: (2026)

Benchmark run results by Abhinav Gorantla, on benchmark context Tutorial: Static Causal Discovery (Scenario 3) v1
за авторством: Abhinav Gorantla
Опубліковано: (2025)

Toward an AI Personalization Index: A 157-Day Single-User Case Study
за авторством: Lee, TaeKyung
Опубліковано: (2026)

Цифрові та ШІ інструменти для відповідальної науки
за авторством: Suchikova, Yana
Опубліковано: (2026)

Decommissioning cost estimation for a multiple reactor site with interdependent plants: case study using a new management tool and top-down approach
за авторством: Deiglys Borges Monteiro
Опубліковано: (2020)

Technical efficiency of thermal power units through a stochastic frontier
за авторством: José Antonio Marmolejo-Saucedo
Опубліковано: (2015)

Technical efficiency of carp production in India : a stochastic frontier production function analysis / K. R. Sharma
за авторством: K. R., Sharma
Опубліковано: (1994)

Total Cardiovascular Risk Assessment and Management Using Two Prediction Tools, with and without Blood Cholesterol
за авторством: Porfirio Nordet
Опубліковано: (2013)