:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chavarria, Justin, Raizada, Rohan, White, Justin, Alhetairshi, Eyad
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2509.25643
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Guidance is All You Need: Temperature-Guided Reasoning in Large Language Models
di: Gomaa, Eyad, et al.
Pubblicazione: (2024)

OR-Bench: An Over-Refusal Benchmark for Large Language Models
di: Cui, Justin, et al.
Pubblicazione: (2024)

Position: Theory of Mind Benchmarks are Broken for Large Language Models
di: Riemer, Matthew, et al.
Pubblicazione: (2024)

GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
di: Hutson, Dylan, et al.
Pubblicazione: (2025)

Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models
di: Alzahrani, Abdurahmman, et al.
Pubblicazione: (2024)

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
di: Saraf, Muskan, et al.
Pubblicazione: (2025)

PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
di: Khetan, Rohan, et al.
Pubblicazione: (2026)

Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
di: Li, Yuangang, et al.
Pubblicazione: (2026)

Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning
di: Waugh, Justin
Pubblicazione: (2026)

Promises, Outlooks and Challenges of Diffusion Language Modeling
di: Deschenaux, Justin, et al.
Pubblicazione: (2024)

SPILDL: A Scalable and Parallel Inductive Learner in Description Logic
di: Algahtani, Eyad
Pubblicazione: (2024)

Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks
di: Zhao, Justin, et al.
Pubblicazione: (2024)

GLaMoR: Consistency Checking of OWL Ontologies using Graph Language Models
di: Mücke, Justin, et al.
Pubblicazione: (2025)

HT-HEDL: High-Throughput Hypothesis Evaluation in Description Logic
di: Algahtani, Eyad
Pubblicazione: (2024)

Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability
di: Chong, Zan-Kai, et al.
Pubblicazione: (2025)

Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration
di: Dev, Arundhathi, et al.
Pubblicazione: (2026)

Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language
di: Pauli, Amalie Brogaard, et al.
Pubblicazione: (2024)

Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games
di: Waytowich, Nicholas R., et al.
Pubblicazione: (2024)

Dynamic Code Orchestration: Harnessing the Power of Large Language Models for Adaptive Script Execution
di: Del Vecchio, Justin, et al.
Pubblicazione: (2024)

Data Generation Using Large Language Models for Text Classification: An Empirical Case Study
di: Li, Yinheng, et al.
Pubblicazione: (2024)

A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions
di: Shorinwa, Ola, et al.
Pubblicazione: (2024)

Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
di: Song, Kefan, et al.
Pubblicazione: (2025)

Measuring what Matters: Construct Validity in Large Language Model Benchmarks
di: Bean, Andrew M., et al.
Pubblicazione: (2025)

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
di: Yan, Bei, et al.
Pubblicazione: (2024)

ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences
di: Nguyen, Bang, et al.
Pubblicazione: (2026)

A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why?
di: Chen, QiHong, et al.
Pubblicazione: (2024)

Evaluating Large Language Models for automatic analysis of teacher simulations
di: de-Fitero-Dominguez, David, et al.
Pubblicazione: (2024)

Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark
di: Shen, Xinjie, et al.
Pubblicazione: (2025)

Guided Discrete Diffusion for Constraint Satisfaction Problems
di: Jung, Justin
Pubblicazione: (2025)

AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
di: Lee, Jaeho, et al.
Pubblicazione: (2025)

CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
di: Luong, Justin, et al.
Pubblicazione: (2025)

ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models
di: Wu, Yanan, et al.
Pubblicazione: (2024)

Benchmarking Reasoning Robustness in Large Language Models
di: Yu, Tong, et al.
Pubblicazione: (2025)

Enterprise Large Language Model Evaluation Benchmark
di: Wang, Liya, et al.
Pubblicazione: (2025)

Foundation CAN LM: A Pretrained Language Model For Automotive CAN Data
di: Esashi, Akiharu, et al.
Pubblicazione: (2026)

Assessing model error in counterfactual worlds
di: Howerton, Emily, et al.
Pubblicazione: (2025)

AI, Global Governance, and Digital Sovereignty
di: Srivastava, Swati, et al.
Pubblicazione: (2024)

ScreenSearch: Uncertainty-Aware OS Exploration
di: Solodko, Michael, et al.
Pubblicazione: (2026)

Emergent Systems Architecture: A Framework for Identity-Like Behavioral Organization in Language Models
di: Skindell, Justin
Pubblicazione: (2026)

Addressing Vulnerabilities in AI-Image Detection: Challenges and Proposed Solutions
di: Jiang, Justin
Pubblicazione: (2024)