Salvato in:
| Autori principali: | Chavarria, Justin, Raizada, Rohan, White, Justin, Alhetairshi, Eyad |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2509.25643 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Guidance is All You Need: Temperature-Guided Reasoning in Large Language Models
di: Gomaa, Eyad, et al.
Pubblicazione: (2024)
di: Gomaa, Eyad, et al.
Pubblicazione: (2024)
OR-Bench: An Over-Refusal Benchmark for Large Language Models
di: Cui, Justin, et al.
Pubblicazione: (2024)
di: Cui, Justin, et al.
Pubblicazione: (2024)
Position: Theory of Mind Benchmarks are Broken for Large Language Models
di: Riemer, Matthew, et al.
Pubblicazione: (2024)
di: Riemer, Matthew, et al.
Pubblicazione: (2024)
GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
di: Hutson, Dylan, et al.
Pubblicazione: (2025)
di: Hutson, Dylan, et al.
Pubblicazione: (2025)
Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models
di: Alzahrani, Abdurahmman, et al.
Pubblicazione: (2024)
di: Alzahrani, Abdurahmman, et al.
Pubblicazione: (2024)
Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
di: Saraf, Muskan, et al.
Pubblicazione: (2025)
di: Saraf, Muskan, et al.
Pubblicazione: (2025)
PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
di: Khetan, Rohan, et al.
Pubblicazione: (2026)
di: Khetan, Rohan, et al.
Pubblicazione: (2026)
Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
di: Li, Yuangang, et al.
Pubblicazione: (2026)
di: Li, Yuangang, et al.
Pubblicazione: (2026)
Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning
di: Waugh, Justin
Pubblicazione: (2026)
di: Waugh, Justin
Pubblicazione: (2026)
Promises, Outlooks and Challenges of Diffusion Language Modeling
di: Deschenaux, Justin, et al.
Pubblicazione: (2024)
di: Deschenaux, Justin, et al.
Pubblicazione: (2024)
SPILDL: A Scalable and Parallel Inductive Learner in Description Logic
di: Algahtani, Eyad
Pubblicazione: (2024)
di: Algahtani, Eyad
Pubblicazione: (2024)
Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks
di: Zhao, Justin, et al.
Pubblicazione: (2024)
di: Zhao, Justin, et al.
Pubblicazione: (2024)
GLaMoR: Consistency Checking of OWL Ontologies using Graph Language Models
di: Mücke, Justin, et al.
Pubblicazione: (2025)
di: Mücke, Justin, et al.
Pubblicazione: (2025)
HT-HEDL: High-Throughput Hypothesis Evaluation in Description Logic
di: Algahtani, Eyad
Pubblicazione: (2024)
di: Algahtani, Eyad
Pubblicazione: (2024)
Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability
di: Chong, Zan-Kai, et al.
Pubblicazione: (2025)
di: Chong, Zan-Kai, et al.
Pubblicazione: (2025)
Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration
di: Dev, Arundhathi, et al.
Pubblicazione: (2026)
di: Dev, Arundhathi, et al.
Pubblicazione: (2026)
Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language
di: Pauli, Amalie Brogaard, et al.
Pubblicazione: (2024)
di: Pauli, Amalie Brogaard, et al.
Pubblicazione: (2024)
Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games
di: Waytowich, Nicholas R., et al.
Pubblicazione: (2024)
di: Waytowich, Nicholas R., et al.
Pubblicazione: (2024)
Dynamic Code Orchestration: Harnessing the Power of Large Language Models for Adaptive Script Execution
di: Del Vecchio, Justin, et al.
Pubblicazione: (2024)
di: Del Vecchio, Justin, et al.
Pubblicazione: (2024)
Data Generation Using Large Language Models for Text Classification: An Empirical Case Study
di: Li, Yinheng, et al.
Pubblicazione: (2024)
di: Li, Yinheng, et al.
Pubblicazione: (2024)
A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions
di: Shorinwa, Ola, et al.
Pubblicazione: (2024)
di: Shorinwa, Ola, et al.
Pubblicazione: (2024)
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
di: Song, Kefan, et al.
Pubblicazione: (2025)
di: Song, Kefan, et al.
Pubblicazione: (2025)
Measuring what Matters: Construct Validity in Large Language Model Benchmarks
di: Bean, Andrew M., et al.
Pubblicazione: (2025)
di: Bean, Andrew M., et al.
Pubblicazione: (2025)
Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
di: Yan, Bei, et al.
Pubblicazione: (2024)
di: Yan, Bei, et al.
Pubblicazione: (2024)
ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences
di: Nguyen, Bang, et al.
Pubblicazione: (2026)
di: Nguyen, Bang, et al.
Pubblicazione: (2026)
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why?
di: Chen, QiHong, et al.
Pubblicazione: (2024)
di: Chen, QiHong, et al.
Pubblicazione: (2024)
Evaluating Large Language Models for automatic analysis of teacher simulations
di: de-Fitero-Dominguez, David, et al.
Pubblicazione: (2024)
di: de-Fitero-Dominguez, David, et al.
Pubblicazione: (2024)
Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark
di: Shen, Xinjie, et al.
Pubblicazione: (2025)
di: Shen, Xinjie, et al.
Pubblicazione: (2025)
Guided Discrete Diffusion for Constraint Satisfaction Problems
di: Jung, Justin
Pubblicazione: (2025)
di: Jung, Justin
Pubblicazione: (2025)
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
di: Lee, Jaeho, et al.
Pubblicazione: (2025)
di: Lee, Jaeho, et al.
Pubblicazione: (2025)
CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
di: Luong, Justin, et al.
Pubblicazione: (2025)
di: Luong, Justin, et al.
Pubblicazione: (2025)
ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models
di: Wu, Yanan, et al.
Pubblicazione: (2024)
di: Wu, Yanan, et al.
Pubblicazione: (2024)
Benchmarking Reasoning Robustness in Large Language Models
di: Yu, Tong, et al.
Pubblicazione: (2025)
di: Yu, Tong, et al.
Pubblicazione: (2025)
Enterprise Large Language Model Evaluation Benchmark
di: Wang, Liya, et al.
Pubblicazione: (2025)
di: Wang, Liya, et al.
Pubblicazione: (2025)
Foundation CAN LM: A Pretrained Language Model For Automotive CAN Data
di: Esashi, Akiharu, et al.
Pubblicazione: (2026)
di: Esashi, Akiharu, et al.
Pubblicazione: (2026)
Assessing model error in counterfactual worlds
di: Howerton, Emily, et al.
Pubblicazione: (2025)
di: Howerton, Emily, et al.
Pubblicazione: (2025)
AI, Global Governance, and Digital Sovereignty
di: Srivastava, Swati, et al.
Pubblicazione: (2024)
di: Srivastava, Swati, et al.
Pubblicazione: (2024)
ScreenSearch: Uncertainty-Aware OS Exploration
di: Solodko, Michael, et al.
Pubblicazione: (2026)
di: Solodko, Michael, et al.
Pubblicazione: (2026)
Emergent Systems Architecture: A Framework for Identity-Like Behavioral Organization in Language Models
di: Skindell, Justin
Pubblicazione: (2026)
di: Skindell, Justin
Pubblicazione: (2026)
Addressing Vulnerabilities in AI-Image Detection: Challenges and Proposed Solutions
di: Jiang, Justin
Pubblicazione: (2024)
di: Jiang, Justin
Pubblicazione: (2024)
Documenti analoghi
-
Guidance is All You Need: Temperature-Guided Reasoning in Large Language Models
di: Gomaa, Eyad, et al.
Pubblicazione: (2024) -
OR-Bench: An Over-Refusal Benchmark for Large Language Models
di: Cui, Justin, et al.
Pubblicazione: (2024) -
Position: Theory of Mind Benchmarks are Broken for Large Language Models
di: Riemer, Matthew, et al.
Pubblicazione: (2024) -
GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
di: Hutson, Dylan, et al.
Pubblicazione: (2025) -
Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models
di: Alzahrani, Abdurahmman, et al.
Pubblicazione: (2024)