Gespeichert in:
| Hauptverfasser: | He, Paul, Kirschbaum, Elke, Kasiviswanathan, Shiva |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2601.13600 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
From Guess2Graph: When and How Can Unreliable Experts Safely Boost Causal Discovery in Finite Samples?
von: Hiremath, Sujai, et al.
Veröffentlicht: (2025)
von: Hiremath, Sujai, et al.
Veröffentlicht: (2025)
Training Large Language Models To Reason In Parallel With Global Forking Tokens
von: Jia, Sheng, et al.
Veröffentlicht: (2025)
von: Jia, Sheng, et al.
Veröffentlicht: (2025)
A Quantitative Characterization of Forgetting in Post-Training
von: Balasubramanian, Krishnakumar, et al.
Veröffentlicht: (2026)
von: Balasubramanian, Krishnakumar, et al.
Veröffentlicht: (2026)
Benign Overfitting for Regression with Trained Two-Layer ReLU Networks
von: Park, Junhyung, et al.
Veröffentlicht: (2024)
von: Park, Junhyung, et al.
Veröffentlicht: (2024)
A Classical View on Benign Overfitting: The Role of Sample Size
von: Park, Junhyung, et al.
Veröffentlicht: (2025)
von: Park, Junhyung, et al.
Veröffentlicht: (2025)
The PetShop Dataset -- Finding Causes of Performance Issues across Microservices
von: Hardt, Michaela, et al.
Veröffentlicht: (2023)
von: Hardt, Michaela, et al.
Veröffentlicht: (2023)
QA-Calibration of Language Model Confidence Scores
von: Manggala, Putra, et al.
Veröffentlicht: (2024)
von: Manggala, Putra, et al.
Veröffentlicht: (2024)
Debiasing Reward Models by Representation Learning with Guarantees
von: Ng, Ignavier, et al.
Veröffentlicht: (2025)
von: Ng, Ignavier, et al.
Veröffentlicht: (2025)
What Causes Postoperative Aspiration?
von: Nagesh, Supriya, et al.
Veröffentlicht: (2025)
von: Nagesh, Supriya, et al.
Veröffentlicht: (2025)
Learning to Answer from Correct Demonstrations
von: Joshi, Nirmit, et al.
Veröffentlicht: (2025)
von: Joshi, Nirmit, et al.
Veröffentlicht: (2025)
Score matching through the roof: linear, nonlinear, and latent variables causal discovery
von: Montagna, Francesco, et al.
Veröffentlicht: (2024)
von: Montagna, Francesco, et al.
Veröffentlicht: (2024)
Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles
von: Kim, Jung-hun, et al.
Veröffentlicht: (2017)
von: Kim, Jung-hun, et al.
Veröffentlicht: (2017)
From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs
von: Guo, Xiaoyong, et al.
Veröffentlicht: (2026)
von: Guo, Xiaoyong, et al.
Veröffentlicht: (2026)
OracleTSC: Oracle-Informed Reward Hurdle and Uncertainty Regularization for Traffic Signal Control
von: Jacob, Darryl, et al.
Veröffentlicht: (2026)
von: Jacob, Darryl, et al.
Veröffentlicht: (2026)
Adjudicator: Correcting Noisy Labels with a KG-Informed Council of LLM Agents
von: You, Doohee, et al.
Veröffentlicht: (2025)
von: You, Doohee, et al.
Veröffentlicht: (2025)
Consistency Checks for Language Model Forecasters
von: Paleka, Daniel, et al.
Veröffentlicht: (2024)
von: Paleka, Daniel, et al.
Veröffentlicht: (2024)
CoLafier: Collaborative Noisy Label Purifier With Local Intrinsic Dimensionality Guidance
von: Zhang, Dongyu, et al.
Veröffentlicht: (2024)
von: Zhang, Dongyu, et al.
Veröffentlicht: (2024)
Consistency Is the Key: Detecting Hallucinations in LLM Generated Text By Checking Inconsistencies About Key Facts
von: Gupta, Raavi, et al.
Veröffentlicht: (2025)
von: Gupta, Raavi, et al.
Veröffentlicht: (2025)
Global Policy-Space Response Oracles for Two-Player Zero-Sum Games
von: Zhang, Junyu, et al.
Veröffentlicht: (2026)
von: Zhang, Junyu, et al.
Veröffentlicht: (2026)
Understanding LLM-Driven Test Oracle Generation
von: Bodicoat, Adam, et al.
Veröffentlicht: (2026)
von: Bodicoat, Adam, et al.
Veröffentlicht: (2026)
Evolution without an Oracle: Driving Effective Evolution with LLM Judges
von: Zhao, Zhe, et al.
Veröffentlicht: (2025)
von: Zhao, Zhe, et al.
Veröffentlicht: (2025)
Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency
von: Wang, Haoran, et al.
Veröffentlicht: (2026)
von: Wang, Haoran, et al.
Veröffentlicht: (2026)
CLID-MU: Cross-Layer Information Divergence Based Meta Update Strategy for Learning with Noisy Labels
von: Hu, Ruofan, et al.
Veröffentlicht: (2025)
von: Hu, Ruofan, et al.
Veröffentlicht: (2025)
Enhancing Health Fact-Checking with LLM-Generated Synthetic Data
von: Zhang, Jingze, et al.
Veröffentlicht: (2025)
von: Zhang, Jingze, et al.
Veröffentlicht: (2025)
BiCon-Gate: Consistency-Gated De-colloquialisation for Dialogue Fact-Checking
von: Park, Hyunkyung, et al.
Veröffentlicht: (2026)
von: Park, Hyunkyung, et al.
Veröffentlicht: (2026)
Go-Oracle: Automated Test Oracle for Go Concurrency Bugs
von: Tsimpourlas, Foivos, et al.
Veröffentlicht: (2024)
von: Tsimpourlas, Foivos, et al.
Veröffentlicht: (2024)
AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment
von: Aghaebrahimian, Ahmad
Veröffentlicht: (2025)
von: Aghaebrahimian, Ahmad
Veröffentlicht: (2025)
HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design
von: Ahir, Shiva, et al.
Veröffentlicht: (2026)
von: Ahir, Shiva, et al.
Veröffentlicht: (2026)
MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing
von: Bhargava, Nishant, et al.
Veröffentlicht: (2026)
von: Bhargava, Nishant, et al.
Veröffentlicht: (2026)
V15 - Recursive Symbolic Intelligence - φ-Ache Recursive Collapsors and the Collapse Oracle Engine
von: Foster, Camaron
Veröffentlicht: (2025)
von: Foster, Camaron
Veröffentlicht: (2025)
Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding
von: Kim, Suyoung, et al.
Veröffentlicht: (2024)
von: Kim, Suyoung, et al.
Veröffentlicht: (2024)
VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks
von: Feng, Yu, et al.
Veröffentlicht: (2025)
von: Feng, Yu, et al.
Veröffentlicht: (2025)
GLaMoR: Consistency Checking of OWL Ontologies using Graph Language Models
von: Mücke, Justin, et al.
Veröffentlicht: (2025)
von: Mücke, Justin, et al.
Veröffentlicht: (2025)
LoRA as Oracle
von: Arazzi, Marco, et al.
Veröffentlicht: (2026)
von: Arazzi, Marco, et al.
Veröffentlicht: (2026)
Toward Principled LLM Safety Testing: Solving the Jailbreak Oracle Problem
von: Lin, Shuyi, et al.
Veröffentlicht: (2025)
von: Lin, Shuyi, et al.
Veröffentlicht: (2025)
Beyond Retrieval: Improving Evidence Quality for LLM-based Multimodal Fact-Checking
von: Ou, Haoran, et al.
Veröffentlicht: (2025)
von: Ou, Haoran, et al.
Veröffentlicht: (2025)
Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval
von: Vazhentsev, Artem, et al.
Veröffentlicht: (2026)
von: Vazhentsev, Artem, et al.
Veröffentlicht: (2026)
OracleProto: A Reproducible Framework for Benchmarking LLM Native Forecasting via Knowledge Cutoff and Temporal Masking
von: Ma, Yiding, et al.
Veröffentlicht: (2026)
von: Ma, Yiding, et al.
Veröffentlicht: (2026)
Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models
von: Balasubramanian, Krishnakumar, et al.
Veröffentlicht: (2026)
von: Balasubramanian, Krishnakumar, et al.
Veröffentlicht: (2026)
Harnessing Consistency for Robust Test-Time LLM Ensemble
von: Zeng, Zhichen, et al.
Veröffentlicht: (2025)
von: Zeng, Zhichen, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
From Guess2Graph: When and How Can Unreliable Experts Safely Boost Causal Discovery in Finite Samples?
von: Hiremath, Sujai, et al.
Veröffentlicht: (2025) -
Training Large Language Models To Reason In Parallel With Global Forking Tokens
von: Jia, Sheng, et al.
Veröffentlicht: (2025) -
A Quantitative Characterization of Forgetting in Post-Training
von: Balasubramanian, Krishnakumar, et al.
Veröffentlicht: (2026) -
Benign Overfitting for Regression with Trained Two-Layer ReLU Networks
von: Park, Junhyung, et al.
Veröffentlicht: (2024) -
A Classical View on Benign Overfitting: The Role of Sample Size
von: Park, Junhyung, et al.
Veröffentlicht: (2025)