Salvato in:
| Autori principali: | Sudjianto, Agus, Zhang, Aijun, Neppalli, Srinivas, Joshi, Tarun, Malohlava, Michal |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2411.16391 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting
di: Li, Ying, et al.
Pubblicazione: (2024)
di: Li, Ying, et al.
Pubblicazione: (2024)
Model Validation Practice in Banking: A Structured Approach for Predictive Models
di: Sudjianto, Agus, et al.
Pubblicazione: (2024)
di: Sudjianto, Agus, et al.
Pubblicazione: (2024)
From RLHF to Direct Alignment: A Theoretical Unification of Preference Learning for Large Language Models
di: Raheja, Tarun, et al.
Pubblicazione: (2026)
di: Raheja, Tarun, et al.
Pubblicazione: (2026)
Large Language Models as Planning Domain Generators
di: Oswald, James, et al.
Pubblicazione: (2024)
di: Oswald, James, et al.
Pubblicazione: (2024)
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models
di: Moore, Kyle, et al.
Pubblicazione: (2025)
di: Moore, Kyle, et al.
Pubblicazione: (2025)
SLMEval: Entropy-Based Calibration for Human-Aligned Evaluation of Large Language Models
di: Daynauth, Roland, et al.
Pubblicazione: (2025)
di: Daynauth, Roland, et al.
Pubblicazione: (2025)
Calibration Across Layers: Understanding Calibration Evolution in LLMs
di: Joshi, Abhinav, et al.
Pubblicazione: (2025)
di: Joshi, Abhinav, et al.
Pubblicazione: (2025)
Risk-Averse Finetuning of Large Language Models
di: Chaudhary, Sapana, et al.
Pubblicazione: (2025)
di: Chaudhary, Sapana, et al.
Pubblicazione: (2025)
ATG: Benchmarking Automated Theorem Generation for Generative Language Models
di: Lin, Xiaohan, et al.
Pubblicazione: (2024)
di: Lin, Xiaohan, et al.
Pubblicazione: (2024)
Integrating Large Language Models and Knowledge Graphs for Extraction and Validation of Textual Test Data
di: De Santis, Antonio, et al.
Pubblicazione: (2024)
di: De Santis, Antonio, et al.
Pubblicazione: (2024)
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
di: Kour, George, et al.
Pubblicazione: (2025)
di: Kour, George, et al.
Pubblicazione: (2025)
Calibrated Language Models Must Hallucinate
di: Kalai, Adam Tauman, et al.
Pubblicazione: (2023)
di: Kalai, Adam Tauman, et al.
Pubblicazione: (2023)
Calibrating Large Language Models Using Their Generations Only
di: Ulmer, Dennis, et al.
Pubblicazione: (2024)
di: Ulmer, Dennis, et al.
Pubblicazione: (2024)
Credence Calibration Game? Calibrating Large Language Models through Structured Play
di: Fang, Ke, et al.
Pubblicazione: (2025)
di: Fang, Ke, et al.
Pubblicazione: (2025)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
di: Chen, Runjin, et al.
Pubblicazione: (2025)
di: Chen, Runjin, et al.
Pubblicazione: (2025)
Calibrating Verbalized Probabilities for Large Language Models
di: Wang, Cheng, et al.
Pubblicazione: (2024)
di: Wang, Cheng, et al.
Pubblicazione: (2024)
Calibrating Reasoning in Language Models with Internal Consistency
di: Xie, Zhihui, et al.
Pubblicazione: (2024)
di: Xie, Zhihui, et al.
Pubblicazione: (2024)
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction
di: Zhang, Jinchuan, et al.
Pubblicazione: (2024)
di: Zhang, Jinchuan, et al.
Pubblicazione: (2024)
Abductive Inference in Retrieval-Augmented Language Models: Generating and Validating Missing Premises
di: Lin, Shiyin
Pubblicazione: (2025)
di: Lin, Shiyin
Pubblicazione: (2025)
Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models
di: Tian, Runchu, et al.
Pubblicazione: (2025)
di: Tian, Runchu, et al.
Pubblicazione: (2025)
Revisiting Multilingual Data Mixtures in Language Model Pretraining
di: Foroutan, Negar, et al.
Pubblicazione: (2025)
di: Foroutan, Negar, et al.
Pubblicazione: (2025)
Calibrating Long-form Generations from Large Language Models
di: Huang, Yukun, et al.
Pubblicazione: (2024)
di: Huang, Yukun, et al.
Pubblicazione: (2024)
Self-training Language Models for Arithmetic Reasoning
di: Kadlčík, Marek, et al.
Pubblicazione: (2024)
di: Kadlčík, Marek, et al.
Pubblicazione: (2024)
Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models
di: Tang, Ethan
Pubblicazione: (2026)
di: Tang, Ethan
Pubblicazione: (2026)
Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies
di: Ye, Yuxuan, et al.
Pubblicazione: (2026)
di: Ye, Yuxuan, et al.
Pubblicazione: (2026)
Full-ECE: A Metric For Token-level Calibration on Large Language Models
di: Liu, Han, et al.
Pubblicazione: (2024)
di: Liu, Han, et al.
Pubblicazione: (2024)
On the Entropy Calibration of Language Models
di: Cao, Steven, et al.
Pubblicazione: (2025)
di: Cao, Steven, et al.
Pubblicazione: (2025)
Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models
di: Ye, Haoran, et al.
Pubblicazione: (2024)
di: Ye, Haoran, et al.
Pubblicazione: (2024)
The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models
di: Maity, Subhankar, et al.
Pubblicazione: (2024)
di: Maity, Subhankar, et al.
Pubblicazione: (2024)
Development and Validation of a Large Language Model for Generating Fully-Structured Radiology Reports
di: Niu, Chuang, et al.
Pubblicazione: (2024)
di: Niu, Chuang, et al.
Pubblicazione: (2024)
Fuzzy Fingerprinting Encoder Pre-trained Language Models for Emotion Recognition in Conversations: Human Assessment and Validity Study
di: Pereira, Patrícia, et al.
Pubblicazione: (2026)
di: Pereira, Patrícia, et al.
Pubblicazione: (2026)
Atomic Calibration of LLMs in Long-Form Generations
di: Zhang, Caiqi, et al.
Pubblicazione: (2024)
di: Zhang, Caiqi, et al.
Pubblicazione: (2024)
Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning
di: Zhang, Chuang, et al.
Pubblicazione: (2026)
di: Zhang, Chuang, et al.
Pubblicazione: (2026)
Enabling Precise Topic Alignment in Large Language Models Via Sparse Autoencoders
di: Joshi, Ananya, et al.
Pubblicazione: (2025)
di: Joshi, Ananya, et al.
Pubblicazione: (2025)
A Survey of Confidence Estimation and Calibration in Large Language Models
di: Geng, Jiahui, et al.
Pubblicazione: (2023)
di: Geng, Jiahui, et al.
Pubblicazione: (2023)
From Hallucinations to Facts: Enhancing Language Models with Curated Knowledge Graphs
di: Joshi, Ratnesh Kumar, et al.
Pubblicazione: (2024)
di: Joshi, Ratnesh Kumar, et al.
Pubblicazione: (2024)
Far Out: Evaluating Language Models on Slang in Australian and Indian English
di: Dilsiz, Deniz Kaya, et al.
Pubblicazione: (2026)
di: Dilsiz, Deniz Kaya, et al.
Pubblicazione: (2026)
HypeLoRA: Hyper-Network-Generated LoRA Adapters for Calibrated Language Model Fine-Tuning
di: Trojan, Bartosz, et al.
Pubblicazione: (2026)
di: Trojan, Bartosz, et al.
Pubblicazione: (2026)
AutoFlow: Automated Workflow Generation for Large Language Model Agents
di: Li, Zelong, et al.
Pubblicazione: (2024)
di: Li, Zelong, et al.
Pubblicazione: (2024)
Towards Automated Patent Workflows: AI-Orchestrated Multi-Agent Framework for Intellectual Property Management and Analysis
di: Srinivas, Sakhinana Sagar, et al.
Pubblicazione: (2024)
di: Srinivas, Sakhinana Sagar, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting
di: Li, Ying, et al.
Pubblicazione: (2024) -
Model Validation Practice in Banking: A Structured Approach for Predictive Models
di: Sudjianto, Agus, et al.
Pubblicazione: (2024) -
From RLHF to Direct Alignment: A Theoretical Unification of Preference Learning for Large Language Models
di: Raheja, Tarun, et al.
Pubblicazione: (2026) -
Large Language Models as Planning Domain Generators
di: Oswald, James, et al.
Pubblicazione: (2024) -
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models
di: Moore, Kyle, et al.
Pubblicazione: (2025)