Salvato in:
| Autori principali: | Arias, Esteban Garces, Blocher, Hannah, Rodemann, Julian, Aßenmacher, Matthias, Jansen, Christoph |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2506.18082 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
Statistical Multicriteria Benchmarking via the GSD-Front
di: Jansen, Christoph, et al.
Pubblicazione: (2024)
di: Jansen, Christoph, et al.
Pubblicazione: (2024)
From Traditional Taggers to LLMs: A Comparative Study of POS Tagging for Medieval Romance Languages
di: Schöffel, Matthias, et al.
Pubblicazione: (2026)
di: Schöffel, Matthias, et al.
Pubblicazione: (2026)
A Statistical Case Against Empirical Human-AI Alignment
di: Rodemann, Julian, et al.
Pubblicazione: (2025)
di: Rodemann, Julian, et al.
Pubblicazione: (2025)
GUARD: Glocal Uncertainty-Aware Robust Decoding for Effective and Efficient Open-Ended Text Generation
di: Ding, Yuanhao, et al.
Pubblicazione: (2025)
di: Ding, Yuanhao, et al.
Pubblicazione: (2025)
Decoding Decoded: Understanding Hyperparameter Effects in Open-Ended Text Generation
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024)
The Geometry of Creative Variability: How Credal Sets Expose Calibration Gaps in Language Models
di: Arias, Esteban Garces, et al.
Pubblicazione: (2025)
di: Arias, Esteban Garces, et al.
Pubblicazione: (2025)
Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan
di: Schöffel, Matthias, et al.
Pubblicazione: (2025)
di: Schöffel, Matthias, et al.
Pubblicazione: (2025)
The Truncation Blind Spot: How Decoding Strategies Systematically Exclude Human-Like Token Choices
di: Arias, Esteban Garces, et al.
Pubblicazione: (2026)
di: Arias, Esteban Garces, et al.
Pubblicazione: (2026)
Robust Statistical Comparison of Random Variables with Locally Varying Scale of Measurement
di: Jansen, Christoph, et al.
Pubblicazione: (2023)
di: Jansen, Christoph, et al.
Pubblicazione: (2023)
Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan
di: Chatterjee, Ahan, et al.
Pubblicazione: (2026)
di: Chatterjee, Ahan, et al.
Pubblicazione: (2026)
Partial Rankings of Optimizers
di: Rodemann, Julian, et al.
Pubblicazione: (2024)
di: Rodemann, Julian, et al.
Pubblicazione: (2024)
Detecting LLM-Generated Text with Performance Guarantees
di: Zhou, Hongyi, et al.
Pubblicazione: (2026)
di: Zhou, Hongyi, et al.
Pubblicazione: (2026)
Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations
di: Miller, Evan
Pubblicazione: (2024)
di: Miller, Evan
Pubblicazione: (2024)
Statistical multi-metric evaluation and visualization of LLM system predictive performance
di: Ackerman, Samuel, et al.
Pubblicazione: (2025)
di: Ackerman, Samuel, et al.
Pubblicazione: (2025)
Unveiling Factors for Enhanced POS Tagging: A Study of Low-Resource Medieval Romance Languages
di: Schöffel, Matthias, et al.
Pubblicazione: (2025)
di: Schöffel, Matthias, et al.
Pubblicazione: (2025)
Min-$k$ Sampling: Decoupling Truncation from Temperature Scaling via Relative Logit Dynamics
di: Ding, Yuanhao, et al.
Pubblicazione: (2026)
di: Ding, Yuanhao, et al.
Pubblicazione: (2026)
How to Correctly Report LLM-as-a-Judge Evaluations
di: Lee, Chungpa, et al.
Pubblicazione: (2025)
di: Lee, Chungpa, et al.
Pubblicazione: (2025)
The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control
di: Lommel, Arle, et al.
Pubblicazione: (2024)
di: Lommel, Arle, et al.
Pubblicazione: (2024)
Causal Representation Learning with Generative Artificial Intelligence: Application to Texts as Treatments
di: Imai, Kosuke, et al.
Pubblicazione: (2024)
di: Imai, Kosuke, et al.
Pubblicazione: (2024)
Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis
di: Zhang, Wenqing, et al.
Pubblicazione: (2025)
di: Zhang, Wenqing, et al.
Pubblicazione: (2025)
A Latent Dirichlet Allocation (LDA) Semantic Text Analytics Approach to Explore Topical Features in Charity Crowdfunding Campaigns
di: Muzumdar, Prathamesh, et al.
Pubblicazione: (2024)
di: Muzumdar, Prathamesh, et al.
Pubblicazione: (2024)
Mind the Unseen Mass: Unmasking LLM Hallucinations via Soft-Hybrid Alphabet Estimation
di: Pan, Hongxing, et al.
Pubblicazione: (2026)
di: Pan, Hongxing, et al.
Pubblicazione: (2026)
Improving Probabilistic Models in Text Classification via Active Learning
di: Bosley, Mitchell, et al.
Pubblicazione: (2022)
di: Bosley, Mitchell, et al.
Pubblicazione: (2022)
Semiotic Reconstruction of Destination Expectation Constructs An LLM-Driven Computational Paradigm for Social Media Tourism Analytics
di: Lan, Haotian, et al.
Pubblicazione: (2025)
di: Lan, Haotian, et al.
Pubblicazione: (2025)
Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning
di: Jiang, Eric Hanchen, et al.
Pubblicazione: (2026)
di: Jiang, Eric Hanchen, et al.
Pubblicazione: (2026)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
di: Lum, Kristian, et al.
Pubblicazione: (2024)
di: Lum, Kristian, et al.
Pubblicazione: (2024)
Statistics of punctuation in experimental literature -- the remarkable case of "Finnegans Wake" by James Joyce
di: Stanisz, Tomasz, et al.
Pubblicazione: (2024)
di: Stanisz, Tomasz, et al.
Pubblicazione: (2024)
Constructing the Truth: Text Mining and Linguistic Networks in Public Hearings of Case 03 of the Special Jurisdiction for Peace (JEP)
di: Sosa, Juan, et al.
Pubblicazione: (2025)
di: Sosa, Juan, et al.
Pubblicazione: (2025)
Improving LLM Leaderboards with Psychometrical Methodology
di: Federiakin, Denis
Pubblicazione: (2025)
di: Federiakin, Denis
Pubblicazione: (2025)
Systematic Evaluation of Uncertainty Estimation Methods in Large Language Models
di: Hobelsberger, Christian, et al.
Pubblicazione: (2025)
di: Hobelsberger, Christian, et al.
Pubblicazione: (2025)
Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series
di: Hu, Yuxiao, et al.
Pubblicazione: (2025)
di: Hu, Yuxiao, et al.
Pubblicazione: (2025)
Bayesian Evaluation of Large Language Model Behavior
di: Longjohn, Rachel, et al.
Pubblicazione: (2025)
di: Longjohn, Rachel, et al.
Pubblicazione: (2025)
Exploring the Potential Role of Generative AI in the TRAPD Procedure for Survey Translation
di: Metheney, Erica Ann, et al.
Pubblicazione: (2024)
di: Metheney, Erica Ann, et al.
Pubblicazione: (2024)
ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment
di: Wang, Hao, et al.
Pubblicazione: (2026)
di: Wang, Hao, et al.
Pubblicazione: (2026)
"All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations
di: Hardy, Michael
Pubblicazione: (2024)
di: Hardy, Michael
Pubblicazione: (2024)
Predicting First Year Dropout from Pre Enrolment Motivation Statements Using Text Mining
di: Soppe, K. F. B., et al.
Pubblicazione: (2025)
di: Soppe, K. F. B., et al.
Pubblicazione: (2025)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation
di: Mayer, Luis, et al.
Pubblicazione: (2024)
di: Mayer, Luis, et al.
Pubblicazione: (2024)
A Design-based Solution for Causal Inference with Text: Can a Language Model Be Too Large?
di: Tierney, Graham, et al.
Pubblicazione: (2025)
di: Tierney, Graham, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024) -
Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation
di: Arias, Esteban Garces, et al.
Pubblicazione: (2024) -
Statistical Multicriteria Benchmarking via the GSD-Front
di: Jansen, Christoph, et al.
Pubblicazione: (2024) -
From Traditional Taggers to LLMs: A Comparative Study of POS Tagging for Medieval Romance Languages
di: Schöffel, Matthias, et al.
Pubblicazione: (2026) -
A Statistical Case Against Empirical Human-AI Alignment
di: Rodemann, Julian, et al.
Pubblicazione: (2025)