:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhang, Yilin, Xu, Wenda, Liu, Zhongtao, Nakagawa, Tetsuji, Freitag, Markus
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language
Accès en ligne:	https://arxiv.org/abs/2510.22028
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MetricX-25 and GemSpanEval: Google Translate Submissions to the WMT25 Evaluation Shared Task
par: Juraska, Juraj, et autres
Publié: (2025)

When LLMs Benchmark Themselves: Deconstructing Self-Bias in Automated Evaluation
par: Xu, Wenda, et autres
Publié: (2025)

On the Implications of Verbose LLM Outputs: A Case Study in Translation Evaluation
par: Briakou, Eleftheria, et autres
Publié: (2024)

LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback
par: Xu, Wenda, et autres
Publié: (2023)

Mitigating Metric Bias in Minimum Bayes Risk Decoding
par: Kovacs, Geza, et autres
Publié: (2024)

Beyond Human-Only: Evaluating Human-Machine Collaboration for Collecting High-Quality Translation Data
par: Liu, Zhongtao, et autres
Publié: (2024)

MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task
par: Juraska, Juraj, et autres
Publié: (2024)

Generating Difficult-to-Translate Texts
par: Zouhar, Vilém, et autres
Publié: (2025)

An Automated Length-Aware Quality Metric for Summarization
par: Foland, Andrew D.
Publié: (2025)

GAMBIT+: A Challenge Set for Evaluating Gender Bias in Machine Translation Quality Estimation Metrics
par: Filandrianos, Giorgos, et autres
Publié: (2025)

Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data
par: Finkelstein, Mara, et autres
Publié: (2024)

Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model
par: Tomani, Christian, et autres
Publié: (2023)

Translating Step-by-Step: Decomposing the Translation Process for Improved Translation Quality of Long-Form Texts
par: Briakou, Eleftheria, et autres
Publié: (2024)

Uncovering Factor Level Preferences to Improve Human-Model Alignment
par: Oh, Juhyun, et autres
Publié: (2024)

Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning
par: Li, Xintong, et autres
Publié: (2026)

Meta-aware Learning in text-to-SQL Large Language Model
par: Zhang, Wenda
Publié: (2025)

Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement
par: Xu, Wenda, et autres
Publié: (2024)

SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models
par: Su, Binxian, et autres
Publié: (2026)

MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered
par: Mirza, Imran, et autres
Publié: (2025)

Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks
par: Demchak, Nathaniel, et autres
Publié: (2024)

Evaluating Metrics for Bias in Word Embeddings
par: Schröder, Sarah, et autres
Publié: (2021)

When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
par: Zhang, Biao, et autres
Publié: (2024)

Mitigating Label Length Bias in Large Language Models
par: Sanz-Guerrero, Mario, et autres
Publié: (2025)

Explaining Length Bias in LLM-Based Preference Evaluations
par: Hu, Zhengyu, et autres
Publié: (2024)

Improving Multimodal Contrastive Learning of Sentence Embeddings with Object-Phrase Alignment
par: Zhao, Kaiyan, et autres
Publié: (2025)

GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression
par: Miao, Zhongtao, et autres
Publié: (2026)

Towards Region-aware Bias Evaluation Metrics
par: Borah, Angana, et autres
Publié: (2024)

Textual Similarity as a Key Metric in Machine Translation Quality Estimation
par: Sun, Kun, et autres
Publié: (2024)

Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning
par: Zhou, Yue, et autres
Publié: (2025)

Enhancing Human Evaluation in Machine Translation with Comparative Judgment
par: Song, Yixiao, et autres
Publié: (2025)

Data Quality Enhancement on the Basis of Diversity with Large Language Models for Text Classification: Uncovered, Difficult, and Noisy
par: Zeng, Min, et autres
Publié: (2024)

An Empirical Study on the Characteristics of Bias upon Context Length Variation for Bangla
par: Sadhu, Jayanta, et autres
Publié: (2024)

Uncovering Implicit Bias in Large Language Models with Concept Learning Dataset
par: Wang, Leroy Z.
Publié: (2025)

Read Between the Lines: A Benchmark for Uncovering Political Bias in Bangla News Articles
par: Lia, Nusrat Jahan, et autres
Publié: (2025)

Machine-Generated Text Localization
par: Zhang, Zhongping, et autres
Publié: (2024)

Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback
par: Miao, Zhongtao, et autres
Publié: (2024)

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models
par: Wang, Xiao
Publié: (2026)

You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation
par: Flamich, Gergely, et autres
Publié: (2025)

CA*: Addressing Evaluation Pitfalls in Computation-Aware Latency for Simultaneous Speech Translation
par: Xu, Xi, et autres
Publié: (2024)

Mitigating Length Bias in RLHF through a Causal Lens
par: Kim, Hyeonji, et autres
Publié: (2025)