Enregistré dans:
| Auteurs principaux: | Zhang, Yilin, Xu, Wenda, Liu, Zhongtao, Nakagawa, Tetsuji, Freitag, Markus |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2510.22028 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MetricX-25 and GemSpanEval: Google Translate Submissions to the WMT25 Evaluation Shared Task
par: Juraska, Juraj, et autres
Publié: (2025)
par: Juraska, Juraj, et autres
Publié: (2025)
When LLMs Benchmark Themselves: Deconstructing Self-Bias in Automated Evaluation
par: Xu, Wenda, et autres
Publié: (2025)
par: Xu, Wenda, et autres
Publié: (2025)
On the Implications of Verbose LLM Outputs: A Case Study in Translation Evaluation
par: Briakou, Eleftheria, et autres
Publié: (2024)
par: Briakou, Eleftheria, et autres
Publié: (2024)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback
par: Xu, Wenda, et autres
Publié: (2023)
par: Xu, Wenda, et autres
Publié: (2023)
Mitigating Metric Bias in Minimum Bayes Risk Decoding
par: Kovacs, Geza, et autres
Publié: (2024)
par: Kovacs, Geza, et autres
Publié: (2024)
Beyond Human-Only: Evaluating Human-Machine Collaboration for Collecting High-Quality Translation Data
par: Liu, Zhongtao, et autres
Publié: (2024)
par: Liu, Zhongtao, et autres
Publié: (2024)
MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task
par: Juraska, Juraj, et autres
Publié: (2024)
par: Juraska, Juraj, et autres
Publié: (2024)
Generating Difficult-to-Translate Texts
par: Zouhar, Vilém, et autres
Publié: (2025)
par: Zouhar, Vilém, et autres
Publié: (2025)
An Automated Length-Aware Quality Metric for Summarization
par: Foland, Andrew D.
Publié: (2025)
par: Foland, Andrew D.
Publié: (2025)
GAMBIT+: A Challenge Set for Evaluating Gender Bias in Machine Translation Quality Estimation Metrics
par: Filandrianos, Giorgos, et autres
Publié: (2025)
par: Filandrianos, Giorgos, et autres
Publié: (2025)
Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data
par: Finkelstein, Mara, et autres
Publié: (2024)
par: Finkelstein, Mara, et autres
Publié: (2024)
Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model
par: Tomani, Christian, et autres
Publié: (2023)
par: Tomani, Christian, et autres
Publié: (2023)
Translating Step-by-Step: Decomposing the Translation Process for Improved Translation Quality of Long-Form Texts
par: Briakou, Eleftheria, et autres
Publié: (2024)
par: Briakou, Eleftheria, et autres
Publié: (2024)
Uncovering Factor Level Preferences to Improve Human-Model Alignment
par: Oh, Juhyun, et autres
Publié: (2024)
par: Oh, Juhyun, et autres
Publié: (2024)
Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning
par: Li, Xintong, et autres
Publié: (2026)
par: Li, Xintong, et autres
Publié: (2026)
Meta-aware Learning in text-to-SQL Large Language Model
par: Zhang, Wenda
Publié: (2025)
par: Zhang, Wenda
Publié: (2025)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement
par: Xu, Wenda, et autres
Publié: (2024)
par: Xu, Wenda, et autres
Publié: (2024)
SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models
par: Su, Binxian, et autres
Publié: (2026)
par: Su, Binxian, et autres
Publié: (2026)
MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered
par: Mirza, Imran, et autres
Publié: (2025)
par: Mirza, Imran, et autres
Publié: (2025)
Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks
par: Demchak, Nathaniel, et autres
Publié: (2024)
par: Demchak, Nathaniel, et autres
Publié: (2024)
Evaluating Metrics for Bias in Word Embeddings
par: Schröder, Sarah, et autres
Publié: (2021)
par: Schröder, Sarah, et autres
Publié: (2021)
When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
par: Zhang, Biao, et autres
Publié: (2024)
par: Zhang, Biao, et autres
Publié: (2024)
Mitigating Label Length Bias in Large Language Models
par: Sanz-Guerrero, Mario, et autres
Publié: (2025)
par: Sanz-Guerrero, Mario, et autres
Publié: (2025)
Explaining Length Bias in LLM-Based Preference Evaluations
par: Hu, Zhengyu, et autres
Publié: (2024)
par: Hu, Zhengyu, et autres
Publié: (2024)
Improving Multimodal Contrastive Learning of Sentence Embeddings with Object-Phrase Alignment
par: Zhao, Kaiyan, et autres
Publié: (2025)
par: Zhao, Kaiyan, et autres
Publié: (2025)
GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression
par: Miao, Zhongtao, et autres
Publié: (2026)
par: Miao, Zhongtao, et autres
Publié: (2026)
Towards Region-aware Bias Evaluation Metrics
par: Borah, Angana, et autres
Publié: (2024)
par: Borah, Angana, et autres
Publié: (2024)
Textual Similarity as a Key Metric in Machine Translation Quality Estimation
par: Sun, Kun, et autres
Publié: (2024)
par: Sun, Kun, et autres
Publié: (2024)
Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning
par: Zhou, Yue, et autres
Publié: (2025)
par: Zhou, Yue, et autres
Publié: (2025)
Enhancing Human Evaluation in Machine Translation with Comparative Judgment
par: Song, Yixiao, et autres
Publié: (2025)
par: Song, Yixiao, et autres
Publié: (2025)
Data Quality Enhancement on the Basis of Diversity with Large Language Models for Text Classification: Uncovered, Difficult, and Noisy
par: Zeng, Min, et autres
Publié: (2024)
par: Zeng, Min, et autres
Publié: (2024)
An Empirical Study on the Characteristics of Bias upon Context Length Variation for Bangla
par: Sadhu, Jayanta, et autres
Publié: (2024)
par: Sadhu, Jayanta, et autres
Publié: (2024)
Uncovering Implicit Bias in Large Language Models with Concept Learning Dataset
par: Wang, Leroy Z.
Publié: (2025)
par: Wang, Leroy Z.
Publié: (2025)
Read Between the Lines: A Benchmark for Uncovering Political Bias in Bangla News Articles
par: Lia, Nusrat Jahan, et autres
Publié: (2025)
par: Lia, Nusrat Jahan, et autres
Publié: (2025)
Machine-Generated Text Localization
par: Zhang, Zhongping, et autres
Publié: (2024)
par: Zhang, Zhongping, et autres
Publié: (2024)
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback
par: Miao, Zhongtao, et autres
Publié: (2024)
par: Miao, Zhongtao, et autres
Publié: (2024)
More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models
par: Wang, Xiao
Publié: (2026)
par: Wang, Xiao
Publié: (2026)
You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation
par: Flamich, Gergely, et autres
Publié: (2025)
par: Flamich, Gergely, et autres
Publié: (2025)
CA*: Addressing Evaluation Pitfalls in Computation-Aware Latency for Simultaneous Speech Translation
par: Xu, Xi, et autres
Publié: (2024)
par: Xu, Xi, et autres
Publié: (2024)
Mitigating Length Bias in RLHF through a Causal Lens
par: Kim, Hyeonji, et autres
Publié: (2025)
par: Kim, Hyeonji, et autres
Publié: (2025)
Documents similaires
-
MetricX-25 and GemSpanEval: Google Translate Submissions to the WMT25 Evaluation Shared Task
par: Juraska, Juraj, et autres
Publié: (2025) -
When LLMs Benchmark Themselves: Deconstructing Self-Bias in Automated Evaluation
par: Xu, Wenda, et autres
Publié: (2025) -
On the Implications of Verbose LLM Outputs: A Case Study in Translation Evaluation
par: Briakou, Eleftheria, et autres
Publié: (2024) -
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback
par: Xu, Wenda, et autres
Publié: (2023) -
Mitigating Metric Bias in Minimum Bayes Risk Decoding
par: Kovacs, Geza, et autres
Publié: (2024)