:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Pawelec, Aneta, Wesołowska, Victoria Sara, Bączek, Zuzanna, Sankowski, Piotr
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computation and Language
Online-Zugang:	https://arxiv.org/abs/2409.02617
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

EXALT: EXplainable ALgorithmic Tools for Optimization Problems
von: Bączek, Zuzanna, et al.
Veröffentlicht: (2025)

PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities
von: Sravanthi, Settaluri Lakshmi, et al.
Veröffentlicht: (2024)

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
von: Wu, Chengyue, et al.
Veröffentlicht: (2024)

LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models
von: Ploner, Max, et al.
Veröffentlicht: (2024)

Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
von: Zhu, Jie, et al.
Veröffentlicht: (2024)

Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options
von: Góral, Gracjan, et al.
Veröffentlicht: (2024)

DataGen: Unified Synthetic Dataset Generation via Large Language Models
von: Huang, Yue, et al.
Veröffentlicht: (2024)

LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
von: Pęzik, Piotr, et al.
Veröffentlicht: (2025)

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization
von: Yang, Zhiyu, et al.
Veröffentlicht: (2024)

Evaluating Language Models as Synthetic Data Generators
von: Kim, Seungone, et al.
Veröffentlicht: (2024)

A Benchmark Dataset and Evaluation Framework for Vietnamese Large Language Models in Customer Support
von: Nguyen, Long S. T., et al.
Veröffentlicht: (2025)

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers
von: Solatorio, Aivin V., et al.
Veröffentlicht: (2025)

Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
von: Zhu, Yingjie, et al.
Veröffentlicht: (2024)

PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization
von: Zhang, Jiajun, et al.
Veröffentlicht: (2025)

PlotTwist: A Creative Plot Generation Framework with Small Language Models
von: Thorat, Abhinav, et al.
Veröffentlicht: (2026)

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
von: Wang, Yuxuan, et al.
Veröffentlicht: (2024)

SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models
von: Yu, Jing, et al.
Veröffentlicht: (2025)

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
von: Chen, Nan, et al.
Veröffentlicht: (2024)

Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark
von: Fons, Elizabeth, et al.
Veröffentlicht: (2024)

A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding
von: Shen, Yiqing, et al.
Veröffentlicht: (2024)

CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models
von: Shi, Ling, et al.
Veröffentlicht: (2024)

EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios
von: Xu, Bin, et al.
Veröffentlicht: (2025)

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data
von: Li, Haolong, et al.
Veröffentlicht: (2024)

Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection
von: Ahuja, Kabir, et al.
Veröffentlicht: (2025)

OntoURL: A Benchmark for Evaluating Large Language Models on Symbolic Ontological Understanding, Reasoning and Learning
von: Zhang, Xiao, et al.
Veröffentlicht: (2025)

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding
von: Ung, Huy Quang, et al.
Veröffentlicht: (2025)

OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
von: Qiang, Zhangcheng, et al.
Veröffentlicht: (2024)

Evaluating Large Language Models for Anxiety, Depression, and Stress Detection: Insights into Prompting Strategies and Synthetic Data
von: Arcan, Mihael, et al.
Veröffentlicht: (2025)

Evaluating Chinese Ambiguity Understanding in Large Language Models
von: Mo, Junwen, et al.
Veröffentlicht: (2026)

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation
von: Doris, Anna C., et al.
Veröffentlicht: (2024)

WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models
von: Yu, Yongan, et al.
Veröffentlicht: (2025)

SportQA: A Benchmark for Sports Understanding in Large Language Models
von: Xia, Haotian, et al.
Veröffentlicht: (2024)

Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference
von: Akoju, Sushma Anand, et al.
Veröffentlicht: (2023)

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
von: Miranda, Lester James V., et al.
Veröffentlicht: (2026)

CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
von: Verma, Arnav, et al.
Veröffentlicht: (2025)

Evaluating Spatial Understanding of Large Language Models
von: Yamada, Yutaro, et al.
Veröffentlicht: (2023)

On the Diversity of Synthetic Data and its Impact on Training Large Language Models
von: Chen, Hao, et al.
Veröffentlicht: (2024)

Aligning Large Language Models via Fully Self-Synthetic Data
von: Yin, Shangjian, et al.
Veröffentlicht: (2025)

Unlocking the Potential of Large Language Models in the Nuclear Industry with Synthetic Data
von: Anwar, Muhammad, et al.
Veröffentlicht: (2025)