Gespeichert in:
| Hauptverfasser: | Pawelec, Aneta, Wesołowska, Victoria Sara, Bączek, Zuzanna, Sankowski, Piotr |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2409.02617 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
EXALT: EXplainable ALgorithmic Tools for Optimization Problems
von: Bączek, Zuzanna, et al.
Veröffentlicht: (2025)
von: Bączek, Zuzanna, et al.
Veröffentlicht: (2025)
PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities
von: Sravanthi, Settaluri Lakshmi, et al.
Veröffentlicht: (2024)
von: Sravanthi, Settaluri Lakshmi, et al.
Veröffentlicht: (2024)
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
von: Wu, Chengyue, et al.
Veröffentlicht: (2024)
von: Wu, Chengyue, et al.
Veröffentlicht: (2024)
LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models
von: Ploner, Max, et al.
Veröffentlicht: (2024)
von: Ploner, Max, et al.
Veröffentlicht: (2024)
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
von: Zhu, Jie, et al.
Veröffentlicht: (2024)
von: Zhu, Jie, et al.
Veröffentlicht: (2024)
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options
von: Góral, Gracjan, et al.
Veröffentlicht: (2024)
von: Góral, Gracjan, et al.
Veröffentlicht: (2024)
DataGen: Unified Synthetic Dataset Generation via Large Language Models
von: Huang, Yue, et al.
Veröffentlicht: (2024)
von: Huang, Yue, et al.
Veröffentlicht: (2024)
LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
von: Pęzik, Piotr, et al.
Veröffentlicht: (2025)
von: Pęzik, Piotr, et al.
Veröffentlicht: (2025)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization
von: Yang, Zhiyu, et al.
Veröffentlicht: (2024)
von: Yang, Zhiyu, et al.
Veröffentlicht: (2024)
Evaluating Language Models as Synthetic Data Generators
von: Kim, Seungone, et al.
Veröffentlicht: (2024)
von: Kim, Seungone, et al.
Veröffentlicht: (2024)
A Benchmark Dataset and Evaluation Framework for Vietnamese Large Language Models in Customer Support
von: Nguyen, Long S. T., et al.
Veröffentlicht: (2025)
von: Nguyen, Long S. T., et al.
Veröffentlicht: (2025)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers
von: Solatorio, Aivin V., et al.
Veröffentlicht: (2025)
von: Solatorio, Aivin V., et al.
Veröffentlicht: (2025)
Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
von: Zhu, Yingjie, et al.
Veröffentlicht: (2024)
von: Zhu, Yingjie, et al.
Veröffentlicht: (2024)
PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization
von: Zhang, Jiajun, et al.
Veröffentlicht: (2025)
von: Zhang, Jiajun, et al.
Veröffentlicht: (2025)
PlotTwist: A Creative Plot Generation Framework with Small Language Models
von: Thorat, Abhinav, et al.
Veröffentlicht: (2026)
von: Thorat, Abhinav, et al.
Veröffentlicht: (2026)
DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)
von: Jiao, Cathy, et al.
Veröffentlicht: (2025)
CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
von: Wang, Yuxuan, et al.
Veröffentlicht: (2024)
von: Wang, Yuxuan, et al.
Veröffentlicht: (2024)
SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models
von: Yu, Jing, et al.
Veröffentlicht: (2025)
von: Yu, Jing, et al.
Veröffentlicht: (2025)
VisEval: A Benchmark for Data Visualization in the Era of Large Language Models
von: Chen, Nan, et al.
Veröffentlicht: (2024)
von: Chen, Nan, et al.
Veröffentlicht: (2024)
Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark
von: Fons, Elizabeth, et al.
Veröffentlicht: (2024)
von: Fons, Elizabeth, et al.
Veröffentlicht: (2024)
A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding
von: Shen, Yiqing, et al.
Veröffentlicht: (2024)
von: Shen, Yiqing, et al.
Veröffentlicht: (2024)
CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models
von: Shi, Ling, et al.
Veröffentlicht: (2024)
von: Shi, Ling, et al.
Veröffentlicht: (2024)
EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios
von: Xu, Bin, et al.
Veröffentlicht: (2025)
von: Xu, Bin, et al.
Veröffentlicht: (2025)
Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data
von: Li, Haolong, et al.
Veröffentlicht: (2024)
von: Li, Haolong, et al.
Veröffentlicht: (2024)
Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection
von: Ahuja, Kabir, et al.
Veröffentlicht: (2025)
von: Ahuja, Kabir, et al.
Veröffentlicht: (2025)
OntoURL: A Benchmark for Evaluating Large Language Models on Symbolic Ontological Understanding, Reasoning and Learning
von: Zhang, Xiao, et al.
Veröffentlicht: (2025)
von: Zhang, Xiao, et al.
Veröffentlicht: (2025)
CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding
von: Ung, Huy Quang, et al.
Veröffentlicht: (2025)
von: Ung, Huy Quang, et al.
Veröffentlicht: (2025)
OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
von: Qiang, Zhangcheng, et al.
Veröffentlicht: (2024)
von: Qiang, Zhangcheng, et al.
Veröffentlicht: (2024)
Evaluating Large Language Models for Anxiety, Depression, and Stress Detection: Insights into Prompting Strategies and Synthetic Data
von: Arcan, Mihael, et al.
Veröffentlicht: (2025)
von: Arcan, Mihael, et al.
Veröffentlicht: (2025)
Evaluating Chinese Ambiguity Understanding in Large Language Models
von: Mo, Junwen, et al.
Veröffentlicht: (2026)
von: Mo, Junwen, et al.
Veröffentlicht: (2026)
DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation
von: Doris, Anna C., et al.
Veröffentlicht: (2024)
von: Doris, Anna C., et al.
Veröffentlicht: (2024)
WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models
von: Yu, Yongan, et al.
Veröffentlicht: (2025)
von: Yu, Yongan, et al.
Veröffentlicht: (2025)
SportQA: A Benchmark for Sports Understanding in Large Language Models
von: Xia, Haotian, et al.
Veröffentlicht: (2024)
von: Xia, Haotian, et al.
Veröffentlicht: (2024)
Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference
von: Akoju, Sushma Anand, et al.
Veröffentlicht: (2023)
von: Akoju, Sushma Anand, et al.
Veröffentlicht: (2023)
Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
von: Miranda, Lester James V., et al.
Veröffentlicht: (2026)
von: Miranda, Lester James V., et al.
Veröffentlicht: (2026)
CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
von: Verma, Arnav, et al.
Veröffentlicht: (2025)
von: Verma, Arnav, et al.
Veröffentlicht: (2025)
Evaluating Spatial Understanding of Large Language Models
von: Yamada, Yutaro, et al.
Veröffentlicht: (2023)
von: Yamada, Yutaro, et al.
Veröffentlicht: (2023)
On the Diversity of Synthetic Data and its Impact on Training Large Language Models
von: Chen, Hao, et al.
Veröffentlicht: (2024)
von: Chen, Hao, et al.
Veröffentlicht: (2024)
Aligning Large Language Models via Fully Self-Synthetic Data
von: Yin, Shangjian, et al.
Veröffentlicht: (2025)
von: Yin, Shangjian, et al.
Veröffentlicht: (2025)
Unlocking the Potential of Large Language Models in the Nuclear Industry with Synthetic Data
von: Anwar, Muhammad, et al.
Veröffentlicht: (2025)
von: Anwar, Muhammad, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
EXALT: EXplainable ALgorithmic Tools for Optimization Problems
von: Bączek, Zuzanna, et al.
Veröffentlicht: (2025) -
PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities
von: Sravanthi, Settaluri Lakshmi, et al.
Veröffentlicht: (2024) -
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
von: Wu, Chengyue, et al.
Veröffentlicht: (2024) -
LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models
von: Ploner, Max, et al.
Veröffentlicht: (2024) -
Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset
von: Zhu, Jie, et al.
Veröffentlicht: (2024)