:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Li, Huihan, Goel, Arnav, He, Keyu, Ren, Xiang
Format:	Preprint
Publié:	2024
Sujets:	Computation and Language Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2412.20760
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
par: Li, Huihan, et autres
Publié: (2025)

Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
par: Park, Chanwoo, et autres
Publié: (2025)

CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting
par: Li, Huihan, et autres
Publié: (2024)

In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
par: Li, Huihan, et autres
Publié: (2023)

SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora
par: Qarah, Faisal
Publié: (2024)

MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation
par: Agarwal, Mehul, et autres
Publié: (2026)

Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
par: Goel, Arnav, et autres
Publié: (2024)

AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
par: Milička, Jiří, et autres
Publié: (2025)

How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models?
par: Liu, Danni, et autres
Publié: (2023)

HORIZON: A Benchmark for In-the-wild User Behaviour Modeling
par: Goel, Arnav, et autres
Publié: (2026)

Guylingo: The Republic of Guyana Creole Corpora
par: Clarke, Christopher, et autres
Publié: (2024)

Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale
par: Hu, Xiang, et autres
Publié: (2024)

Multilingual and Explainable Text Detoxification with Parallel Corpora
par: Dementieva, Daryna, et autres
Publié: (2024)

Narrative-to-Scene Generation: An LLM-Driven Pipeline for 2D Game Environments
par: Chen, Yi-Chun, et autres
Publié: (2025)

Presumed Cultural Identity: How Names Shape LLM Responses
par: Pawar, Siddhesh, et autres
Publié: (2025)

MegaMath: Pushing the Limits of Open Math Corpora
par: Zhou, Fan, et autres
Publié: (2025)

AttributionBench: How Hard is Automatic Attribution Evaluation?
par: Li, Yifei, et autres
Publié: (2024)

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
par: Huang, Yukun, et autres
Publié: (2025)

ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols
par: Sheth, Arnav, et autres
Publié: (2025)

PonderLM: Pretraining Language Models to Ponder in Continuous Space
par: Zeng, Boyi, et autres
Publié: (2025)

HiChunk: Evaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking
par: Lu, Wensheng, et autres
Publié: (2025)

API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs
par: Basu, Kinjal, et autres
Publié: (2024)

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias
par: Xu, Yuemei, et autres
Publié: (2024)

AncientBench: Towards Comprehensive Evaluation on Excavated and Transmitted Chinese Corpora
par: Zhou, Zhihan, et autres
Publié: (2025)

Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
par: Abbas, Chaymaa, et autres
Publié: (2026)

Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora
par: Majurski, Michael, et autres
Publié: (2025)

A First Context-Free Grammar Applied to Nawatl Corpora Augmentation
par: Guzmán-Landa, Juan-José, et autres
Publié: (2025)

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
par: Hennara, Khalil, et autres
Publié: (2025)

Low-Resource, High-Impact: Building Corpora for Inclusive Language Technologies
par: Artemova, Ekaterina, et autres
Publié: (2025)

Surgical Feature-Space Decomposition of LLMs: Why, When and How?
par: Chavan, Arnav, et autres
Publié: (2024)

GameTileNet: A Semantic Dataset for Low-Resolution Game Art in Procedural Content Generation
par: Chen, Yi-Chun, et autres
Publié: (2025)

Bottom-Up and Top-Down Analysis of Values, Agendas, and Observations in Corpora and LLMs
par: Friedman, Scott E., et autres
Publié: (2024)

From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
par: Shen, Yingli, et autres
Publié: (2025)

Mitigating Stylistic Biases of Machine Translation Systems via Monolingual Corpora Only
par: Gao, Xuanqi, et autres
Publié: (2025)

Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
par: Kersting, Nicholas S., et autres
Publié: (2026)

Hope Speech Detection in Social Media English Corpora: Performance of Traditional and Transformer Models
par: Ramos, Luis, et autres
Publié: (2025)

GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages
par: Gyamfi, Lawrence Adu, et autres
Publié: (2026)

PlotTwist: A Creative Plot Generation Framework with Small Language Models
par: Thorat, Abhinav, et autres
Publié: (2026)

SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation
par: Tang, Xiaqiang, et autres
Publié: (2025)

Parameter-Efficient Fine-Tuning With Adapters
par: Chen, Keyu, et autres
Publié: (2024)