Enregistré dans:
| Auteurs principaux: | Li, Huihan, Goel, Arnav, He, Keyu, Ren, Xiang |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2412.20760 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
par: Li, Huihan, et autres
Publié: (2025)
par: Li, Huihan, et autres
Publié: (2025)
Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
par: Park, Chanwoo, et autres
Publié: (2025)
par: Park, Chanwoo, et autres
Publié: (2025)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting
par: Li, Huihan, et autres
Publié: (2024)
par: Li, Huihan, et autres
Publié: (2024)
In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
par: Li, Huihan, et autres
Publié: (2023)
par: Li, Huihan, et autres
Publié: (2023)
SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora
par: Qarah, Faisal
Publié: (2024)
par: Qarah, Faisal
Publié: (2024)
MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation
par: Agarwal, Mehul, et autres
Publié: (2026)
par: Agarwal, Mehul, et autres
Publié: (2026)
Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning
par: Goel, Arnav, et autres
Publié: (2024)
par: Goel, Arnav, et autres
Publié: (2024)
AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
par: Milička, Jiří, et autres
Publié: (2025)
par: Milička, Jiří, et autres
Publié: (2025)
How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models?
par: Liu, Danni, et autres
Publié: (2023)
par: Liu, Danni, et autres
Publié: (2023)
HORIZON: A Benchmark for In-the-wild User Behaviour Modeling
par: Goel, Arnav, et autres
Publié: (2026)
par: Goel, Arnav, et autres
Publié: (2026)
Guylingo: The Republic of Guyana Creole Corpora
par: Clarke, Christopher, et autres
Publié: (2024)
par: Clarke, Christopher, et autres
Publié: (2024)
Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale
par: Hu, Xiang, et autres
Publié: (2024)
par: Hu, Xiang, et autres
Publié: (2024)
Multilingual and Explainable Text Detoxification with Parallel Corpora
par: Dementieva, Daryna, et autres
Publié: (2024)
par: Dementieva, Daryna, et autres
Publié: (2024)
Narrative-to-Scene Generation: An LLM-Driven Pipeline for 2D Game Environments
par: Chen, Yi-Chun, et autres
Publié: (2025)
par: Chen, Yi-Chun, et autres
Publié: (2025)
Presumed Cultural Identity: How Names Shape LLM Responses
par: Pawar, Siddhesh, et autres
Publié: (2025)
par: Pawar, Siddhesh, et autres
Publié: (2025)
MegaMath: Pushing the Limits of Open Math Corpora
par: Zhou, Fan, et autres
Publié: (2025)
par: Zhou, Fan, et autres
Publié: (2025)
AttributionBench: How Hard is Automatic Attribution Evaluation?
par: Li, Yifei, et autres
Publié: (2024)
par: Li, Yifei, et autres
Publié: (2024)
Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
par: Huang, Yukun, et autres
Publié: (2025)
par: Huang, Yukun, et autres
Publié: (2025)
ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols
par: Sheth, Arnav, et autres
Publié: (2025)
par: Sheth, Arnav, et autres
Publié: (2025)
PonderLM: Pretraining Language Models to Ponder in Continuous Space
par: Zeng, Boyi, et autres
Publié: (2025)
par: Zeng, Boyi, et autres
Publié: (2025)
HiChunk: Evaluating and Enhancing Retrieval-Augmented Generation with Hierarchical Chunking
par: Lu, Wensheng, et autres
Publié: (2025)
par: Lu, Wensheng, et autres
Publié: (2025)
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs
par: Basu, Kinjal, et autres
Publié: (2024)
par: Basu, Kinjal, et autres
Publié: (2024)
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias
par: Xu, Yuemei, et autres
Publié: (2024)
par: Xu, Yuemei, et autres
Publié: (2024)
AncientBench: Towards Comprehensive Evaluation on Excavated and Transmitted Chinese Corpora
par: Zhou, Zhihan, et autres
Publié: (2025)
par: Zhou, Zhihan, et autres
Publié: (2025)
Obscuring Data Contamination Through Translation: Evidence from Arabic Corpora
par: Abbas, Chaymaa, et autres
Publié: (2026)
par: Abbas, Chaymaa, et autres
Publié: (2026)
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora
par: Majurski, Michael, et autres
Publié: (2025)
par: Majurski, Michael, et autres
Publié: (2025)
A First Context-Free Grammar Applied to Nawatl Corpora Augmentation
par: Guzmán-Landa, Juan-José, et autres
Publié: (2025)
par: Guzmán-Landa, Juan-José, et autres
Publié: (2025)
Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
par: Hennara, Khalil, et autres
Publié: (2025)
par: Hennara, Khalil, et autres
Publié: (2025)
Low-Resource, High-Impact: Building Corpora for Inclusive Language Technologies
par: Artemova, Ekaterina, et autres
Publié: (2025)
par: Artemova, Ekaterina, et autres
Publié: (2025)
Surgical Feature-Space Decomposition of LLMs: Why, When and How?
par: Chavan, Arnav, et autres
Publié: (2024)
par: Chavan, Arnav, et autres
Publié: (2024)
GameTileNet: A Semantic Dataset for Low-Resolution Game Art in Procedural Content Generation
par: Chen, Yi-Chun, et autres
Publié: (2025)
par: Chen, Yi-Chun, et autres
Publié: (2025)
Bottom-Up and Top-Down Analysis of Values, Agendas, and Observations in Corpora and LLMs
par: Friedman, Scott E., et autres
Publié: (2024)
par: Friedman, Scott E., et autres
Publié: (2024)
From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
par: Shen, Yingli, et autres
Publié: (2025)
par: Shen, Yingli, et autres
Publié: (2025)
Mitigating Stylistic Biases of Machine Translation Systems via Monolingual Corpora Only
par: Gao, Xuanqi, et autres
Publié: (2025)
par: Gao, Xuanqi, et autres
Publié: (2025)
Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
par: Kersting, Nicholas S., et autres
Publié: (2026)
par: Kersting, Nicholas S., et autres
Publié: (2026)
Hope Speech Detection in Social Media English Corpora: Performance of Traditional and Transformer Models
par: Ramos, Luis, et autres
Publié: (2025)
par: Ramos, Luis, et autres
Publié: (2025)
GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages
par: Gyamfi, Lawrence Adu, et autres
Publié: (2026)
par: Gyamfi, Lawrence Adu, et autres
Publié: (2026)
PlotTwist: A Creative Plot Generation Framework with Small Language Models
par: Thorat, Abhinav, et autres
Publié: (2026)
par: Thorat, Abhinav, et autres
Publié: (2026)
SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation
par: Tang, Xiaqiang, et autres
Publié: (2025)
par: Tang, Xiaqiang, et autres
Publié: (2025)
Parameter-Efficient Fine-Tuning With Adapters
par: Chen, Keyu, et autres
Publié: (2024)
par: Chen, Keyu, et autres
Publié: (2024)
Documents similaires
-
Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
par: Li, Huihan, et autres
Publié: (2025) -
Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
par: Park, Chanwoo, et autres
Publié: (2025) -
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting
par: Li, Huihan, et autres
Publié: (2024) -
In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search
par: Li, Huihan, et autres
Publié: (2023) -
SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora
par: Qarah, Faisal
Publié: (2024)