:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhao, Yue, Gu, Jiatao, Jeretič, Paloma, Su, Weijie
Format:	Preprint
Publié:	2026
Sujets:	Computation and Language Machine Learning
Accès en ligne:	https://arxiv.org/abs/2603.17912
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Factual Consistency of Multilingual Pretrained Language Models
par: Fierro, Constanza, et autres
Publié: (2022)

Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
par: Zhang, Ruixiang, et autres
Publié: (2025)

Revisiting Multilingual Data Mixtures in Language Model Pretraining
par: Foroutan, Negar, et autres
Publié: (2025)

Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space
par: Philippy, Fred, et autres
Publié: (2023)

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
par: Longpre, Shayne, et autres
Publié: (2025)

Length-MAX Tokenizer for Language Models
par: Dong, Dong, et autres
Publié: (2025)

Learning When to Think While Listening in Large Audio-Language Models
par: Song, Zhiyuan, et autres
Publié: (2026)

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
par: Messmer, Bettina, et autres
Publié: (2025)

LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining
par: Shen, Huawen, et autres
Publié: (2024)

Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
par: Ali, Mehdi, et autres
Publié: (2025)

A Law of Next-Token Prediction in Large Language Models
par: He, Hangfeng, et autres
Publié: (2024)

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
par: Chen, Zhixun, et autres
Publié: (2025)

Robust Detection of Watermarks for Large Language Models Under Human Edits
par: Li, Xiang, et autres
Publié: (2024)

TPTT: Transforming Pretrained Transformers into Titans
par: Furfaro, Fabien
Publié: (2025)

Scaling Laws for Multilingual Language Models
par: He, Yifei, et autres
Publié: (2024)

APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference
par: Zhao, Bowen, et autres
Publié: (2024)

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations
par: Xie, Zhihui, et autres
Publié: (2024)

Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities
par: Jobanputra, Mayank, et autres
Publié: (2025)

Optimal Estimation of Watermark Proportions in Hybrid AI-Human Texts
par: Li, Xiang, et autres
Publié: (2025)

Divide-or-Conquer? Which Part Should You Distill Your LLM?
par: Wu, Zhuofeng, et autres
Publié: (2024)

Disentangling Language Roles in Multilingual LLM Task Execution
par: Zhan, Qishi, et autres
Publié: (2026)

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
par: Tang, Yao, et autres
Publié: (2026)

TyphoFormer: Language-Augmented Transformer for Accurate Typhoon Track Forecasting
par: Li, Lincan, et autres
Publié: (2025)

Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining
par: Zhang, Qi, et autres
Publié: (2024)

Comparison of Scoring Rationales Between Large Language Models and Human Raters
par: Hua, Haowei, et autres
Publié: (2025)

Can Brain Signals Reveal Inner Alignment with Human Languages?
par: Han, William, et autres
Publié: (2022)

What Makes the Preferred Thinking Direction for LLMs in Multiple-choice Questions?
par: Zhang, Yizhe, et autres
Publié: (2025)

Unsupervised Pretraining for Fact Verification by Language Model Distillation
par: Bazaga, Adrián, et autres
Publié: (2023)

Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models
par: Hengle, Amey, et autres
Publié: (2024)

Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis
par: Li, Daoyang, et autres
Publié: (2024)

Procedural Pretraining: Warming Up Language Models with Abstract Data
par: Jiang, Liangze, et autres
Publié: (2026)

Facts in Stats: Impacts of Pretraining Diversity on Language Model Generalization
par: Behnia, Tina, et autres
Publié: (2025)

The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models
par: Bhaskar, Adithya, et autres
Publié: (2024)

NoteContrast: Contrastive Language-Diagnostic Pretraining for Medical Text
par: Kailas, Prajwal, et autres
Publié: (2024)

ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining
par: Bal, Melis Ilayda, et autres
Publié: (2025)

Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models
par: Ruis, Laura, et autres
Publié: (2024)

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
par: Sam, Dylan, et autres
Publié: (2025)

Repeated-Token Counting Reveals a Dissociation Between Representations and Outputs
par: Venkatesh, Sohan
Publié: (2026)

Pretraining Large Language Models with NVFP4
par: NVIDIA, et autres
Publié: (2025)

On the Limitations of Language Targeted Pruning: Investigating the Calibration Language Impact in Multilingual LLM Pruning
par: Kurz, Simon, et autres
Publié: (2024)