Enregistré dans:
| Auteurs principaux: | Zhao, Yue, Gu, Jiatao, Jeretič, Paloma, Su, Weijie |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2603.17912 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Factual Consistency of Multilingual Pretrained Language Models
par: Fierro, Constanza, et autres
Publié: (2022)
par: Fierro, Constanza, et autres
Publié: (2022)
Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
par: Zhang, Ruixiang, et autres
Publié: (2025)
par: Zhang, Ruixiang, et autres
Publié: (2025)
Revisiting Multilingual Data Mixtures in Language Model Pretraining
par: Foroutan, Negar, et autres
Publié: (2025)
par: Foroutan, Negar, et autres
Publié: (2025)
Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space
par: Philippy, Fred, et autres
Publié: (2023)
par: Philippy, Fred, et autres
Publié: (2023)
ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
par: Longpre, Shayne, et autres
Publié: (2025)
par: Longpre, Shayne, et autres
Publié: (2025)
Length-MAX Tokenizer for Language Models
par: Dong, Dong, et autres
Publié: (2025)
par: Dong, Dong, et autres
Publié: (2025)
Learning When to Think While Listening in Large Audio-Language Models
par: Song, Zhiyuan, et autres
Publié: (2026)
par: Song, Zhiyuan, et autres
Publié: (2026)
Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
par: Messmer, Bettina, et autres
Publié: (2025)
par: Messmer, Bettina, et autres
Publié: (2025)
LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining
par: Shen, Huawen, et autres
Publié: (2024)
par: Shen, Huawen, et autres
Publié: (2024)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
par: Ali, Mehdi, et autres
Publié: (2025)
par: Ali, Mehdi, et autres
Publié: (2025)
A Law of Next-Token Prediction in Large Language Models
par: He, Hangfeng, et autres
Publié: (2024)
par: He, Hangfeng, et autres
Publié: (2024)
MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
par: Chen, Zhixun, et autres
Publié: (2025)
par: Chen, Zhixun, et autres
Publié: (2025)
Robust Detection of Watermarks for Large Language Models Under Human Edits
par: Li, Xiang, et autres
Publié: (2024)
par: Li, Xiang, et autres
Publié: (2024)
TPTT: Transforming Pretrained Transformers into Titans
par: Furfaro, Fabien
Publié: (2025)
par: Furfaro, Fabien
Publié: (2025)
Scaling Laws for Multilingual Language Models
par: He, Yifei, et autres
Publié: (2024)
par: He, Yifei, et autres
Publié: (2024)
APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference
par: Zhao, Bowen, et autres
Publié: (2024)
par: Zhao, Bowen, et autres
Publié: (2024)
Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations
par: Xie, Zhihui, et autres
Publié: (2024)
par: Xie, Zhihui, et autres
Publié: (2024)
Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities
par: Jobanputra, Mayank, et autres
Publié: (2025)
par: Jobanputra, Mayank, et autres
Publié: (2025)
Optimal Estimation of Watermark Proportions in Hybrid AI-Human Texts
par: Li, Xiang, et autres
Publié: (2025)
par: Li, Xiang, et autres
Publié: (2025)
Divide-or-Conquer? Which Part Should You Distill Your LLM?
par: Wu, Zhuofeng, et autres
Publié: (2024)
par: Wu, Zhuofeng, et autres
Publié: (2024)
Disentangling Language Roles in Multilingual LLM Task Execution
par: Zhan, Qishi, et autres
Publié: (2026)
par: Zhan, Qishi, et autres
Publié: (2026)
Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
par: Tang, Yao, et autres
Publié: (2026)
par: Tang, Yao, et autres
Publié: (2026)
TyphoFormer: Language-Augmented Transformer for Accurate Typhoon Track Forecasting
par: Li, Lincan, et autres
Publié: (2025)
par: Li, Lincan, et autres
Publié: (2025)
Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining
par: Zhang, Qi, et autres
Publié: (2024)
par: Zhang, Qi, et autres
Publié: (2024)
Comparison of Scoring Rationales Between Large Language Models and Human Raters
par: Hua, Haowei, et autres
Publié: (2025)
par: Hua, Haowei, et autres
Publié: (2025)
Can Brain Signals Reveal Inner Alignment with Human Languages?
par: Han, William, et autres
Publié: (2022)
par: Han, William, et autres
Publié: (2022)
What Makes the Preferred Thinking Direction for LLMs in Multiple-choice Questions?
par: Zhang, Yizhe, et autres
Publié: (2025)
par: Zhang, Yizhe, et autres
Publié: (2025)
Unsupervised Pretraining for Fact Verification by Language Model Distillation
par: Bazaga, Adrián, et autres
Publié: (2023)
par: Bazaga, Adrián, et autres
Publié: (2023)
Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models
par: Hengle, Amey, et autres
Publié: (2024)
par: Hengle, Amey, et autres
Publié: (2024)
Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis
par: Li, Daoyang, et autres
Publié: (2024)
par: Li, Daoyang, et autres
Publié: (2024)
Procedural Pretraining: Warming Up Language Models with Abstract Data
par: Jiang, Liangze, et autres
Publié: (2026)
par: Jiang, Liangze, et autres
Publié: (2026)
Facts in Stats: Impacts of Pretraining Diversity on Language Model Generalization
par: Behnia, Tina, et autres
Publié: (2025)
par: Behnia, Tina, et autres
Publié: (2025)
The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models
par: Bhaskar, Adithya, et autres
Publié: (2024)
par: Bhaskar, Adithya, et autres
Publié: (2024)
NoteContrast: Contrastive Language-Diagnostic Pretraining for Medical Text
par: Kailas, Prajwal, et autres
Publié: (2024)
par: Kailas, Prajwal, et autres
Publié: (2024)
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining
par: Bal, Melis Ilayda, et autres
Publié: (2025)
par: Bal, Melis Ilayda, et autres
Publié: (2025)
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models
par: Ruis, Laura, et autres
Publié: (2024)
par: Ruis, Laura, et autres
Publié: (2024)
Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
par: Sam, Dylan, et autres
Publié: (2025)
par: Sam, Dylan, et autres
Publié: (2025)
Repeated-Token Counting Reveals a Dissociation Between Representations and Outputs
par: Venkatesh, Sohan
Publié: (2026)
par: Venkatesh, Sohan
Publié: (2026)
Pretraining Large Language Models with NVFP4
par: NVIDIA, et autres
Publié: (2025)
par: NVIDIA, et autres
Publié: (2025)
On the Limitations of Language Targeted Pruning: Investigating the Calibration Language Impact in Multilingual LLM Pruning
par: Kurz, Simon, et autres
Publié: (2024)
par: Kurz, Simon, et autres
Publié: (2024)
Documents similaires
-
Factual Consistency of Multilingual Pretrained Language Models
par: Fierro, Constanza, et autres
Publié: (2022) -
Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
par: Zhang, Ruixiang, et autres
Publié: (2025) -
Revisiting Multilingual Data Mixtures in Language Model Pretraining
par: Foroutan, Negar, et autres
Publié: (2025) -
Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space
par: Philippy, Fred, et autres
Publié: (2023) -
ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
par: Longpre, Shayne, et autres
Publié: (2025)