Uloženo v:
| Hlavní autoři: | Hayase, Jonathan, Liu, Alisa, Choi, Yejin, Oh, Sewoong, Smith, Noah A. |
|---|---|
| Médium: | Preprint |
| Vydáno: |
2024
|
| Témata: | |
| On-line přístup: | https://arxiv.org/abs/2407.16607 |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Podobné jednotky
SuperBPE: Space Travel for Language Models
Autor: Liu, Alisa, a další
Vydáno: (2025)
Autor: Liu, Alisa, a další
Vydáno: (2025)
Sampling from Your Language Model One Byte at a Time
Autor: Hayase, Jonathan, a další
Vydáno: (2025)
Autor: Hayase, Jonathan, a další
Vydáno: (2025)
Are you going to finish that? A Practical Study of the Partial Token Problem
Autor: Xu, Hao, a další
Vydáno: (2026)
Autor: Xu, Hao, a další
Vydáno: (2026)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations
Autor: Zheng, Brian Siyuan, a další
Vydáno: (2025)
Autor: Zheng, Brian Siyuan, a další
Vydáno: (2025)
Constructing a BPE Tokenization DFA
Autor: Berglund, Martin, a další
Vydáno: (2024)
Autor: Berglund, Martin, a další
Vydáno: (2024)
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage
Autor: Xin, Rui, a další
Vydáno: (2025)
Autor: Xin, Rui, a další
Vydáno: (2025)
GPUTOK: GPU Accelerated Byte Level BPE Tokenization
Autor: Kadamba, Venu Gopal, a další
Vydáno: (2026)
Autor: Kadamba, Venu Gopal, a další
Vydáno: (2026)
PLeaS -- Merging Models with Permutations and Least Squares
Autor: Nasery, Anshul, a další
Vydáno: (2024)
Autor: Nasery, Anshul, a další
Vydáno: (2024)
Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models
Autor: Belenki, Lior, a další
Vydáno: (2025)
Autor: Belenki, Lior, a další
Vydáno: (2025)
What's In My Big Data?
Autor: Elazar, Yanai, a další
Vydáno: (2023)
Autor: Elazar, Yanai, a další
Vydáno: (2023)
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life
Autor: Chiu, Yu Ying, a další
Vydáno: (2024)
Autor: Chiu, Yu Ying, a další
Vydáno: (2024)
Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models
Autor: Nguyen, Thao, a další
Vydáno: (2025)
Autor: Nguyen, Thao, a další
Vydáno: (2025)
When Incentives Backfire, Data Stops Being Human
Autor: Santy, Sebastin, a další
Vydáno: (2025)
Autor: Santy, Sebastin, a další
Vydáno: (2025)
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting
Autor: Sclar, Melanie, a další
Vydáno: (2023)
Autor: Sclar, Melanie, a další
Vydáno: (2023)
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training
Autor: Tran, Toan, a další
Vydáno: (2025)
Autor: Tran, Toan, a další
Vydáno: (2025)
What do Transformers Know about Government?
Autor: Hou, Jue, a další
Vydáno: (2024)
Autor: Hou, Jue, a další
Vydáno: (2024)
LLAMAPIE: Proactive In-Ear Conversation Assistants
Autor: Chen, Tuochao, a další
Vydáno: (2025)
Autor: Chen, Tuochao, a další
Vydáno: (2025)
BlockBPE: Parallel BPE Tokenization
Autor: You, Amos
Vydáno: (2025)
Autor: You, Amos
Vydáno: (2025)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models
Autor: Pan, Bowen, a další
Vydáno: (2024)
Autor: Pan, Bowen, a další
Vydáno: (2024)
Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
Autor: Jung, Jaehun, a další
Vydáno: (2024)
Autor: Jung, Jaehun, a další
Vydáno: (2024)
Is Child-Directed Speech Effective Training Data for Language Models?
Autor: Feng, Steven Y., a další
Vydáno: (2024)
Autor: Feng, Steven Y., a další
Vydáno: (2024)
Tuning Language Models by Proxy
Autor: Liu, Alisa, a další
Vydáno: (2024)
Autor: Liu, Alisa, a další
Vydáno: (2024)
Pretraining Language Models with Subword Regularization: An Empirical Study of BPE Dropout in Low-Resource NLP
Autor: Visser, Ruan, a další
Vydáno: (2026)
Autor: Visser, Ruan, a další
Vydáno: (2026)
OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
Autor: Shin, Seungjun, a další
Vydáno: (2025)
Autor: Shin, Seungjun, a další
Vydáno: (2025)
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
Autor: He, Jacqueline, a další
Vydáno: (2026)
Autor: He, Jacqueline, a další
Vydáno: (2026)
DataDecide: How to Predict Best Pretraining Data with Small Experiments
Autor: Magnusson, Ian, a další
Vydáno: (2025)
Autor: Magnusson, Ian, a další
Vydáno: (2025)
Frequency Explains the Inverse Correlation of Large Language Models' Size, Training Data Amount, and Surprisal's Fit to Reading Times
Autor: Oh, Byung-Doh, a další
Vydáno: (2024)
Autor: Oh, Byung-Doh, a další
Vydáno: (2024)
Learning to Reason with Mixture of Tokens
Autor: Jain, Adit, a další
Vydáno: (2025)
Autor: Jain, Adit, a další
Vydáno: (2025)
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures
Autor: Nguyen, Dang, a další
Vydáno: (2024)
Autor: Nguyen, Dang, a další
Vydáno: (2024)
From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step
Autor: Deng, Yuntian, a další
Vydáno: (2024)
Autor: Deng, Yuntian, a další
Vydáno: (2024)
Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information
Autor: Ethayarajh, Kawin, a další
Vydáno: (2021)
Autor: Ethayarajh, Kawin, a další
Vydáno: (2021)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models
Autor: Faria, Gonçalo, a další
Vydáno: (2025)
Autor: Faria, Gonçalo, a další
Vydáno: (2025)
Sequences of Logits Reveal the Low Rank Structure of Language Models
Autor: Golowich, Noah, a další
Vydáno: (2025)
Autor: Golowich, Noah, a další
Vydáno: (2025)
Better Alignment with Instruction Back-and-Forth Translation
Autor: Nguyen, Thao, a další
Vydáno: (2024)
Autor: Nguyen, Thao, a další
Vydáno: (2024)
Perturb Your Data: Paraphrase-Guided Training Data Watermarking
Autor: Shetty, Pranav, a další
Vydáno: (2025)
Autor: Shetty, Pranav, a další
Vydáno: (2025)
Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
Autor: Zhang, Mozhi, a další
Vydáno: (2025)
Autor: Zhang, Mozhi, a další
Vydáno: (2025)
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
Autor: Ge, Albert, a další
Vydáno: (2025)
Autor: Ge, Albert, a další
Vydáno: (2025)
Insufficient Statistics Perturbation: Stable Estimators for Private Least Squares
Autor: Brown, Gavin, a další
Vydáno: (2024)
Autor: Brown, Gavin, a další
Vydáno: (2024)
Query-Based Adversarial Prompt Generation
Autor: Hayase, Jonathan, a další
Vydáno: (2024)
Autor: Hayase, Jonathan, a další
Vydáno: (2024)
Scaling Laws for Mixture Pretraining Under Data Constraints
Autor: Sedova, Anastasiia, a další
Vydáno: (2026)
Autor: Sedova, Anastasiia, a další
Vydáno: (2026)
Podobné jednotky
-
SuperBPE: Space Travel for Language Models
Autor: Liu, Alisa, a další
Vydáno: (2025) -
Sampling from Your Language Model One Byte at a Time
Autor: Hayase, Jonathan, a další
Vydáno: (2025) -
Are you going to finish that? A Practical Study of the Partial Token Problem
Autor: Xu, Hao, a další
Vydáno: (2026) -
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations
Autor: Zheng, Brian Siyuan, a další
Vydáno: (2025) -
Constructing a BPE Tokenization DFA
Autor: Berglund, Martin, a další
Vydáno: (2024)