:: Library Catalog

Obálka

Uloženo v:

Podrobná bibliografie
Hlavní autoři:	Hayase, Jonathan, Liu, Alisa, Choi, Yejin, Oh, Sewoong, Smith, Noah A.
Médium:	Preprint
Vydáno:	2024
Témata:	Computation and Language Machine Learning
On-line přístup:	https://arxiv.org/abs/2407.16607
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Podobné jednotky

SuperBPE: Space Travel for Language Models
Autor: Liu, Alisa, a další
Vydáno: (2025)

Sampling from Your Language Model One Byte at a Time
Autor: Hayase, Jonathan, a další
Vydáno: (2025)

Are you going to finish that? A Practical Study of the Partial Token Problem
Autor: Xu, Hao, a další
Vydáno: (2026)

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations
Autor: Zheng, Brian Siyuan, a další
Vydáno: (2025)

Constructing a BPE Tokenization DFA
Autor: Berglund, Martin, a další
Vydáno: (2024)

A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage
Autor: Xin, Rui, a další
Vydáno: (2025)

GPUTOK: GPU Accelerated Byte Level BPE Tokenization
Autor: Kadamba, Venu Gopal, a další
Vydáno: (2026)

PLeaS -- Merging Models with Permutations and Least Squares
Autor: Nasery, Anshul, a další
Vydáno: (2024)

Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models
Autor: Belenki, Lior, a další
Vydáno: (2025)

What's In My Big Data?
Autor: Elazar, Yanai, a další
Vydáno: (2023)

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life
Autor: Chiu, Yu Ying, a další
Vydáno: (2024)

Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models
Autor: Nguyen, Thao, a další
Vydáno: (2025)

When Incentives Backfire, Data Stops Being Human
Autor: Santy, Sebastin, a další
Vydáno: (2025)

Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting
Autor: Sclar, Melanie, a další
Vydáno: (2023)

Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training
Autor: Tran, Toan, a další
Vydáno: (2025)

What do Transformers Know about Government?
Autor: Hou, Jue, a další
Vydáno: (2024)

LLAMAPIE: Proactive In-Ear Conversation Assistants
Autor: Chen, Tuochao, a další
Vydáno: (2025)

BlockBPE: Parallel BPE Tokenization
Autor: You, Amos
Vydáno: (2025)

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models
Autor: Pan, Bowen, a další
Vydáno: (2024)

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
Autor: Jung, Jaehun, a další
Vydáno: (2024)

Is Child-Directed Speech Effective Training Data for Language Models?
Autor: Feng, Steven Y., a další
Vydáno: (2024)

Tuning Language Models by Proxy
Autor: Liu, Alisa, a další
Vydáno: (2024)

Pretraining Language Models with Subword Regularization: An Empirical Study of BPE Dropout in Low-Resource NLP
Autor: Visser, Ruan, a další
Vydáno: (2026)

OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
Autor: Shin, Seungjun, a další
Vydáno: (2025)

Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
Autor: He, Jacqueline, a další
Vydáno: (2026)

DataDecide: How to Predict Best Pretraining Data with Small Experiments
Autor: Magnusson, Ian, a další
Vydáno: (2025)

Frequency Explains the Inverse Correlation of Large Language Models' Size, Training Data Amount, and Surprisal's Fit to Reading Times
Autor: Oh, Byung-Doh, a další
Vydáno: (2024)

Learning to Reason with Mixture of Tokens
Autor: Jain, Adit, a další
Vydáno: (2025)

Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures
Autor: Nguyen, Dang, a další
Vydáno: (2024)

From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step
Autor: Deng, Yuntian, a další
Vydáno: (2024)

Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information
Autor: Ethayarajh, Kawin, a další
Vydáno: (2021)

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models
Autor: Faria, Gonçalo, a další
Vydáno: (2025)

Sequences of Logits Reveal the Low Rank Structure of Language Models
Autor: Golowich, Noah, a další
Vydáno: (2025)

Better Alignment with Instruction Back-and-Forth Translation
Autor: Nguyen, Thao, a další
Vydáno: (2024)

Perturb Your Data: Paraphrase-Guided Training Data Watermarking
Autor: Shetty, Pranav, a další
Vydáno: (2025)

Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
Autor: Zhang, Mozhi, a další
Vydáno: (2025)

R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
Autor: Ge, Albert, a další
Vydáno: (2025)

Insufficient Statistics Perturbation: Stable Estimators for Private Least Squares
Autor: Brown, Gavin, a další
Vydáno: (2024)

Query-Based Adversarial Prompt Generation
Autor: Hayase, Jonathan, a další
Vydáno: (2024)

Scaling Laws for Mixture Pretraining Under Data Constraints
Autor: Sedova, Anastasiia, a další
Vydáno: (2026)