:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Piterbarg, Ulyana, Pinto, Lerrel, Fergus, Rob
Format:	Preprint
Published:	2024
Subjects:	Machine Learning Computation and Language
Online Access:	https://arxiv.org/abs/2410.02749
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

diff History for Neural Language Agents
by: Piterbarg, Ulyana, et al.
Published: (2023)

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models
by: Gu, Xiaojie, et al.
Published: (2025)

Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models
by: Jin, Bihui, et al.
Published: (2025)

Let the Code LLM Edit Itself When You Edit the Code
by: He, Zhenyu, et al.
Published: (2024)

Improving Summarization with Human Edits
by: Yao, Zonghai, et al.
Published: (2023)

Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task
by: Li, Kenneth, et al.
Published: (2022)

Sequence-Level Leakage Risk of Training Data in Large Language Models
by: Tiwari, Trishita, et al.
Published: (2024)

Extending Input Contexts of Language Models through Training on Segmented Sequences
by: Karypis, Petros, et al.
Published: (2023)

Synthetic Text Generation for Training Large Language Models via Gradient Matching
by: Nguyen, Dang, et al.
Published: (2025)

CEV-LM: Controlled Edit Vector Language Model for Shaping Natural Language Generations
by: Moorjani, Samraj, et al.
Published: (2024)

Improving Code Generation by Training with Natural Language Feedback
by: Chen, Angelica, et al.
Published: (2023)

Sequence-level Large Language Model Training with Contrastive Preference Optimization
by: Feng, Zhili, et al.
Published: (2025)

Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models
by: Majumdar, Somshubra, et al.
Published: (2024)

BiasEdit: Debiasing Stereotyped Language Models via Model Editing
by: Xu, Xin, et al.
Published: (2025)

Escaping the Mode Lottery: Multi-Response Training Improves Language Model Generalization
by: Amin, Hasan, et al.
Published: (2026)

Resolving UnderEdit & OverEdit with Iterative & Neighbor-Assisted Model Editing
by: Baghel, Bhiman Kumar, et al.
Published: (2025)

From Construction to Injection: Edit-Based Fingerprints for Large Language Models
by: Li, Yue, et al.
Published: (2025)

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay
by: Butt, Natasha, et al.
Published: (2024)

Self-Execution Simulation Improves Coding Models
by: Maimon, Gallil, et al.
Published: (2026)

How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse
by: Seddik, Mohamed El Amine, et al.
Published: (2024)

Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition
by: Shirke, Mayur, et al.
Published: (2025)

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models
by: Zhang, Jingyang, et al.
Published: (2024)

Sequence-to-Sequence Spanish Pre-trained Language Models
by: Araujo, Vladimir, et al.
Published: (2023)

Improving Sequence-to-Sequence Models for Abstractive Text Summarization Using Meta Heuristic Approaches
by: Saxena, Aditya, et al.
Published: (2024)

Robust Detection of Watermarks for Large Language Models Under Human Edits
by: Li, Xiang, et al.
Published: (2024)

To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models
by: Barbulescu, George-Octavian, et al.
Published: (2024)

Synthetic Sandbox for Training Machine Learning Engineering Agents
by: Zhou, Yuhang, et al.
Published: (2026)

Annotation Sensitivity: Training Data Collection Methods Affect Model Performance
by: Kern, Christoph, et al.
Published: (2023)

Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models
by: Liu, Zefang, et al.
Published: (2025)

Towards Active Synthetic Data Generation for Finetuning Language Models
by: Kessler, Samuel, et al.
Published: (2025)

Can We Edit Multimodal Large Language Models?
by: Cheng, Siyuan, et al.
Published: (2023)

Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions
by: Patel, Dhruvesh, et al.
Published: (2025)

Neural Models for Source Code Synthesis and Completion
by: Niyogi, Mitodru
Published: (2024)

How to Train Private Clinical Language Models: A Comparative Study of Privacy-Preserving Pipelines for ICD-9 Coding
by: Dufour, Mathieu, et al.
Published: (2025)

More Edits, More Stable: Understanding the Lifelong Normalization in Sequential Model Editing
by: Ma, Xin, et al.
Published: (2026)

CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts
by: Sheokand, Manik, et al.
Published: (2025)

Does Training on Synthetic Data Make Models Less Robust?
by: Zhang, Lingze, et al.
Published: (2025)

On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers
by: Yang, Zijian, et al.
Published: (2023)

FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
by: Patel, Ajay, et al.
Published: (2026)

Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation
by: Kartik, Kartik, et al.
Published: (2024)