:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Li, Rumeng, Wang, Xun, Yu, Hong
Format:	Preprint
Published:	2023
Subjects:	Computation and Language
Online Access:	https://arxiv.org/abs/2401.06774
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

DualAlign: Generating Clinically Grounded Synthetic Data
by: Li, Rumeng, et al.
Published: (2025)

MetaMT,a MetaLearning Method Leveraging Multiple Domain Data for Low Resource Machine Translation
by: Li, Rumeng, et al.
Published: (2019)

A New NMT Model for Translating Clinical Texts from English to Spanish
by: Li, Rumeng, et al.
Published: (2025)

Exploring LLM Multi-Agents for ICD Coding
by: Li, Rumeng, et al.
Published: (2024)

Leveraging Large Language Models for Generating Labeled Mineral Site Record Linkage Data
by: Pyo, Jiyoon, et al.
Published: (2024)

Labeling Free-text Data using Language Model Ensembles
by: Qiu, Jiaxing, et al.
Published: (2025)

NoteChat: A Dataset of Synthetic Doctor-Patient Conversations Conditioned on Clinical Notes
by: Wang, Junda, et al.
Published: (2023)

Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling
by: Du, Yimin
Published: (2025)

Unlocking the Potential of Weakly Labeled Data: A Co-Evolutionary Learning Framework for Abnormality Detection and Report Generation
by: Sun, Jinghan, et al.
Published: (2024)

FUSE: Ensembling Verifiers with Zero Labeled Data
by: Lee, Joonhyuk, et al.
Published: (2026)

Strategies for Span Labeling with Large Language Models
by: Semin, Danil, et al.
Published: (2026)

From LLM-anation to LLM-orchestrator: Coordinating Small Models for Data Labeling
by: Lu, Yao, et al.
Published: (2025)

DECT: Harnessing LLM-assisted Fine-Grained Linguistic Knowledge and Label-Switched and Label-Preserved Data Generation for Diagnosis of Alzheimer's Disease
by: Mo, Tingyu, et al.
Published: (2025)

Label-Consistent Data Generation for Aspect-Based Sentiment Analysis Using LLM Agents
by: Monfared, Mohammad H. A., et al.
Published: (2026)

The Re-Label Method For Data-Centric Machine Learning
by: Guo, Tong
Published: (2023)

Mitigating Label Length Bias in Large Language Models
by: Sanz-Guerrero, Mario, et al.
Published: (2025)

Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs
by: Golde, Jonas, et al.
Published: (2023)

Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data
by: Guo, Siqi, et al.
Published: (2025)

Can We Reliably Rank Model Performance across Domains without Labeled Data?
by: Rammouz, Veronica, et al.
Published: (2025)

Based on Data Balancing and Model Improvement for Multi-Label Sentiment Classification Performance Enhancement
by: Su, Zijin, et al.
Published: (2025)

Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data
by: Shum, KaShun, et al.
Published: (2023)

Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement
by: Shtok, Joseph, et al.
Published: (2024)

TAIA: Large Language Models are Out-of-Distribution Data Learners
by: Jiang, Shuyang, et al.
Published: (2024)

Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation
by: Wang, Yujie, et al.
Published: (2023)

Large Language Models Do Multi-Label Classification Differently
by: Ma, Marcus, et al.
Published: (2025)

Large Language Models for Patient Comments Multi-Label Classification
by: Sakai, Hajar, et al.
Published: (2024)

Progressively Label Enhancement for Large Language Model Alignment
by: Liu, Biao, et al.
Published: (2024)

Synthetic vs. Gold: The Role of LLM Generated Labels and Data in Cyberbullying Detection
by: Kazemi, Arefeh, et al.
Published: (2025)

Labels Generated by Large Language Models Help Measure People's Empathy in Vitro
by: Hasan, Md Rakibul, et al.
Published: (2025)

Improving Clinical NLP Performance through Language Model-Generated Synthetic Clinical Data
by: Chen, Shan, et al.
Published: (2024)

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications
by: Shi, Chenhua, et al.
Published: (2025)

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models
by: Li, Guozheng, et al.
Published: (2026)

End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data
by: Pothula, Aishwarya, et al.
Published: (2025)

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data
by: Li, Haolong, et al.
Published: (2024)

Prompting in the Dark: Assessing Human Performance in Prompt Engineering for Data Labeling When Gold Labels Are Absent
by: He, Zeyu, et al.
Published: (2025)

Fairshare Data Pricing via Data Valuation for Large Language Models
by: Zhang, Luyang, et al.
Published: (2025)

OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation
by: Santamaria-Pang, Alberto, et al.
Published: (2025)

Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data
by: Ghorbanpour, Faeze, et al.
Published: (2025)

Zero-Shot Grammar Competency Estimation Using Large Language Model Generated Pseudo Labels
by: Das, Sourya Dipta, et al.
Published: (2025)

TarGEN: Targeted Data Generation with Large Language Models
by: Gupta, Himanshu, et al.
Published: (2023)