:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Haschka, Thomas, Bakarji, Joseph
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2512.23471
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
par: Milička, Jiří, et autres
Publié: (2025)

Multilingual and Explainable Text Detoxification with Parallel Corpora
par: Dementieva, Daryna, et autres
Publié: (2024)

From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
par: Shen, Yingli, et autres
Publié: (2025)

Estimating Text Similarity based on Semantic Concept Embeddings
par: der Brück, Tim vor, et autres
Publié: (2024)

Discovering Process-Outcome Credit in Multi-Step LLM Reasoning
par: Wang, Xiangwei, et autres
Publié: (2026)

Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
par: Kersting, Nicholas S., et autres
Publié: (2026)

Semantic Structure in Large Language Model Embeddings
par: Kozlowski, Austin C., et autres
Publié: (2025)

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
par: Hennara, Khalil, et autres
Publié: (2025)

Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings
par: Li, Shiyu, et autres
Publié: (2025)

Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms
par: Mersha, Melkamu Abay, et autres
Publié: (2024)

Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency
par: Kabakum, Irin, et autres
Publié: (2025)

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
par: Moreira, Hugo
Publié: (2026)

Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries
par: Gero, Zelalem, et autres
Publié: (2024)

Guylingo: The Republic of Guyana Creole Corpora
par: Clarke, Christopher, et autres
Publié: (2024)

Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora
par: Kim, Yungi, et autres
Publié: (2024)

Semantic Adapter for Universal Text Embeddings: Diagnosing and Mitigating Negation Blindness to Enhance Universality
par: Cao, Hongliu
Publié: (2025)

Using LLMs to Discover Legal Factors
par: Gray, Morgan, et autres
Publié: (2024)

Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation
par: Kim, Ireh, et autres
Publié: (2026)

A General Framework for Producing Interpretable Semantic Text Embeddings
par: Sun, Yiqun, et autres
Publié: (2024)

Attributing Culture-Conditioned Generations to Pretraining Corpora
par: Li, Huihan, et autres
Publié: (2024)

NILC: Discovering New Intents with LLM-assisted Clustering
par: Wang, Hongtao, et autres
Publié: (2025)

TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series
par: Sun, Chenxi, et autres
Publié: (2023)

DiscoverLLM: From Executing Intents to Discovering Them
par: Kim, Tae Soo, et autres
Publié: (2026)

Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models
par: Zhang, Siwei, et autres
Publié: (2025)

Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
par: Park, Chanwoo, et autres
Publié: (2025)

PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting
par: Tsai, Yu-Che, et autres
Publié: (2026)

AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora
par: Bai, Jiaxin, et autres
Publié: (2025)

Semantic Density Effect (SDE): Maximizing Information Per Token Improves LLM Accuracy
par: Ahmed, Amr
Publié: (2026)

Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex
par: Beiranvand, Azadeh, et autres
Publié: (2025)

STAGE: Simplified Text-Attributed Graph Embeddings Using Pre-trained LLMs
par: Zolnai-Lucas, Aaron, et autres
Publié: (2024)

Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability
par: Seegmiller, Parker, et autres
Publié: (2024)

Bias in Text Embedding Models
par: Rakivnenko, Vasyl, et autres
Publié: (2024)

Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
par: Huang, Junqin, et autres
Publié: (2024)

Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing
par: Berghaus, David, et autres
Publié: (2025)

Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning
par: Sun, Yiqun, et autres
Publié: (2025)

Can Language Models Discover Scaling Laws?
par: Lin, Haowei, et autres
Publié: (2025)

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings
par: Biton, Dvir David, et autres
Publié: (2026)

Knots: A Large-Scale Multi-Agent Enhanced Expert-Annotated Dataset and LLM Prompt Optimization for NOTAM Semantic Parsing
par: Liu, Maoqi, et autres
Publié: (2025)

LLM-Assisted Content Conditional Debiasing for Fair Text Embedding
par: Deng, Wenlong, et autres
Publié: (2024)

SEFD: Semantic-Enhanced Framework for Detecting LLM-Generated Text
par: He, Weiqing, et autres
Publié: (2024)