Enregistré dans:
| Auteurs principaux: | Haschka, Thomas, Bakarji, Joseph |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.23471 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
par: Milička, Jiří, et autres
Publié: (2025)
par: Milička, Jiří, et autres
Publié: (2025)
Multilingual and Explainable Text Detoxification with Parallel Corpora
par: Dementieva, Daryna, et autres
Publié: (2024)
par: Dementieva, Daryna, et autres
Publié: (2024)
From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
par: Shen, Yingli, et autres
Publié: (2025)
par: Shen, Yingli, et autres
Publié: (2025)
Estimating Text Similarity based on Semantic Concept Embeddings
par: der Brück, Tim vor, et autres
Publié: (2024)
par: der Brück, Tim vor, et autres
Publié: (2024)
Discovering Process-Outcome Credit in Multi-Step LLM Reasoning
par: Wang, Xiangwei, et autres
Publié: (2026)
par: Wang, Xiangwei, et autres
Publié: (2026)
Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
par: Kersting, Nicholas S., et autres
Publié: (2026)
par: Kersting, Nicholas S., et autres
Publié: (2026)
Semantic Structure in Large Language Model Embeddings
par: Kozlowski, Austin C., et autres
Publié: (2025)
par: Kozlowski, Austin C., et autres
Publié: (2025)
Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
par: Hennara, Khalil, et autres
Publié: (2025)
par: Hennara, Khalil, et autres
Publié: (2025)
Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings
par: Li, Shiyu, et autres
Publié: (2025)
par: Li, Shiyu, et autres
Publié: (2025)
Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms
par: Mersha, Melkamu Abay, et autres
Publié: (2024)
par: Mersha, Melkamu Abay, et autres
Publié: (2024)
Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency
par: Kabakum, Irin, et autres
Publié: (2025)
par: Kabakum, Irin, et autres
Publié: (2025)
Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
par: Moreira, Hugo
Publié: (2026)
par: Moreira, Hugo
Publié: (2026)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries
par: Gero, Zelalem, et autres
Publié: (2024)
par: Gero, Zelalem, et autres
Publié: (2024)
Guylingo: The Republic of Guyana Creole Corpora
par: Clarke, Christopher, et autres
Publié: (2024)
par: Clarke, Christopher, et autres
Publié: (2024)
Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora
par: Kim, Yungi, et autres
Publié: (2024)
par: Kim, Yungi, et autres
Publié: (2024)
Semantic Adapter for Universal Text Embeddings: Diagnosing and Mitigating Negation Blindness to Enhance Universality
par: Cao, Hongliu
Publié: (2025)
par: Cao, Hongliu
Publié: (2025)
Using LLMs to Discover Legal Factors
par: Gray, Morgan, et autres
Publié: (2024)
par: Gray, Morgan, et autres
Publié: (2024)
Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation
par: Kim, Ireh, et autres
Publié: (2026)
par: Kim, Ireh, et autres
Publié: (2026)
A General Framework for Producing Interpretable Semantic Text Embeddings
par: Sun, Yiqun, et autres
Publié: (2024)
par: Sun, Yiqun, et autres
Publié: (2024)
Attributing Culture-Conditioned Generations to Pretraining Corpora
par: Li, Huihan, et autres
Publié: (2024)
par: Li, Huihan, et autres
Publié: (2024)
NILC: Discovering New Intents with LLM-assisted Clustering
par: Wang, Hongtao, et autres
Publié: (2025)
par: Wang, Hongtao, et autres
Publié: (2025)
TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series
par: Sun, Chenxi, et autres
Publié: (2023)
par: Sun, Chenxi, et autres
Publié: (2023)
DiscoverLLM: From Executing Intents to Discovering Them
par: Kim, Tae Soo, et autres
Publié: (2026)
par: Kim, Tae Soo, et autres
Publié: (2026)
Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models
par: Zhang, Siwei, et autres
Publié: (2025)
par: Zhang, Siwei, et autres
Publié: (2025)
Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
par: Park, Chanwoo, et autres
Publié: (2025)
par: Park, Chanwoo, et autres
Publié: (2025)
PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting
par: Tsai, Yu-Che, et autres
Publié: (2026)
par: Tsai, Yu-Che, et autres
Publié: (2026)
AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora
par: Bai, Jiaxin, et autres
Publié: (2025)
par: Bai, Jiaxin, et autres
Publié: (2025)
Semantic Density Effect (SDE): Maximizing Information Per Token Improves LLM Accuracy
par: Ahmed, Amr
Publié: (2026)
par: Ahmed, Amr
Publié: (2026)
Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex
par: Beiranvand, Azadeh, et autres
Publié: (2025)
par: Beiranvand, Azadeh, et autres
Publié: (2025)
STAGE: Simplified Text-Attributed Graph Embeddings Using Pre-trained LLMs
par: Zolnai-Lucas, Aaron, et autres
Publié: (2024)
par: Zolnai-Lucas, Aaron, et autres
Publié: (2024)
Depth $F_1$: Improving Evaluation of Cross-Domain Text Classification by Measuring Semantic Generalizability
par: Seegmiller, Parker, et autres
Publié: (2024)
par: Seegmiller, Parker, et autres
Publié: (2024)
Bias in Text Embedding Models
par: Rakivnenko, Vasyl, et autres
Publié: (2024)
par: Rakivnenko, Vasyl, et autres
Publié: (2024)
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
par: Huang, Junqin, et autres
Publié: (2024)
par: Huang, Junqin, et autres
Publié: (2024)
Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing
par: Berghaus, David, et autres
Publié: (2025)
par: Berghaus, David, et autres
Publié: (2025)
Position: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning
par: Sun, Yiqun, et autres
Publié: (2025)
par: Sun, Yiqun, et autres
Publié: (2025)
Can Language Models Discover Scaling Laws?
par: Lin, Haowei, et autres
Publié: (2025)
par: Lin, Haowei, et autres
Publié: (2025)
From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings
par: Biton, Dvir David, et autres
Publié: (2026)
par: Biton, Dvir David, et autres
Publié: (2026)
Knots: A Large-Scale Multi-Agent Enhanced Expert-Annotated Dataset and LLM Prompt Optimization for NOTAM Semantic Parsing
par: Liu, Maoqi, et autres
Publié: (2025)
par: Liu, Maoqi, et autres
Publié: (2025)
LLM-Assisted Content Conditional Debiasing for Fair Text Embedding
par: Deng, Wenlong, et autres
Publié: (2024)
par: Deng, Wenlong, et autres
Publié: (2024)
SEFD: Semantic-Enhanced Framework for Detecting LLM-Generated Text
par: He, Weiqing, et autres
Publié: (2024)
par: He, Weiqing, et autres
Publié: (2024)
Documents similaires
-
AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
par: Milička, Jiří, et autres
Publié: (2025) -
Multilingual and Explainable Text Detoxification with Parallel Corpora
par: Dementieva, Daryna, et autres
Publié: (2024) -
From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora
par: Shen, Yingli, et autres
Publié: (2025) -
Estimating Text Similarity based on Semantic Concept Embeddings
par: der Brück, Tim vor, et autres
Publié: (2024) -
Discovering Process-Outcome Credit in Multi-Step LLM Reasoning
par: Wang, Xiangwei, et autres
Publié: (2026)