Enregistré dans:
| Auteurs principaux: | Jafari, Nazanin, Allan, James, Iyyer, Mohit |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2604.03141 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Robust Claim Verification Through Fact Detection
par: Jafari, Nazanin, et autres
Publié: (2024)
par: Jafari, Nazanin, et autres
Publié: (2024)
Literary Evidence Retrieval via Long-Context Language Models
par: Thai, Katherine, et autres
Publié: (2025)
par: Thai, Katherine, et autres
Publié: (2025)
Argument Collapse: LLMs Flatten Long-Form Public Debate
par: Kim, Yekyung, et autres
Publié: (2026)
par: Kim, Yekyung, et autres
Publié: (2026)
Suri: Multi-constraint Instruction Following for Long-form Text Generation
par: Pham, Chau Minh, et autres
Publié: (2024)
par: Pham, Chau Minh, et autres
Publié: (2024)
Target Span Detection for Implicit Harmful Content
par: Jafari, Nazanin, et autres
Publié: (2024)
par: Jafari, Nazanin, et autres
Publié: (2024)
VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation
par: Song, Yixiao, et autres
Publié: (2024)
par: Song, Yixiao, et autres
Publié: (2024)
Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation
par: Dejl, Adam, et autres
Publié: (2025)
par: Dejl, Adam, et autres
Publié: (2025)
Localizing and Mitigating Errors in Long-form Question Answering
par: Sachdeva, Rachneet, et autres
Publié: (2024)
par: Sachdeva, Rachneet, et autres
Publié: (2024)
Geometric Factual Recall in Transformers
par: Ravfogel, Shauli, et autres
Publié: (2026)
par: Ravfogel, Shauli, et autres
Publié: (2026)
OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature
par: Srivastava, Alisha, et autres
Publié: (2025)
par: Srivastava, Alisha, et autres
Publié: (2025)
Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs
par: Samuel, Vinay, et autres
Publié: (2026)
par: Samuel, Vinay, et autres
Publié: (2026)
Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation
par: Samarinas, Chris, et autres
Publié: (2025)
par: Samarinas, Chris, et autres
Publié: (2025)
Only Say What You Know: Calibration-Aware Generation for Long-Form Factuality
par: Luo, Wen, et autres
Publié: (2026)
par: Luo, Wen, et autres
Publié: (2026)
LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text
par: Ardestani, MohamamdJavad, et autres
Publié: (2025)
par: Ardestani, MohamamdJavad, et autres
Publié: (2025)
Long$^2$RAG: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall
par: Qi, Zehan, et autres
Publié: (2024)
par: Qi, Zehan, et autres
Publié: (2024)
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
par: Russell, Jenna, et autres
Publié: (2025)
par: Russell, Jenna, et autres
Publié: (2025)
CLIPPER: Compression enables long-context synthetic data generation
par: Pham, Chau Minh, et autres
Publié: (2025)
par: Pham, Chau Minh, et autres
Publié: (2025)
Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images
par: Naseh, Ali, et autres
Publié: (2024)
par: Naseh, Ali, et autres
Publié: (2024)
Evaluating Contextually Mediated Factual Recall in Multilingual Large Language Models
par: Liu, Yihong, et autres
Publié: (2026)
par: Liu, Yihong, et autres
Publié: (2026)
StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall
par: Wu, Yerong, et autres
Publié: (2026)
par: Wu, Yerong, et autres
Publié: (2026)
One ruler to measure them all: Benchmarking multilingual long-context language models
par: Kim, Yekyung, et autres
Publié: (2025)
par: Kim, Yekyung, et autres
Publié: (2025)
EditLens: Quantifying the Extent of AI Editing in Text
par: Thai, Katherine, et autres
Publié: (2025)
par: Thai, Katherine, et autres
Publié: (2025)
Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall
par: Yuan, Jiaqing, et autres
Publié: (2024)
par: Yuan, Jiaqing, et autres
Publié: (2024)
Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations
par: Chiang, Cheng-Han, et autres
Publié: (2024)
par: Chiang, Cheng-Han, et autres
Publié: (2024)
FaStfact: Faster, Stronger Long-Form Factuality Evaluations in LLMs
par: Wan, Yingjia, et autres
Publié: (2025)
par: Wan, Yingjia, et autres
Publié: (2025)
DnDScore: Decontextualization and Decomposition for Factuality Verification in Long-Form Text Generation
par: Wanner, Miriam, et autres
Publié: (2024)
par: Wanner, Miriam, et autres
Publié: (2024)
Frankentext: Stitching random text fragments into long-form narratives
par: Pham, Chau Minh, et autres
Publié: (2025)
par: Pham, Chau Minh, et autres
Publié: (2025)
All Claims Are Equal, but Some Claims Are More Equal Than Others: Importance-Sensitive Factuality Evaluation of LLM Generations
par: Wanner, Miriam, et autres
Publié: (2025)
par: Wanner, Miriam, et autres
Publié: (2025)
Contextualized Evaluations: Judging Language Model Responses to Underspecified Queries
par: Malaviya, Chaitanya, et autres
Publié: (2024)
par: Malaviya, Chaitanya, et autres
Publié: (2024)
Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline
par: Lu, Meng, et autres
Publié: (2025)
par: Lu, Meng, et autres
Publié: (2025)
How Does Response Length Affect Long-Form Factuality
par: Zhao, James Xu, et autres
Publié: (2025)
par: Zhao, James Xu, et autres
Publié: (2025)
Beyond Factual QA: Mentorship-Oriented Question Answering over Long-Form Multilingual Content
par: Bhalerao, Parth, et autres
Publié: (2026)
par: Bhalerao, Parth, et autres
Publié: (2026)
Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration
par: Liu, Xin, et autres
Publié: (2026)
par: Liu, Xin, et autres
Publié: (2026)
Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown
par: Tu, Lifu, et autres
Publié: (2024)
par: Tu, Lifu, et autres
Publié: (2024)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs
par: Chang, Yapei, et autres
Publié: (2023)
par: Chang, Yapei, et autres
Publié: (2023)
VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts
par: Liu, Xin, et autres
Publié: (2025)
par: Liu, Xin, et autres
Publié: (2025)
Whose story is it? Personalizing story generation by inferring author styles
par: Kumar, Nischal Ashok, et autres
Publié: (2025)
par: Kumar, Nischal Ashok, et autres
Publié: (2025)
VeriFastScore: Speeding up long-form factuality evaluation
par: Rajendhran, Rishanth, et autres
Publié: (2025)
par: Rajendhran, Rishanth, et autres
Publié: (2025)
ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall
par: Yang, Jiayu, et autres
Publié: (2025)
par: Yang, Jiayu, et autres
Publié: (2025)
Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
par: Hastuti, Rochana Prih, et autres
Publié: (2025)
par: Hastuti, Rochana Prih, et autres
Publié: (2025)
Documents similaires
-
Robust Claim Verification Through Fact Detection
par: Jafari, Nazanin, et autres
Publié: (2024) -
Literary Evidence Retrieval via Long-Context Language Models
par: Thai, Katherine, et autres
Publié: (2025) -
Argument Collapse: LLMs Flatten Long-Form Public Debate
par: Kim, Yekyung, et autres
Publié: (2026) -
Suri: Multi-constraint Instruction Following for Long-form Text Generation
par: Pham, Chau Minh, et autres
Publié: (2024) -
Target Span Detection for Implicit Harmful Content
par: Jafari, Nazanin, et autres
Publié: (2024)