Gespeichert in:
| Hauptverfasser: | Butt, Natasha, Kwiatkowski, Ariel, Labiad, Ismail, Kempe, Julia, Ollivier, Yann |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2509.19170 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Likelihood-Based Reward Designs for General LLM Reasoning
von: Kwiatkowski, Ariel, et al.
Veröffentlicht: (2026)
von: Kwiatkowski, Ariel, et al.
Veröffentlicht: (2026)
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
von: Sundaram, Shobhita, et al.
Veröffentlicht: (2026)
von: Sundaram, Shobhita, et al.
Veröffentlicht: (2026)
Tuning without Peeking: Provable Generalization Bounds and Robust LLM Post-Training
von: Labiad, Ismail, et al.
Veröffentlicht: (2025)
von: Labiad, Ismail, et al.
Veröffentlicht: (2025)
From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers
von: Su, Jingtong, et al.
Veröffentlicht: (2025)
von: Su, Jingtong, et al.
Veröffentlicht: (2025)
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
von: Su, Jingtong, et al.
Veröffentlicht: (2024)
von: Su, Jingtong, et al.
Veröffentlicht: (2024)
BenchAgents: Multi-Agent Systems for Structured Benchmark Creation
von: Butt, Natasha, et al.
Veröffentlicht: (2024)
von: Butt, Natasha, et al.
Veröffentlicht: (2024)
Embedding Trust: Semantic Isotropy Predicts Nonfactuality in Long-Form Text Generation
von: Bhardwaj, Dhrupad, et al.
Veröffentlicht: (2025)
von: Bhardwaj, Dhrupad, et al.
Veröffentlicht: (2025)
A Tale of Tails: Model Collapse as a Change of Scaling Laws
von: Dohmatob, Elvis, et al.
Veröffentlicht: (2024)
von: Dohmatob, Elvis, et al.
Veröffentlicht: (2024)
Iteration Head: A Mechanistic Study of Chain-of-Thought
von: Cabannes, Vivien, et al.
Veröffentlicht: (2024)
von: Cabannes, Vivien, et al.
Veröffentlicht: (2024)
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay
von: Butt, Natasha, et al.
Veröffentlicht: (2024)
von: Butt, Natasha, et al.
Veröffentlicht: (2024)
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
von: Wei, Zhepei, et al.
Veröffentlicht: (2025)
von: Wei, Zhepei, et al.
Veröffentlicht: (2025)
TruthFlow: Truthful LLM Generation via Representation Flow Correction
von: Wang, Hanyu, et al.
Veröffentlicht: (2025)
von: Wang, Hanyu, et al.
Veröffentlicht: (2025)
TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space
von: Zhang, Shaolei, et al.
Veröffentlicht: (2024)
von: Zhang, Shaolei, et al.
Veröffentlicht: (2024)
The Geometries of Truth Are Orthogonal Across Tasks
von: Azizian, Waiss, et al.
Veröffentlicht: (2025)
von: Azizian, Waiss, et al.
Veröffentlicht: (2025)
AI-Generated Text Detection in Low-Resource Languages: A Case Study on Urdu
von: Ammar, Muhammad, et al.
Veröffentlicht: (2025)
von: Ammar, Muhammad, et al.
Veröffentlicht: (2025)
On Mitigating Code LLM Hallucinations with API Documentation
von: Jain, Nihal, et al.
Veröffentlicht: (2024)
von: Jain, Nihal, et al.
Veröffentlicht: (2024)
Ranking Large Language Models without Ground Truth
von: Dhurandhar, Amit, et al.
Veröffentlicht: (2024)
von: Dhurandhar, Amit, et al.
Veröffentlicht: (2024)
Personas as a Way to Model Truthfulness in Language Models
von: Joshi, Nitish, et al.
Veröffentlicht: (2023)
von: Joshi, Nitish, et al.
Veröffentlicht: (2023)
TokenButler: Token Importance is Predictable
von: Akhauri, Yash, et al.
Veröffentlicht: (2025)
von: Akhauri, Yash, et al.
Veröffentlicht: (2025)
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
von: Liang, Kaiqu, et al.
Veröffentlicht: (2025)
von: Liang, Kaiqu, et al.
Veröffentlicht: (2025)
Overthinking the Truth: Understanding how Language Models Process False Demonstrations
von: Halawi, Danny, et al.
Veröffentlicht: (2023)
von: Halawi, Danny, et al.
Veröffentlicht: (2023)
Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks
von: Gambardella, Andrew, et al.
Veröffentlicht: (2024)
von: Gambardella, Andrew, et al.
Veröffentlicht: (2024)
Lossless Token Sequence Compression via Meta-Tokens
von: Harvill, John, et al.
Veröffentlicht: (2025)
von: Harvill, John, et al.
Veröffentlicht: (2025)
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
von: Li, Kenneth, et al.
Veröffentlicht: (2023)
von: Li, Kenneth, et al.
Veröffentlicht: (2023)
Adversarial Tokenization
von: Geh, Renato Lui, et al.
Veröffentlicht: (2025)
von: Geh, Renato Lui, et al.
Veröffentlicht: (2025)
When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs
von: Wang, Shaowen, et al.
Veröffentlicht: (2025)
von: Wang, Shaowen, et al.
Veröffentlicht: (2025)
Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models
von: Rahman, Subhey Sadi, et al.
Veröffentlicht: (2025)
von: Rahman, Subhey Sadi, et al.
Veröffentlicht: (2025)
Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data
von: Nam, Hyunji, et al.
Veröffentlicht: (2026)
von: Nam, Hyunji, et al.
Veröffentlicht: (2026)
Watermarking Autoregressive Image Generation
von: Jovanović, Nikola, et al.
Veröffentlicht: (2025)
von: Jovanović, Nikola, et al.
Veröffentlicht: (2025)
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
von: Du, Hongzhe, et al.
Veröffentlicht: (2025)
von: Du, Hongzhe, et al.
Veröffentlicht: (2025)
Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies
von: Ovalle, Anaelia, et al.
Veröffentlicht: (2023)
von: Ovalle, Anaelia, et al.
Veröffentlicht: (2023)
Verifier-Backed Hard Problem Generation for Mathematical Reasoning
von: Lai, Yuhang, et al.
Veröffentlicht: (2026)
von: Lai, Yuhang, et al.
Veröffentlicht: (2026)
AttributionBench: How Hard is Automatic Attribution Evaluation?
von: Li, Yifei, et al.
Veröffentlicht: (2024)
von: Li, Yifei, et al.
Veröffentlicht: (2024)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
von: Hase, Peter, et al.
Veröffentlicht: (2024)
von: Hase, Peter, et al.
Veröffentlicht: (2024)
Soft Adaptive Policy Optimization
von: Gao, Chang, et al.
Veröffentlicht: (2025)
von: Gao, Chang, et al.
Veröffentlicht: (2025)
OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
von: Shin, Seungjun, et al.
Veröffentlicht: (2025)
von: Shin, Seungjun, et al.
Veröffentlicht: (2025)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
von: Lin, Zicheng, et al.
Veröffentlicht: (2024)
von: Lin, Zicheng, et al.
Veröffentlicht: (2024)
From Ground Truth to Measurement: A Statistical Framework for Human Labeling
von: Chew, Robert, et al.
Veröffentlicht: (2026)
von: Chew, Robert, et al.
Veröffentlicht: (2026)
Multimodal Medical Code Tokenizer
von: Su, Xiaorui, et al.
Veröffentlicht: (2025)
von: Su, Xiaorui, et al.
Veröffentlicht: (2025)
Learning to Reason with Mixture of Tokens
von: Jain, Adit, et al.
Veröffentlicht: (2025)
von: Jain, Adit, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Likelihood-Based Reward Designs for General LLM Reasoning
von: Kwiatkowski, Ariel, et al.
Veröffentlicht: (2026) -
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
von: Sundaram, Shobhita, et al.
Veröffentlicht: (2026) -
Tuning without Peeking: Provable Generalization Bounds and Robust LLM Post-Training
von: Labiad, Ismail, et al.
Veröffentlicht: (2025) -
From Concepts to Components: Concept-Agnostic Attention Module Discovery in Transformers
von: Su, Jingtong, et al.
Veröffentlicht: (2025) -
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
von: Su, Jingtong, et al.
Veröffentlicht: (2024)