Enregistré dans:
| Auteurs principaux: | You, Lei, Cao, Lele, Gurevych, Iryna |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2601.16909 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
PeerQA: A Scientific Question Answering Dataset from Peer Reviews
par: Baumgärtner, Tim, et autres
Publié: (2025)
par: Baumgärtner, Tim, et autres
Publié: (2025)
The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors
par: Sadallah, Abdelrahman, et autres
Publié: (2025)
par: Sadallah, Abdelrahman, et autres
Publié: (2025)
Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities
par: Mandal, Aishik, et autres
Publié: (2025)
par: Mandal, Aishik, et autres
Publié: (2025)
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
par: Baumgärtner, Tim, et autres
Publié: (2026)
par: Baumgärtner, Tim, et autres
Publié: (2026)
A Comprehensive Review of Datasets for Clinical Mental Health AI Systems
par: Mandal, Aishik, et autres
Publié: (2025)
par: Mandal, Aishik, et autres
Publié: (2025)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors
par: Daheim, Nico, et autres
Publié: (2024)
par: Daheim, Nico, et autres
Publié: (2024)
$\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection
par: Orel, Daniil, et autres
Publié: (2025)
par: Orel, Daniil, et autres
Publié: (2025)
Towards Automated Error Discovery: A Study in Conversational AI
par: Petrak, Dominic, et autres
Publié: (2025)
par: Petrak, Dominic, et autres
Publié: (2025)
Joint Distribution-Informed Shapley Values for Sparse Counterfactual Explanations
par: You, Lei, et autres
Publié: (2024)
par: You, Lei, et autres
Publié: (2024)
Auditing Language Model Unlearning via Information Decomposition
par: Goel, Anmol, et autres
Publié: (2026)
par: Goel, Anmol, et autres
Publié: (2026)
Aletheia: What Makes RLVR For Code Verifiers Tick?
par: Venkatkrishna, Vatsal, et autres
Publié: (2026)
par: Venkatkrishna, Vatsal, et autres
Publié: (2026)
Preemptive Detection and Correction of Misaligned Actions in LLM Agents
par: Fang, Haishuo, et autres
Publié: (2024)
par: Fang, Haishuo, et autres
Publié: (2024)
MAGneT: Coordinated Multi-Agent Generation of Synthetic Multi-Turn Mental Health Counseling Sessions
par: Mandal, Aishik, et autres
Publié: (2025)
par: Mandal, Aishik, et autres
Publié: (2025)
Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling
par: Tamoyan, Hovhannes, et autres
Publié: (2025)
par: Tamoyan, Hovhannes, et autres
Publié: (2025)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators
par: Paul, Indraneil, et autres
Publié: (2024)
par: Paul, Indraneil, et autres
Publié: (2024)
Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification
par: Feng, Yunzhen, et autres
Publié: (2024)
par: Feng, Yunzhen, et autres
Publié: (2024)
Distributional Counterfactual Explanations With Optimal Transport
par: You, Lei, et autres
Publié: (2024)
par: You, Lei, et autres
Publié: (2024)
Multimodal Large Language Models to Support Real-World Fact-Checking
par: Geng, Jiahui, et autres
Publié: (2024)
par: Geng, Jiahui, et autres
Publié: (2024)
In-depth Research Impact Summarization through Fine-Grained Temporal Citation Analysis
par: Arnaout, Hiba, et autres
Publié: (2025)
par: Arnaout, Hiba, et autres
Publié: (2025)
Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting
par: Beck, Tilman, et autres
Publié: (2023)
par: Beck, Tilman, et autres
Publié: (2023)
FIRE: Fact-checking with Iterative Retrieval and Verification
par: Xie, Zhuohan, et autres
Publié: (2024)
par: Xie, Zhuohan, et autres
Publié: (2024)
Identifying Aspects in Peer Reviews
par: Lu, Sheng, et autres
Publié: (2025)
par: Lu, Sheng, et autres
Publié: (2025)
CORE-T: COherent REtrieval of Tables for Text-to-SQL
par: Soliman, Hassan, et autres
Publié: (2026)
par: Soliman, Hassan, et autres
Publié: (2026)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling
par: Rizvi, Md Imbesat Hassan, et autres
Publié: (2025)
par: Rizvi, Md Imbesat Hassan, et autres
Publié: (2025)
SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models
par: Rizvi, Md Imbesat Hassan, et autres
Publié: (2024)
par: Rizvi, Md Imbesat Hassan, et autres
Publié: (2024)
Uncertainty-Aware Decoding with Minimum Bayes Risk
par: Daheim, Nico, et autres
Publié: (2025)
par: Daheim, Nico, et autres
Publié: (2025)
Commitment Checklist: Auditing Author Commitments in Peer Review
par: Chen, Chung-Chi, et autres
Publié: (2026)
par: Chen, Chung-Chi, et autres
Publié: (2026)
From Leaky Thoughts to Private Reasoning: Controlling What LRMs Say to Themselves
par: Puerto, Haritz, et autres
Publié: (2026)
par: Puerto, Haritz, et autres
Publié: (2026)
Hypothesis-Driven Feature Manifold Analysis in LLMs via Supervised Multi-Dimensional Scaling
par: Tiblias, Federico, et autres
Publié: (2025)
par: Tiblias, Federico, et autres
Publié: (2025)
FactReview: Evidence-Grounded Peer Review with Execution-Based Claim Verification
par: Yue, Ling, et autres
Publié: (2026)
par: Yue, Ling, et autres
Publié: (2026)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning
par: Niu, Jingcheng, et autres
Publié: (2025)
par: Niu, Jingcheng, et autres
Publié: (2025)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation
par: Li, Haau-Sing, et autres
Publié: (2024)
par: Li, Haau-Sing, et autres
Publié: (2024)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding
par: Paul, Indraneil, et autres
Publié: (2025)
par: Paul, Indraneil, et autres
Publié: (2025)
AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot
par: Biswas, Joydeep, et autres
Publié: (2026)
par: Biswas, Joydeep, et autres
Publié: (2026)
Saarthi: The First AI Formal Verification Engineer
par: Kumar, Aman, et autres
Publié: (2025)
par: Kumar, Aman, et autres
Publié: (2025)
Using Large Language Models to Create Personalized Networks From Therapy Sessions
par: Ong, Clarissa W., et autres
Publié: (2025)
par: Ong, Clarissa W., et autres
Publié: (2025)
RIRAG: Regulatory Information Retrieval and Answer Generation
par: Gokhan, Tuba, et autres
Publié: (2024)
par: Gokhan, Tuba, et autres
Publié: (2024)
How to Weight Multitask Finetuning? Fast Previews via Bayesian Model-Merging
par: Maldonado, Hugo Monzón, et autres
Publié: (2024)
par: Maldonado, Hugo Monzón, et autres
Publié: (2024)
A Survey of Confidence Estimation and Calibration in Large Language Models
par: Geng, Jiahui, et autres
Publié: (2023)
par: Geng, Jiahui, et autres
Publié: (2023)
Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future
par: Wu, Sihong, et autres
Publié: (2026)
par: Wu, Sihong, et autres
Publié: (2026)
Documents similaires
-
PeerQA: A Scientific Question Answering Dataset from Peer Reviews
par: Baumgärtner, Tim, et autres
Publié: (2025) -
The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors
par: Sadallah, Abdelrahman, et autres
Publié: (2025) -
Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities
par: Mandal, Aishik, et autres
Publié: (2025) -
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
par: Baumgärtner, Tim, et autres
Publié: (2026) -
A Comprehensive Review of Datasets for Clinical Mental Health AI Systems
par: Mandal, Aishik, et autres
Publié: (2025)