:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Sohn, Jiwoong, Sternal, Tomasz, Styppa, Kenneth, Hoefler, Torsten, Moor, Michael
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.09482
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling
di: Xiao, Qiao, et al.
Pubblicazione: (2026)

When Data Is Scarce: Scaling Sparse Language Models with Repeated Training
di: Wu, Boqian, et al.
Pubblicazione: (2026)

Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models
di: Jeong, Minbyul, et al.
Pubblicazione: (2024)

Reasoning Language Models: A Blueprint
di: Besta, Maciej, et al.
Pubblicazione: (2025)

Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge
di: Plecko, Drago, et al.
Pubblicazione: (2025)

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
di: Tang, Xiangru, et al.
Pubblicazione: (2025)

SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
di: Limozin, Alexis, et al.
Pubblicazione: (2026)

AgentRxiv: Towards Collaborative Autonomous Research
di: Schmidgall, Samuel, et al.
Pubblicazione: (2025)

AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts
di: Park, Kwangsuk, et al.
Pubblicazione: (2025)

KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA
di: Su, Xiaorui, et al.
Pubblicazione: (2024)

Compute Allocation for Reasoning-Intensive Retrieval Agents
di: Apparaju, Sreeja, et al.
Pubblicazione: (2026)

Verifiable Process Rewards for Agentic Reasoning
di: Yuan, Huining, et al.
Pubblicazione: (2026)

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
di: Zhang, Yao, et al.
Pubblicazione: (2026)

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing
di: Mao, Qinghua, et al.
Pubblicazione: (2026)

Confounder Detection via Treatment Intent: A New Observational Study Design
di: Plecko, Drago, et al.
Pubblicazione: (2026)

FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning
di: Deng, Shuangyan, et al.
Pubblicazione: (2025)

Exploring Reasoning Reward Model for Agents
di: Fan, Kaixuan, et al.
Pubblicazione: (2026)

REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
di: Ye, Kai, et al.
Pubblicazione: (2026)

Latent Reward Steering: An Adaptive Inference-Time Framework that Implicitly Promotes Cognitive Behaviors in Reasoning LLMs
di: Li, Jiakang, et al.
Pubblicazione: (2026)

Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning
di: Hu, Yulan, et al.
Pubblicazione: (2025)

Rewarding Structural Conformance of Reasoning using Process Mining
di: Lee, Yongjae, et al.
Pubblicazione: (2025)

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
di: Liu, Xiao, et al.
Pubblicazione: (2025)

GUI-PRA: Process Reward Agent for GUI Tasks
di: Xiong, Tao, et al.
Pubblicazione: (2025)

Advancing Reasoning in Diffusion Language Models with Denoising Process Rewards
di: Xie, Shaoan, et al.
Pubblicazione: (2025)

Making Sense of Knowledge Intensive Processes: an Oil & Gas Industry Scenario
di: Ferreira, Juliana Jansen, et al.
Pubblicazione: (2024)

Meta-RL Induces Exploration in Language Agents
di: Jiang, Yulun, et al.
Pubblicazione: (2025)

Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
di: Yun, Jaehoon, et al.
Pubblicazione: (2025)

Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
di: Choi, Changin, et al.
Pubblicazione: (2025)

KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding
di: Ma, Xinyu, et al.
Pubblicazione: (2025)

LLM Reasoning with Process Rewards for Outcome-Guided Steps
di: Rezaei, Mohammad, et al.
Pubblicazione: (2026)

PRO-CUA: Process-Reward Optimization for Computer Use Agents
di: He, Yifei, et al.
Pubblicazione: (2026)

Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning
di: Yang, Zhaohui, et al.
Pubblicazione: (2025)

Multimodal Reranking for Knowledge-Intensive Visual Question Answering
di: Wen, Haoyang, et al.
Pubblicazione: (2024)

MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning
di: Su, Crystal
Pubblicazione: (2025)

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
di: Jiang, Yulun, et al.
Pubblicazione: (2025)

MASPRM: Multi-Agent System Process Reward Model
di: Yazdani, Milad, et al.
Pubblicazione: (2025)

Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
di: Yang, Pei, et al.
Pubblicazione: (2025)

Enhancing Multi-Hop Knowledge Graph Reasoning through Reward Shaping Techniques
di: Li, Chen, et al.
Pubblicazione: (2024)

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
di: Zhao, James Xu, et al.
Pubblicazione: (2025)

SmartSearch: Process Reward-Guided Query Refinement for Search Agents
di: Wen, Tongyu, et al.
Pubblicazione: (2026)