Salvato in:
| Autori principali: | Sohn, Jiwoong, Sternal, Tomasz, Styppa, Kenneth, Hoefler, Torsten, Moor, Michael |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2604.09482 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling
di: Xiao, Qiao, et al.
Pubblicazione: (2026)
di: Xiao, Qiao, et al.
Pubblicazione: (2026)
When Data Is Scarce: Scaling Sparse Language Models with Repeated Training
di: Wu, Boqian, et al.
Pubblicazione: (2026)
di: Wu, Boqian, et al.
Pubblicazione: (2026)
Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models
di: Jeong, Minbyul, et al.
Pubblicazione: (2024)
di: Jeong, Minbyul, et al.
Pubblicazione: (2024)
Reasoning Language Models: A Blueprint
di: Besta, Maciej, et al.
Pubblicazione: (2025)
di: Besta, Maciej, et al.
Pubblicazione: (2025)
Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge
di: Plecko, Drago, et al.
Pubblicazione: (2025)
di: Plecko, Drago, et al.
Pubblicazione: (2025)
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning
di: Tang, Xiangru, et al.
Pubblicazione: (2025)
di: Tang, Xiangru, et al.
Pubblicazione: (2025)
SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
di: Limozin, Alexis, et al.
Pubblicazione: (2026)
di: Limozin, Alexis, et al.
Pubblicazione: (2026)
AgentRxiv: Towards Collaborative Autonomous Research
di: Schmidgall, Samuel, et al.
Pubblicazione: (2025)
di: Schmidgall, Samuel, et al.
Pubblicazione: (2025)
AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts
di: Park, Kwangsuk, et al.
Pubblicazione: (2025)
di: Park, Kwangsuk, et al.
Pubblicazione: (2025)
KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA
di: Su, Xiaorui, et al.
Pubblicazione: (2024)
di: Su, Xiaorui, et al.
Pubblicazione: (2024)
Compute Allocation for Reasoning-Intensive Retrieval Agents
di: Apparaju, Sreeja, et al.
Pubblicazione: (2026)
di: Apparaju, Sreeja, et al.
Pubblicazione: (2026)
Verifiable Process Rewards for Agentic Reasoning
di: Yuan, Huining, et al.
Pubblicazione: (2026)
di: Yuan, Huining, et al.
Pubblicazione: (2026)
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
di: Zhang, Yao, et al.
Pubblicazione: (2026)
di: Zhang, Yao, et al.
Pubblicazione: (2026)
Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing
di: Mao, Qinghua, et al.
Pubblicazione: (2026)
di: Mao, Qinghua, et al.
Pubblicazione: (2026)
Confounder Detection via Treatment Intent: A New Observational Study Design
di: Plecko, Drago, et al.
Pubblicazione: (2026)
di: Plecko, Drago, et al.
Pubblicazione: (2026)
FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning
di: Deng, Shuangyan, et al.
Pubblicazione: (2025)
di: Deng, Shuangyan, et al.
Pubblicazione: (2025)
Exploring Reasoning Reward Model for Agents
di: Fan, Kaixuan, et al.
Pubblicazione: (2026)
di: Fan, Kaixuan, et al.
Pubblicazione: (2026)
REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
di: Ye, Kai, et al.
Pubblicazione: (2026)
di: Ye, Kai, et al.
Pubblicazione: (2026)
Latent Reward Steering: An Adaptive Inference-Time Framework that Implicitly Promotes Cognitive Behaviors in Reasoning LLMs
di: Li, Jiakang, et al.
Pubblicazione: (2026)
di: Li, Jiakang, et al.
Pubblicazione: (2026)
Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning
di: Hu, Yulan, et al.
Pubblicazione: (2025)
di: Hu, Yulan, et al.
Pubblicazione: (2025)
Rewarding Structural Conformance of Reasoning using Process Mining
di: Lee, Yongjae, et al.
Pubblicazione: (2025)
di: Lee, Yongjae, et al.
Pubblicazione: (2025)
RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
di: Liu, Xiao, et al.
Pubblicazione: (2025)
di: Liu, Xiao, et al.
Pubblicazione: (2025)
GUI-PRA: Process Reward Agent for GUI Tasks
di: Xiong, Tao, et al.
Pubblicazione: (2025)
di: Xiong, Tao, et al.
Pubblicazione: (2025)
Advancing Reasoning in Diffusion Language Models with Denoising Process Rewards
di: Xie, Shaoan, et al.
Pubblicazione: (2025)
di: Xie, Shaoan, et al.
Pubblicazione: (2025)
Making Sense of Knowledge Intensive Processes: an Oil & Gas Industry Scenario
di: Ferreira, Juliana Jansen, et al.
Pubblicazione: (2024)
di: Ferreira, Juliana Jansen, et al.
Pubblicazione: (2024)
Meta-RL Induces Exploration in Language Agents
di: Jiang, Yulun, et al.
Pubblicazione: (2025)
di: Jiang, Yulun, et al.
Pubblicazione: (2025)
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
di: Yun, Jaehoon, et al.
Pubblicazione: (2025)
di: Yun, Jaehoon, et al.
Pubblicazione: (2025)
Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
di: Choi, Changin, et al.
Pubblicazione: (2025)
di: Choi, Changin, et al.
Pubblicazione: (2025)
KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding
di: Ma, Xinyu, et al.
Pubblicazione: (2025)
di: Ma, Xinyu, et al.
Pubblicazione: (2025)
LLM Reasoning with Process Rewards for Outcome-Guided Steps
di: Rezaei, Mohammad, et al.
Pubblicazione: (2026)
di: Rezaei, Mohammad, et al.
Pubblicazione: (2026)
PRO-CUA: Process-Reward Optimization for Computer Use Agents
di: He, Yifei, et al.
Pubblicazione: (2026)
di: He, Yifei, et al.
Pubblicazione: (2026)
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning
di: Yang, Zhaohui, et al.
Pubblicazione: (2025)
di: Yang, Zhaohui, et al.
Pubblicazione: (2025)
Multimodal Reranking for Knowledge-Intensive Visual Question Answering
di: Wen, Haoyang, et al.
Pubblicazione: (2024)
di: Wen, Haoyang, et al.
Pubblicazione: (2024)
MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning
di: Su, Crystal
Pubblicazione: (2025)
di: Su, Crystal
Pubblicazione: (2025)
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
di: Jiang, Yulun, et al.
Pubblicazione: (2025)
di: Jiang, Yulun, et al.
Pubblicazione: (2025)
MASPRM: Multi-Agent System Process Reward Model
di: Yazdani, Milad, et al.
Pubblicazione: (2025)
di: Yazdani, Milad, et al.
Pubblicazione: (2025)
Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
di: Yang, Pei, et al.
Pubblicazione: (2025)
di: Yang, Pei, et al.
Pubblicazione: (2025)
Enhancing Multi-Hop Knowledge Graph Reasoning through Reward Shaping Techniques
di: Li, Chen, et al.
Pubblicazione: (2024)
di: Li, Chen, et al.
Pubblicazione: (2024)
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
di: Zhao, James Xu, et al.
Pubblicazione: (2025)
di: Zhao, James Xu, et al.
Pubblicazione: (2025)
SmartSearch: Process Reward-Guided Query Refinement for Search Agents
di: Wen, Tongyu, et al.
Pubblicazione: (2026)
di: Wen, Tongyu, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling
di: Xiao, Qiao, et al.
Pubblicazione: (2026) -
When Data Is Scarce: Scaling Sparse Language Models with Repeated Training
di: Wu, Boqian, et al.
Pubblicazione: (2026) -
Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models
di: Jeong, Minbyul, et al.
Pubblicazione: (2024) -
Reasoning Language Models: A Blueprint
di: Besta, Maciej, et al.
Pubblicazione: (2025) -
Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge
di: Plecko, Drago, et al.
Pubblicazione: (2025)