Enregistré dans:
| Auteurs principaux: | Fernandez, Nigel, Kveton, Branislav, Rossi, Ryan A., Lan, Andrew S., Wang, Zichao |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2509.25426 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Partial Policy Gradients for RL in LLMs
par: Mathur, Puneet, et autres
Publié: (2026)
par: Mathur, Puneet, et autres
Publié: (2026)
Pessimistic Off-Policy Optimization for Learning to Rank
par: Cief, Matej, et autres
Publié: (2022)
par: Cief, Matej, et autres
Publié: (2022)
Learning to Reason in LLMs by Expectation Maximization
par: Lee, Junghyun, et autres
Publié: (2025)
par: Lee, Junghyun, et autres
Publié: (2025)
ML-Tool-Bench: Tool-Augmented Planning for ML Tasks
par: Chittepu, Yaswanth, et autres
Publié: (2025)
par: Chittepu, Yaswanth, et autres
Publié: (2025)
Spectral bandits
par: Kocák, Tomáš, et autres
Publié: (2026)
par: Kocák, Tomáš, et autres
Publié: (2026)
RADAR: Learning to Route with Asymmetry-aware DistAnce Representations
par: Yi, Hang, et autres
Publié: (2026)
par: Yi, Hang, et autres
Publié: (2026)
Calibration-Aware Policy Optimization for Reasoning LLMs
par: Wang, Ziqi, et autres
Publié: (2026)
par: Wang, Ziqi, et autres
Publié: (2026)
An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning
par: Chen, Zui, et autres
Publié: (2024)
par: Chen, Zui, et autres
Publié: (2024)
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models
par: Shen, Yi, et autres
Publié: (2025)
par: Shen, Yi, et autres
Publié: (2025)
Language-Model Prior Overcomes Cold-Start Items
par: Wang, Shiyu, et autres
Publié: (2024)
par: Wang, Shiyu, et autres
Publié: (2024)
Selective Uncertainty Propagation in Offline RL
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)
Optimizing Reasoning Efficiency through Prompt Difficulty Prediction
par: Zhao, Bo, et autres
Publié: (2025)
par: Zhao, Bo, et autres
Publié: (2025)
GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
par: Dipta, Shubhashis Roy, et autres
Publié: (2026)
par: Dipta, Shubhashis Roy, et autres
Publié: (2026)
ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems
par: Zhang, Yiming, et autres
Publié: (2025)
par: Zhang, Yiming, et autres
Publié: (2025)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations
par: Huang, Kaixuan, et autres
Publié: (2025)
par: Huang, Kaixuan, et autres
Publié: (2025)
AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability
par: Yang, Siwei, et autres
Publié: (2024)
par: Yang, Siwei, et autres
Publié: (2024)
KASER: Knowledge-Aligned Student Error Simulator for Open-Ended Coding Tasks
par: Duan, Zhangqi, et autres
Publié: (2026)
par: Duan, Zhangqi, et autres
Publié: (2026)
Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models
par: Yang, Xiao-Wen, et autres
Publié: (2025)
par: Yang, Xiao-Wen, et autres
Publié: (2025)
LookAlike: Consistent Distractor Generation in Math MCQs
par: Parikh, Nisarg, et autres
Publié: (2025)
par: Parikh, Nisarg, et autres
Publié: (2025)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation
par: Wang, Xinyi, et autres
Publié: (2024)
par: Wang, Xinyi, et autres
Publié: (2024)
Towards Reasoning Ability of Small Language Models
par: Srivastava, Gaurav, et autres
Publié: (2025)
par: Srivastava, Gaurav, et autres
Publié: (2025)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?
par: Qu, Yun, et autres
Publié: (2025)
par: Qu, Yun, et autres
Publié: (2025)
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning
par: Singh, Joykirat, et autres
Publié: (2024)
par: Singh, Joykirat, et autres
Publié: (2024)
Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe
par: Thekumparampil, Kiran Koshy, et autres
Publié: (2024)
par: Thekumparampil, Kiran Koshy, et autres
Publié: (2024)
Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
par: Mahrooghi, Ilia, et autres
Publié: (2026)
par: Mahrooghi, Ilia, et autres
Publié: (2026)
RouteHijack: Routing-Aware Attack on Mixture-of-Experts LLMs
par: Xu, Zhiyuan, et autres
Publié: (2026)
par: Xu, Zhiyuan, et autres
Publié: (2026)
The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation
par: Lan, Yifan, et autres
Publié: (2026)
par: Lan, Yifan, et autres
Publié: (2026)
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
par: Kong, Deyang, et autres
Publié: (2025)
par: Kong, Deyang, et autres
Publié: (2025)
Mitigating Overthinking in Large Reasoning Models via Difficulty-aware Reinforcement Learning
par: Wan, Qian, et autres
Publié: (2026)
par: Wan, Qian, et autres
Publié: (2026)
AdvantageFlow: Advantage-Weighted Least Squares for RL in Flow Models
par: Kveton, Branislav, et autres
Publié: (2026)
par: Kveton, Branislav, et autres
Publié: (2026)
MathMixup: Boosting LLM Mathematical Reasoning with Difficulty-Controllable Data Synthesis and Curriculum Learning
par: Li, Xuchen, et autres
Publié: (2026)
par: Li, Xuchen, et autres
Publié: (2026)
On the Reasoning Abilities of Masked Diffusion Language Models
par: Svete, Anej, et autres
Publié: (2025)
par: Svete, Anej, et autres
Publié: (2025)
RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning
par: Hu, Junhao, et autres
Publié: (2025)
par: Hu, Junhao, et autres
Publié: (2025)
Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation
par: Correa, Andrew G. A., et autres
Publié: (2025)
par: Correa, Andrew G. A., et autres
Publié: (2025)
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
par: Liu, Wenhan, et autres
Publié: (2025)
par: Liu, Wenhan, et autres
Publié: (2025)
Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
par: Feng, Wanyong, et autres
Publié: (2025)
par: Feng, Wanyong, et autres
Publié: (2025)
ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
par: Gupta, Sharut, et autres
Publié: (2026)
par: Gupta, Sharut, et autres
Publié: (2026)
Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
par: Deng, Naihao, et autres
Publié: (2024)
par: Deng, Naihao, et autres
Publié: (2024)
Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning
par: Li, Zhen, et autres
Publié: (2025)
par: Li, Zhen, et autres
Publié: (2025)
Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges
par: Quan, Pengrui, et autres
Publié: (2025)
par: Quan, Pengrui, et autres
Publié: (2025)
Documents similaires
-
Partial Policy Gradients for RL in LLMs
par: Mathur, Puneet, et autres
Publié: (2026) -
Pessimistic Off-Policy Optimization for Learning to Rank
par: Cief, Matej, et autres
Publié: (2022) -
Learning to Reason in LLMs by Expectation Maximization
par: Lee, Junghyun, et autres
Publié: (2025) -
ML-Tool-Bench: Tool-Augmented Planning for ML Tasks
par: Chittepu, Yaswanth, et autres
Publié: (2025) -
Spectral bandits
par: Kocák, Tomáš, et autres
Publié: (2026)