:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Fernandez, Nigel, Kveton, Branislav, Rossi, Ryan A., Lan, Andrew S., Wang, Zichao
Format:	Preprint
Publié:	2025
Sujets:	Artificial Intelligence Machine Learning
Accès en ligne:	https://arxiv.org/abs/2509.25426
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Partial Policy Gradients for RL in LLMs
par: Mathur, Puneet, et autres
Publié: (2026)

Pessimistic Off-Policy Optimization for Learning to Rank
par: Cief, Matej, et autres
Publié: (2022)

Learning to Reason in LLMs by Expectation Maximization
par: Lee, Junghyun, et autres
Publié: (2025)

ML-Tool-Bench: Tool-Augmented Planning for ML Tasks
par: Chittepu, Yaswanth, et autres
Publié: (2025)

Spectral bandits
par: Kocák, Tomáš, et autres
Publié: (2026)

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations
par: Yi, Hang, et autres
Publié: (2026)

Calibration-Aware Policy Optimization for Reasoning LLMs
par: Wang, Ziqi, et autres
Publié: (2026)

An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning
par: Chen, Zui, et autres
Publié: (2024)

DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models
par: Shen, Yi, et autres
Publié: (2025)

Language-Model Prior Overcomes Cold-Start Items
par: Wang, Shiyu, et autres
Publié: (2024)

Selective Uncertainty Propagation in Offline RL
par: Krishnamurthy, Sanath Kumar, et autres
Publié: (2023)

Optimizing Reasoning Efficiency through Prompt Difficulty Prediction
par: Zhao, Bo, et autres
Publié: (2025)

GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
par: Dipta, Shubhashis Roy, et autres
Publié: (2026)

ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems
par: Zhang, Yiming, et autres
Publié: (2025)

MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations
par: Huang, Kaixuan, et autres
Publié: (2025)

AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability
par: Yang, Siwei, et autres
Publié: (2024)

KASER: Knowledge-Aligned Student Error Simulator for Open-Ended Coding Tasks
par: Duan, Zhangqi, et autres
Publié: (2026)

Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models
par: Yang, Xiao-Wen, et autres
Publié: (2025)

LookAlike: Consistent Distractor Generation in Math MCQs
par: Parikh, Nisarg, et autres
Publié: (2025)

Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation
par: Wang, Xinyi, et autres
Publié: (2024)

Towards Reasoning Ability of Small Language Models
par: Srivastava, Gaurav, et autres
Publié: (2025)

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?
par: Qu, Yun, et autres
Publié: (2025)

Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning
par: Singh, Joykirat, et autres
Publié: (2024)

Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe
par: Thekumparampil, Kiran Koshy, et autres
Publié: (2024)

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
par: Mahrooghi, Ilia, et autres
Publié: (2026)

RouteHijack: Routing-Aware Attack on Mixture-of-Experts LLMs
par: Xu, Zhiyuan, et autres
Publié: (2026)

The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation
par: Lan, Yifan, et autres
Publié: (2026)

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective
par: Kong, Deyang, et autres
Publié: (2025)

Mitigating Overthinking in Large Reasoning Models via Difficulty-aware Reinforcement Learning
par: Wan, Qian, et autres
Publié: (2026)

AdvantageFlow: Advantage-Weighted Least Squares for RL in Flow Models
par: Kveton, Branislav, et autres
Publié: (2026)

MathMixup: Boosting LLM Mathematical Reasoning with Difficulty-Controllable Data Synthesis and Curriculum Learning
par: Li, Xuchen, et autres
Publié: (2026)

On the Reasoning Abilities of Masked Diffusion Language Models
par: Svete, Anej, et autres
Publié: (2025)

RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning
par: Hu, Junhao, et autres
Publié: (2025)

Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation
par: Correa, Andrew G. A., et autres
Publié: (2025)

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
par: Liu, Wenhan, et autres
Publié: (2025)

Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
par: Feng, Wanyong, et autres
Publié: (2025)

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
par: Gupta, Sharut, et autres
Publié: (2026)

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
par: Deng, Naihao, et autres
Publié: (2024)

Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning
par: Li, Zhen, et autres
Publié: (2025)

Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges
par: Quan, Pengrui, et autres
Publié: (2025)