Enregistré dans:
| Auteurs principaux: | Huang, Yanxing, Tang, Zihan, Lin, Zejin, Li, Peng, Liu, Yang |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.21522 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math
par: Pandit, Shrey, et autres
Publié: (2025)
par: Pandit, Shrey, et autres
Publié: (2025)
Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification
par: Guo, Yuxuan, et autres
Publié: (2024)
par: Guo, Yuxuan, et autres
Publié: (2024)
AI Mathematician: Towards Fully Automated Frontier Mathematical Research
par: Liu, Yuanhang, et autres
Publié: (2025)
par: Liu, Yuanhang, et autres
Publié: (2025)
FormaRL: Enhancing Autoformalization with no Labeled Data
par: Huang, Yanxing, et autres
Publié: (2025)
par: Huang, Yanxing, et autres
Publié: (2025)
A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
par: Wang, Zhanliang, et autres
Publié: (2026)
par: Wang, Zhanliang, et autres
Publié: (2026)
Reverse-Engineered Reasoning for Open-Ended Generation
par: Wang, Haozhe, et autres
Publié: (2025)
par: Wang, Haozhe, et autres
Publié: (2025)
Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses
par: Baral, Sami, et autres
Publié: (2024)
par: Baral, Sami, et autres
Publié: (2024)
O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering
par: Mei, Jianbiao, et autres
Publié: (2025)
par: Mei, Jianbiao, et autres
Publié: (2025)
JADE: Expert-Grounded Dynamic Evaluation for Open-Ended Professional Tasks
par: Lin, Lanbo, et autres
Publié: (2026)
par: Lin, Lanbo, et autres
Publié: (2026)
On Creativity and Open-Endedness
par: Soros, L. B., et autres
Publié: (2024)
par: Soros, L. B., et autres
Publié: (2024)
Pessimistic Auxiliary Policy for Offline Reinforcement Learning
par: Zhang, Fan, et autres
Publié: (2026)
par: Zhang, Fan, et autres
Publié: (2026)
GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
par: Hutson, Dylan, et autres
Publié: (2025)
par: Hutson, Dylan, et autres
Publié: (2025)
MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation
par: Deroy, Aniket, et autres
Publié: (2024)
par: Deroy, Aniket, et autres
Publié: (2024)
MegaMath: Pushing the Limits of Open Math Corpora
par: Zhou, Fan, et autres
Publié: (2025)
par: Zhou, Fan, et autres
Publié: (2025)
Open-Ended Multi-Modal Relational Reasoning for Video Question Answering
par: Luo, Haozheng, et autres
Publié: (2020)
par: Luo, Haozheng, et autres
Publié: (2020)
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
par: Liu, Zihan, et autres
Publié: (2024)
par: Liu, Zihan, et autres
Publié: (2024)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever
par: Li, Hang, et autres
Publié: (2024)
par: Li, Hang, et autres
Publié: (2024)
Tournament-GRPO: Group-Wise Tournament Rewards for Reinforcement Learning in Open-Ended Long-Form Generation
par: Yang, Zixuan, et autres
Publié: (2026)
par: Yang, Zixuan, et autres
Publié: (2026)
Tru-POMDP: Task Planning Under Uncertainty via Tree of Hypotheses and Open-Ended POMDPs
par: Tang, Wenjing, et autres
Publié: (2025)
par: Tang, Wenjing, et autres
Publié: (2025)
AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research
par: Li, Yishan, et autres
Publié: (2026)
par: Li, Yishan, et autres
Publié: (2026)
ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions
par: Van Long, Phuoc Pham, et autres
Publié: (2023)
par: Van Long, Phuoc Pham, et autres
Publié: (2023)
From National Curricula to Cultural Awareness: Constructing Open-Ended Culture-Specific Question Answering Dataset
par: Yoo, Haneul, et autres
Publié: (2026)
par: Yoo, Haneul, et autres
Publié: (2026)
Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation
par: Zhai, Shaopeng, et autres
Publié: (2023)
par: Zhai, Shaopeng, et autres
Publié: (2023)
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
par: Qu, Ao, et autres
Publié: (2026)
par: Qu, Ao, et autres
Publié: (2026)
G-Zero: Self-Play for Open-Ended Generation from Zero Data
par: Huang, Chengsong, et autres
Publié: (2026)
par: Huang, Chengsong, et autres
Publié: (2026)
Pairwise Preference Reward and Group-Based Diversity Enhancement for Superior Open-Ended Generation
par: Cao, Guining, et autres
Publié: (2026)
par: Cao, Guining, et autres
Publié: (2026)
Embodied World Models Emerge from Navigational Task in Open-Ended Environments
par: Jin, Li, et autres
Publié: (2025)
par: Jin, Li, et autres
Publié: (2025)
MiRD: Reliable Set-Valued Prediction for Open-Ended Question Answering via Miscoverage Risk Decomposition
par: Hu, Anqi, et autres
Publié: (2026)
par: Hu, Anqi, et autres
Publié: (2026)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning
par: Chen, Yang, et autres
Publié: (2025)
par: Chen, Yang, et autres
Publié: (2025)
LLM Agents Beyond Utility: An Open-Ended Perspective
par: Nachkov, Asen, et autres
Publié: (2025)
par: Nachkov, Asen, et autres
Publié: (2025)
Safety Must Precede the Deployment of Open-Ended AI
par: Sheth, Ivaxi, et autres
Publié: (2025)
par: Sheth, Ivaxi, et autres
Publié: (2025)
Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
par: Yang, Ting, et autres
Publié: (2025)
par: Yang, Ting, et autres
Publié: (2025)
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks
par: Li, Haotian, et autres
Publié: (2026)
par: Li, Haotian, et autres
Publié: (2026)
GUIDE: A Benchmark for Understanding and Assisting Users in Open-Ended GUI Tasks
par: Yang, Saelyne, et autres
Publié: (2026)
par: Yang, Saelyne, et autres
Publié: (2026)
Open-Endedness is Essential for Artificial Superhuman Intelligence
par: Hughes, Edward, et autres
Publié: (2024)
par: Hughes, Edward, et autres
Publié: (2024)
Conservative DDPG -- Pessimistic RL without Ensemble
par: Soffair, Nitsan, et autres
Publié: (2024)
par: Soffair, Nitsan, et autres
Publié: (2024)
Pessimistic Iterative Planning with RNNs for Robust POMDPs
par: Galesloot, Maris F. L., et autres
Publié: (2024)
par: Galesloot, Maris F. L., et autres
Publié: (2024)
Let's Verify Math Questions Step by Step
par: Shen, Chengyu, et autres
Publié: (2025)
par: Shen, Chengyu, et autres
Publié: (2025)
AI-Assisted Generation of Difficult Math Questions
par: Shah, Vedant, et autres
Publié: (2024)
par: Shah, Vedant, et autres
Publié: (2024)
Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning
par: Bai, Chenjia, et autres
Publié: (2024)
par: Bai, Chenjia, et autres
Publié: (2024)
Documents similaires
-
Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math
par: Pandit, Shrey, et autres
Publié: (2025) -
Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification
par: Guo, Yuxuan, et autres
Publié: (2024) -
AI Mathematician: Towards Fully Automated Frontier Mathematical Research
par: Liu, Yuanhang, et autres
Publié: (2025) -
FormaRL: Enhancing Autoformalization with no Labeled Data
par: Huang, Yanxing, et autres
Publié: (2025) -
A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
par: Wang, Zhanliang, et autres
Publié: (2026)