Enregistré dans:
| Auteurs principaux: | Zhuang, Haomin, Wang, Xiangqi, Shen, Yili, Cheng, Ying, Zhang, Xiangliang |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2604.01988 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Dual Optimal: Make Your LLM Peer-like with Dignity
par: Wang, Xiangqi, et autres
Publié: (2026)
par: Wang, Xiangqi, et autres
Publié: (2026)
Driving Reaction Trajectories via Latent Flow Matching
par: Shen, Yili, et autres
Publié: (2026)
par: Shen, Yili, et autres
Publié: (2026)
Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
par: Zhou, Yujun, et autres
Publié: (2025)
par: Zhou, Yujun, et autres
Publié: (2025)
AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills
par: Zhuang, Haomin, et autres
Publié: (2026)
par: Zhuang, Haomin, et autres
Publié: (2026)
SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?
par: Zhuang, Haomin, et autres
Publié: (2024)
par: Zhuang, Haomin, et autres
Publié: (2024)
AIRGuard: Guarding Agent Actions with Runtime Authority Control
par: Qin, Suliu, et autres
Publié: (2026)
par: Qin, Suliu, et autres
Publié: (2026)
CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP
par: Yang, Tianyu, et autres
Publié: (2024)
par: Yang, Tianyu, et autres
Publié: (2024)
Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
par: Zhuang, Haomin, et autres
Publié: (2025)
par: Zhuang, Haomin, et autres
Publié: (2025)
Do Transformers Have the Ability for Periodicity Generalization?
par: Liu, Huanyu, et autres
Publié: (2026)
par: Liu, Huanyu, et autres
Publié: (2026)
MathArena: Evaluating LLMs on Uncontaminated Math Competitions
par: Balunović, Mislav, et autres
Publié: (2025)
par: Balunović, Mislav, et autres
Publié: (2025)
Causally-Enhanced Reinforcement Policy Optimization
par: Wang, Xiangqi, et autres
Publié: (2025)
par: Wang, Xiangqi, et autres
Publié: (2025)
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
par: Xu, Linrui, et autres
Publié: (2026)
par: Xu, Linrui, et autres
Publié: (2026)
AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
par: Wang, Xiangqi, et autres
Publié: (2025)
par: Wang, Xiangqi, et autres
Publié: (2025)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions
par: Liang, Zhenwen, et autres
Publié: (2024)
par: Liang, Zhenwen, et autres
Publié: (2024)
SkillGen: Verified Inference-Time Agent Skill Synthesis
par: Ma, Yuchen, et autres
Publié: (2026)
par: Ma, Yuchen, et autres
Publié: (2026)
TaoBench: Do Automated Theorem Prover LLMs Generalize Beyond MathLib?
par: Taylor, Alexander K, et autres
Publié: (2026)
par: Taylor, Alexander K, et autres
Publié: (2026)
Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?
par: Tak, Ala N., et autres
Publié: (2026)
par: Tak, Ala N., et autres
Publié: (2026)
A Fragile Number Sense: Probing the Elemental Limits of Numerical Reasoning in LLMs
par: Rahman, Roussel, et autres
Publié: (2025)
par: Rahman, Roussel, et autres
Publié: (2025)
Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?
par: Fang, Bowen, et autres
Publié: (2025)
par: Fang, Bowen, et autres
Publié: (2025)
Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
par: Wu, Yuyang, et autres
Publié: (2026)
par: Wu, Yuyang, et autres
Publié: (2026)
Enabling On-Device LLMs Personalization with Smartphone Sensing
par: Zhang, Shiquan, et autres
Publié: (2024)
par: Zhang, Shiquan, et autres
Publié: (2024)
Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs
par: Guo, Yanzhu, et autres
Publié: (2024)
par: Guo, Yanzhu, et autres
Publié: (2024)
AgentSense: LLMs Empower Generalizable and Explainable Web-Based Participatory Urban Sensing
par: Guo, Xusen, et autres
Publié: (2025)
par: Guo, Xusen, et autres
Publié: (2025)
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
par: Karim, Aabid, et autres
Publié: (2025)
par: Karim, Aabid, et autres
Publié: (2025)
Case-Based or Rule-Based: How Do Transformers Do the Math?
par: Hu, Yi, et autres
Publié: (2024)
par: Hu, Yi, et autres
Publié: (2024)
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics
par: Lee, Seungbeen, et autres
Publié: (2024)
par: Lee, Seungbeen, et autres
Publié: (2024)
Heterogeneous Graph Neural Networks with Loss-decrease-aware Curriculum Learning
par: Wang, Yili
Publié: (2024)
par: Wang, Yili
Publié: (2024)
DGSense: A Domain Generalization Framework for Wireless Sensing
par: Zhou, Rui, et autres
Publié: (2025)
par: Zhou, Rui, et autres
Publié: (2025)
Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment
par: Chen, Lu, et autres
Publié: (2024)
par: Chen, Lu, et autres
Publié: (2024)
Reliable Fine-Grained Evaluation of Natural Language Math Proofs
par: Ma, Wenjie, et autres
Publié: (2025)
par: Ma, Wenjie, et autres
Publié: (2025)
MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs
par: Zhang, Tianyang, et autres
Publié: (2025)
par: Zhang, Tianyang, et autres
Publié: (2025)
Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond
par: Guo, Kehan, et autres
Publié: (2025)
par: Guo, Kehan, et autres
Publié: (2025)
OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization
par: Sun, Yiyou, et autres
Publié: (2025)
par: Sun, Yiyou, et autres
Publié: (2025)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments
par: Li, Yuran, et autres
Publié: (2025)
par: Li, Yuran, et autres
Publié: (2025)
How Do LLMs Use Their Depth?
par: Gupta, Akshat, et autres
Publié: (2025)
par: Gupta, Akshat, et autres
Publié: (2025)
AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation
par: Liu, Xianyang, et autres
Publié: (2025)
par: Liu, Xianyang, et autres
Publié: (2025)
Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
par: Mahran, Mariam, et autres
Publié: (2025)
par: Mahran, Mariam, et autres
Publié: (2025)
CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective
par: Liu, Jiayu, et autres
Publié: (2025)
par: Liu, Jiayu, et autres
Publié: (2025)
An Iterative Utility Judgment Framework Inspired by Philosophical Relevance via LLMs
par: Zhang, Hengran, et autres
Publié: (2024)
par: Zhang, Hengran, et autres
Publié: (2024)
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts
par: Wang, Peijie, et autres
Publié: (2025)
par: Wang, Peijie, et autres
Publié: (2025)
Documents similaires
-
Dual Optimal: Make Your LLM Peer-like with Dignity
par: Wang, Xiangqi, et autres
Publié: (2026) -
Driving Reaction Trajectories via Latent Flow Matching
par: Shen, Yili, et autres
Publié: (2026) -
Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
par: Zhou, Yujun, et autres
Publié: (2025) -
AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills
par: Zhuang, Haomin, et autres
Publié: (2026) -
SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?
par: Zhuang, Haomin, et autres
Publié: (2024)