:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Zhuang, Haomin, Wang, Xiangqi, Shen, Yili, Cheng, Ying, Zhang, Xiangliang
Format:	Preprint
Publié:	2026
Sujets:	Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2604.01988
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Dual Optimal: Make Your LLM Peer-like with Dignity
par: Wang, Xiangqi, et autres
Publié: (2026)

Driving Reaction Trajectories via Latent Flow Matching
par: Shen, Yili, et autres
Publié: (2026)

Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
par: Zhou, Yujun, et autres
Publié: (2025)

AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills
par: Zhuang, Haomin, et autres
Publié: (2026)

SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?
par: Zhuang, Haomin, et autres
Publié: (2024)

AIRGuard: Guarding Agent Actions with Runtime Authority Control
par: Qin, Suliu, et autres
Publié: (2026)

CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP
par: Yang, Tianyu, et autres
Publié: (2024)

Exploring Multi-Temperature Strategies for Token- and Rollout-Level Control in RLVR
par: Zhuang, Haomin, et autres
Publié: (2025)

Do Transformers Have the Ability for Periodicity Generalization?
par: Liu, Huanyu, et autres
Publié: (2026)

MathArena: Evaluating LLMs on Uncontaminated Math Competitions
par: Balunović, Mislav, et autres
Publié: (2025)

Causally-Enhanced Reinforcement Policy Optimization
par: Wang, Xiangqi, et autres
Publié: (2025)

RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
par: Xu, Linrui, et autres
Publié: (2026)

AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
par: Wang, Xiangqi, et autres
Publié: (2025)

MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions
par: Liang, Zhenwen, et autres
Publié: (2024)

SkillGen: Verified Inference-Time Agent Skill Synthesis
par: Ma, Yuchen, et autres
Publié: (2026)

TaoBench: Do Automated Theorem Prover LLMs Generalize Beyond MathLib?
par: Taylor, Alexander K, et autres
Publié: (2026)

Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?
par: Tak, Ala N., et autres
Publié: (2026)

A Fragile Number Sense: Probing the Elemental Limits of Numerical Reasoning in LLMs
par: Rahman, Roussel, et autres
Publié: (2025)

Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?
par: Fang, Bowen, et autres
Publié: (2025)

Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
par: Wu, Yuyang, et autres
Publié: (2026)

Enabling On-Device LLMs Personalization with Smartphone Sensing
par: Zhang, Shiquan, et autres
Publié: (2024)

Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs
par: Guo, Yanzhu, et autres
Publié: (2024)

AgentSense: LLMs Empower Generalizable and Explainable Web-Based Participatory Urban Sensing
par: Guo, Xusen, et autres
Publié: (2025)

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
par: Karim, Aabid, et autres
Publié: (2025)

Case-Based or Rule-Based: How Do Transformers Do the Math?
par: Hu, Yi, et autres
Publié: (2024)

Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics
par: Lee, Seungbeen, et autres
Publié: (2024)

Heterogeneous Graph Neural Networks with Loss-decrease-aware Curriculum Learning
par: Wang, Yili
Publié: (2024)

DGSense: A Domain Generalization Framework for Wireless Sensing
par: Zhou, Rui, et autres
Publié: (2025)

Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment
par: Chen, Lu, et autres
Publié: (2024)

Reliable Fine-Grained Evaluation of Natural Language Math Proofs
par: Ma, Wenjie, et autres
Publié: (2025)

MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs
par: Zhang, Tianyang, et autres
Publié: (2025)

Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond
par: Guo, Kehan, et autres
Publié: (2025)

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization
par: Sun, Yiyou, et autres
Publié: (2025)

Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments
par: Li, Yuran, et autres
Publié: (2025)

How Do LLMs Use Their Depth?
par: Gupta, Akshat, et autres
Publié: (2025)

AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation
par: Liu, Xianyang, et autres
Publié: (2025)

Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
par: Mahran, Mariam, et autres
Publié: (2025)

CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective
par: Liu, Jiayu, et autres
Publié: (2025)

An Iterative Utility Judgment Framework Inspired by Philosophical Relevance via LLMs
par: Zhang, Hengran, et autres
Publié: (2024)

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts
par: Wang, Peijie, et autres
Publié: (2025)