Enregistré dans:
| Auteurs principaux: | Chen, Yuxiang, Liang, Dingli, Chen, Yihang, Gong, Ziqin, Le, Chenyang, Wang, Zhaokai, Zhu, Jiachen, Yang, Lingyu, Lin, Jianghao, Zhang, Weinan, Wang, Jun |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2605.12058 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
par: Zhu, Jiachen, et autres
Publié: (2026)
par: Zhu, Jiachen, et autres
Publié: (2026)
Looking Ahead to Avoid Being Late: Solving Hard-Constrained Traveling Salesman Problem
par: Chen, Jingxiao, et autres
Publié: (2024)
par: Chen, Jingxiao, et autres
Publié: (2024)
CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning
par: Zheng, Congmin, et autres
Publié: (2025)
par: Zheng, Congmin, et autres
Publié: (2025)
The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design
par: Liu, Anjie, et autres
Publié: (2026)
par: Liu, Anjie, et autres
Publié: (2026)
Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning
par: Zhu, Jiachen, et autres
Publié: (2025)
par: Zhu, Jiachen, et autres
Publié: (2025)
Full-Stack Optimized Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation
par: Shan, Rong, et autres
Publié: (2025)
par: Shan, Rong, et autres
Publié: (2025)
A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models
par: Zheng, Congmin, et autres
Publié: (2025)
par: Zheng, Congmin, et autres
Publié: (2025)
Reinforcing Language Agents via Policy Optimization with Action Decomposition
par: Wen, Muning, et autres
Publié: (2024)
par: Wen, Muning, et autres
Publié: (2024)
Stop DDoS Attacking the Research Community with AI-Generated Survey Papers
par: Lin, Jianghao, et autres
Publié: (2025)
par: Lin, Jianghao, et autres
Publié: (2025)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation
par: Zhu, Jiachen, et autres
Publié: (2024)
par: Zhu, Jiachen, et autres
Publié: (2024)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement
par: Wen, Muning, et autres
Publié: (2024)
par: Wen, Muning, et autres
Publié: (2024)
Superplatforms Have to Attack AI Agents
par: Lin, Jianghao, et autres
Publié: (2025)
par: Lin, Jianghao, et autres
Publié: (2025)
InvEvolve: Evolving White-Box Inventory Policies via Large Language Models with Performance Guarantees
par: Huang, Chenyu, et autres
Publié: (2026)
par: Huang, Chenyu, et autres
Publié: (2026)
Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport
par: Sun, Mingyang, et autres
Publié: (2025)
par: Sun, Mingyang, et autres
Publié: (2025)
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation
par: Wang, Hangyu, et autres
Publié: (2024)
par: Wang, Hangyu, et autres
Publié: (2024)
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
par: Wang, Jun, et autres
Publié: (2024)
par: Wang, Jun, et autres
Publié: (2024)
A Survey on Diffusion Models for Recommender Systems
par: Lin, Jianghao, et autres
Publié: (2024)
par: Lin, Jianghao, et autres
Publié: (2024)
Memento-Skills: Let Agents Design Agents
par: Zhou, Huichi, et autres
Publié: (2026)
par: Zhou, Huichi, et autres
Publié: (2026)
AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing
par: Fu, Lingyue, et autres
Publié: (2025)
par: Fu, Lingyue, et autres
Publié: (2025)
Learning to Optimise Climate Sensor Placement using a Transformer
par: Wang, Chen, et autres
Publié: (2023)
par: Wang, Chen, et autres
Publié: (2023)
Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents
par: Wang, Jingxing, et autres
Publié: (2026)
par: Wang, Jingxing, et autres
Publié: (2026)
SPO: Sequential Monte Carlo Policy Optimisation
par: Macfarlane, Matthew V, et autres
Publié: (2024)
par: Macfarlane, Matthew V, et autres
Publié: (2024)
Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning
par: Gao, Chen-Xiao, et autres
Publié: (2025)
par: Gao, Chen-Xiao, et autres
Publié: (2025)
Order-Preserving GFlowNets
par: Chen, Yihang, et autres
Publié: (2023)
par: Chen, Yihang, et autres
Publié: (2023)
Oscillation-Reduced MXFP4 Training for Vision Transformers
par: Chen, Yuxiang, et autres
Publié: (2025)
par: Chen, Yuxiang, et autres
Publié: (2025)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction
par: Wang, Hangyu, et autres
Publié: (2023)
par: Wang, Hangyu, et autres
Publié: (2023)
Adaptive Milestone Reward for GUI Agents
par: Zheng, Congmin, et autres
Publié: (2026)
par: Zheng, Congmin, et autres
Publié: (2026)
Mirror Learning: A Unifying Framework of Policy Optimisation
par: Kuba, Jakub Grudzien, et autres
Publié: (2022)
par: Kuba, Jakub Grudzien, et autres
Publié: (2022)
Variational Delayed Policy Optimization
par: Wu, Qingyuan, et autres
Publié: (2024)
par: Wu, Qingyuan, et autres
Publié: (2024)
Hierarchical Decision Making Based on Structural Information Principles
par: Zeng, Xianghua, et autres
Publié: (2024)
par: Zeng, Xianghua, et autres
Publié: (2024)
Unveiling the Inflexibility of Adaptive Embedding in Traffic Forecasting
par: Wang, Hongjun, et autres
Publié: (2024)
par: Wang, Hongjun, et autres
Publié: (2024)
Diffusion-based Graph Generative Methods
par: Chen, Hongyang, et autres
Publié: (2024)
par: Chen, Hongyang, et autres
Publié: (2024)
FINED: Feed Instance-Wise Information Need with Essential and Disentangled Parametric Knowledge from the Past
par: Du, Kounianhua, et autres
Publié: (2024)
par: Du, Kounianhua, et autres
Publié: (2024)
Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning
par: Yao, Yihang, et autres
Publié: (2023)
par: Yao, Yihang, et autres
Publié: (2023)
Position: Academic Conferences are Potentially Facing Denominator Gaming Caused by Fully Automated Scientific Agents
par: Shan, Rong, et autres
Publié: (2026)
par: Shan, Rong, et autres
Publié: (2026)
PADiff: Predictive and Adaptive Diffusion Policies for Ad Hoc Teamwork
par: Chan, Hohei, et autres
Publié: (2025)
par: Chan, Hohei, et autres
Publié: (2025)
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning
par: Zhang, Tianle, et autres
Publié: (2024)
par: Zhang, Tianle, et autres
Publié: (2024)
Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
par: Zhu, Jiachen, et autres
Publié: (2025)
par: Zhu, Jiachen, et autres
Publié: (2025)
OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
par: Wang, Teng, et autres
Publié: (2026)
par: Wang, Teng, et autres
Publié: (2026)
Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations
par: Xi, Yunjia, et autres
Publié: (2026)
par: Xi, Yunjia, et autres
Publié: (2026)
Documents similaires
-
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
par: Zhu, Jiachen, et autres
Publié: (2026) -
Looking Ahead to Avoid Being Late: Solving Hard-Constrained Traveling Salesman Problem
par: Chen, Jingxiao, et autres
Publié: (2024) -
CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning
par: Zheng, Congmin, et autres
Publié: (2025) -
The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design
par: Liu, Anjie, et autres
Publié: (2026) -
Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning
par: Zhu, Jiachen, et autres
Publié: (2025)