:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Chen, Yuxiang, Liang, Dingli, Chen, Yihang, Gong, Ziqin, Le, Chenyang, Wang, Zhaokai, Zhu, Jiachen, Yang, Lingyu, Lin, Jianghao, Zhang, Weinan, Wang, Jun
Format:	Preprint
Publié:	2026
Sujets:	Machine Learning Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2605.12058
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
par: Zhu, Jiachen, et autres
Publié: (2026)

Looking Ahead to Avoid Being Late: Solving Hard-Constrained Traveling Salesman Problem
par: Chen, Jingxiao, et autres
Publié: (2024)

CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning
par: Zheng, Congmin, et autres
Publié: (2025)

The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design
par: Liu, Anjie, et autres
Publié: (2026)

Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning
par: Zhu, Jiachen, et autres
Publié: (2025)

Full-Stack Optimized Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation
par: Shan, Rong, et autres
Publié: (2025)

A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models
par: Zheng, Congmin, et autres
Publié: (2025)

Reinforcing Language Agents via Policy Optimization with Action Decomposition
par: Wen, Muning, et autres
Publié: (2024)

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers
par: Lin, Jianghao, et autres
Publié: (2025)

Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation
par: Zhu, Jiachen, et autres
Publié: (2024)

Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement
par: Wen, Muning, et autres
Publié: (2024)

Superplatforms Have to Attack AI Agents
par: Lin, Jianghao, et autres
Publié: (2025)

InvEvolve: Evolving White-Box Inventory Policies via Large Language Models with Performance Guarantees
par: Huang, Chenyu, et autres
Publié: (2026)

Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport
par: Sun, Mingyang, et autres
Publié: (2025)

Towards Efficient and Effective Unlearning of Large Language Models for Recommendation
par: Wang, Hangyu, et autres
Publié: (2024)

OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
par: Wang, Jun, et autres
Publié: (2024)

A Survey on Diffusion Models for Recommender Systems
par: Lin, Jianghao, et autres
Publié: (2024)

Memento-Skills: Let Agents Design Agents
par: Zhou, Huichi, et autres
Publié: (2026)

AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing
par: Fu, Lingyue, et autres
Publié: (2025)

Learning to Optimise Climate Sensor Placement using a Transformer
par: Wang, Chen, et autres
Publié: (2023)

Skills on the Fly: Test-Time Adaptive Skill Synthesis for LLM Agents
par: Wang, Jingxing, et autres
Publié: (2026)

SPO: Sequential Monte Carlo Policy Optimisation
par: Macfarlane, Matthew V, et autres
Publié: (2024)

Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning
par: Gao, Chen-Xiao, et autres
Publié: (2025)

Order-Preserving GFlowNets
par: Chen, Yihang, et autres
Publié: (2023)

Oscillation-Reduced MXFP4 Training for Vision Transformers
par: Chen, Yuxiang, et autres
Publié: (2025)

FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction
par: Wang, Hangyu, et autres
Publié: (2023)

Adaptive Milestone Reward for GUI Agents
par: Zheng, Congmin, et autres
Publié: (2026)

Mirror Learning: A Unifying Framework of Policy Optimisation
par: Kuba, Jakub Grudzien, et autres
Publié: (2022)

Variational Delayed Policy Optimization
par: Wu, Qingyuan, et autres
Publié: (2024)

Hierarchical Decision Making Based on Structural Information Principles
par: Zeng, Xianghua, et autres
Publié: (2024)

Unveiling the Inflexibility of Adaptive Embedding in Traffic Forecasting
par: Wang, Hongjun, et autres
Publié: (2024)

Diffusion-based Graph Generative Methods
par: Chen, Hongyang, et autres
Publié: (2024)

FINED: Feed Instance-Wise Information Need with Essential and Disentangled Parametric Knowledge from the Past
par: Du, Kounianhua, et autres
Publié: (2024)

Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning
par: Yao, Yihang, et autres
Publié: (2023)

Position: Academic Conferences are Potentially Facing Denominator Gaming Caused by Fully Automated Scientific Agents
par: Shan, Rong, et autres
Publié: (2026)

PADiff: Predictive and Adaptive Diffusion Policies for Ad Hoc Teamwork
par: Chan, Hohei, et autres
Publié: (2025)

Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning
par: Zhang, Tianle, et autres
Publié: (2024)

Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
par: Zhu, Jiachen, et autres
Publié: (2025)

OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
par: Wang, Teng, et autres
Publié: (2026)

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations
par: Xi, Yunjia, et autres
Publié: (2026)