Salvato in:
| Autori principali: | Zhao, Weikang, Wang, Xili, Ma, Chengdi, Kong, Lingbin, Yang, Zhaohua, Tuo, Mingxiang, Shi, Xiaowei, Zhai, Yitao, Cai, Xunliang |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.18669 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Can RL Improve Generalization of LLM Agents? An Empirical Study
di: Xi, Zhiheng, et al.
Pubblicazione: (2026)
di: Xi, Zhiheng, et al.
Pubblicazione: (2026)
Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents
di: Yang, Haojin, et al.
Pubblicazione: (2026)
di: Yang, Haojin, et al.
Pubblicazione: (2026)
A non-nested unstructured mesh perspective on highly parallel multilevel smoothed Schwarz preconditioner for linear parametric PDEs
di: Ma, Chengdi
Pubblicazione: (2024)
di: Ma, Chengdi
Pubblicazione: (2024)
A Non‐Nested Mesh Perspective on Highly Parallel Multilevel Schwarz Preconditioner
di: Chengdi Ma
Pubblicazione: (2026)
di: Chengdi Ma
Pubblicazione: (2026)
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
di: Guo, Xin, et al.
Pubblicazione: (2025)
di: Guo, Xin, et al.
Pubblicazione: (2025)
SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent
di: Cao, Shiyi, et al.
Pubblicazione: (2025)
di: Cao, Shiyi, et al.
Pubblicazione: (2025)
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling
di: Ding, Yiwen, et al.
Pubblicazione: (2024)
di: Ding, Yiwen, et al.
Pubblicazione: (2024)
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
di: Yang, Rui, et al.
Pubblicazione: (2026)
di: Yang, Rui, et al.
Pubblicazione: (2026)
A high-order rectilinear Lagrangian method based on the geometric conservation law
di: Wang, Xun, et al.
Pubblicazione: (2026)
di: Wang, Xun, et al.
Pubblicazione: (2026)
PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning
di: Lu, Keer, et al.
Pubblicazione: (2025)
di: Lu, Keer, et al.
Pubblicazione: (2025)
MUA: Mobile Ultra-detailed Animatable Avatars
di: Zhu, Heming, et al.
Pubblicazione: (2026)
di: Zhu, Heming, et al.
Pubblicazione: (2026)
FedMUA: Exploring the Vulnerabilities of Federated Learning to Malicious Unlearning Attacks
di: Chen, Jian, et al.
Pubblicazione: (2025)
di: Chen, Jian, et al.
Pubblicazione: (2025)
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
di: Li, Pengxiang, et al.
Pubblicazione: (2025)
di: Li, Pengxiang, et al.
Pubblicazione: (2025)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
di: Ma, Chang, et al.
Pubblicazione: (2024)
di: Ma, Chang, et al.
Pubblicazione: (2024)
MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
di: Acikgoz, Emre Can, et al.
Pubblicazione: (2025)
MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models
di: Wang, Hongyu, et al.
Pubblicazione: (2025)
di: Wang, Hongyu, et al.
Pubblicazione: (2025)
Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents
di: Cai, Shaofei, et al.
Pubblicazione: (2025)
di: Cai, Shaofei, et al.
Pubblicazione: (2025)
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
di: Qian, Cheng, et al.
Pubblicazione: (2025)
di: Qian, Cheng, et al.
Pubblicazione: (2025)
MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop
di: Li, Xuancheng, et al.
Pubblicazione: (2026)
di: Li, Xuancheng, et al.
Pubblicazione: (2026)
Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
di: Zhai, Zhiyuan, et al.
Pubblicazione: (2026)
di: Zhai, Zhiyuan, et al.
Pubblicazione: (2026)
A Modified Landau-de Gennes Theory for Smectic Liquid Crystals: Phase Transitions and Structural Transitions
di: Shi, Baoming, et al.
Pubblicazione: (2024)
di: Shi, Baoming, et al.
Pubblicazione: (2024)
Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning
di: Hu, Hanjiang, et al.
Pubblicazione: (2025)
di: Hu, Hanjiang, et al.
Pubblicazione: (2025)
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
di: Shi, Yaorui, et al.
Pubblicazione: (2026)
di: Shi, Yaorui, et al.
Pubblicazione: (2026)
CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs
di: Yao, Zhiyuan, et al.
Pubblicazione: (2026)
di: Yao, Zhiyuan, et al.
Pubblicazione: (2026)
CPAFT: A Consistent Parallel Advancing Front Technique for Unstructured Triangular/Tetrahedral Mesh Generation
di: Ma, Chengdi, et al.
Pubblicazione: (2024)
di: Ma, Chengdi, et al.
Pubblicazione: (2024)
GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents
di: Cai, Shaofei, et al.
Pubblicazione: (2024)
di: Cai, Shaofei, et al.
Pubblicazione: (2024)
Existence of complete conformal metrics on $\mathbb{R}^n$ with prescribed Q-curvature
di: Li, Mingxiang, et al.
Pubblicazione: (2025)
di: Li, Mingxiang, et al.
Pubblicazione: (2025)
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
di: Wang, Zihao, et al.
Pubblicazione: (2023)
di: Wang, Zihao, et al.
Pubblicazione: (2023)
Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL
di: Abdulhai, Marwa, et al.
Pubblicazione: (2025)
di: Abdulhai, Marwa, et al.
Pubblicazione: (2025)
DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
di: Li, Yuanhao, et al.
Pubblicazione: (2025)
di: Li, Yuanhao, et al.
Pubblicazione: (2025)
Reducing Cognitive Overhead in Tool Use via Multi-Small-Agent Reinforcement Learning
di: Wang, Dayu, et al.
Pubblicazione: (2025)
di: Wang, Dayu, et al.
Pubblicazione: (2025)
On a Novel Skewed Generalized t Distribution: Properties, Estimations and its Applications
di: Lian, Chengdi, et al.
Pubblicazione: (2024)
di: Lian, Chengdi, et al.
Pubblicazione: (2024)
Adaptive Quantized Control for Nonlinear Systems With Mismatched Disturbances and Malicious Attacks
di: Xianglei Jia, et al.
Pubblicazione: (2025)
di: Xianglei Jia, et al.
Pubblicazione: (2025)
Non‐Identification Adaptive Control for Large‐Scale Nonlinear Systems With Uncertain Measurement Sensitivity
di: Xinxu Ju, et al.
Pubblicazione: (2025)
di: Xinxu Ju, et al.
Pubblicazione: (2025)
Theoretical Investigation of Performance-Improved Ferroelectric Tunnel Junction Based on Trap-Assisted Tunneling
di: Kong, Shi-Xi, et al.
Pubblicazione: (2025)
di: Kong, Shi-Xi, et al.
Pubblicazione: (2025)
Dependency-Aware Privacy for Multi-turn Agents
di: Anshumaan, Divyam, et al.
Pubblicazione: (2026)
di: Anshumaan, Divyam, et al.
Pubblicazione: (2026)
Greedy Is a Strong Default: Agents as Iterative Optimizers
di: Li, Yitao
Pubblicazione: (2026)
di: Li, Yitao
Pubblicazione: (2026)
TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents
di: Wang, Jiaqi, et al.
Pubblicazione: (2026)
di: Wang, Jiaqi, et al.
Pubblicazione: (2026)
Pore structure manipulation‐enhanced sodium storage of calcium‐lignosulfonate‐based hard carbon
di: Yunfei Gou, et al.
Pubblicazione: (2024)
di: Yunfei Gou, et al.
Pubblicazione: (2024)
From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents
di: Gao, Jiaxuan, et al.
Pubblicazione: (2026)
di: Gao, Jiaxuan, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Can RL Improve Generalization of LLM Agents? An Empirical Study
di: Xi, Zhiheng, et al.
Pubblicazione: (2026) -
Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents
di: Yang, Haojin, et al.
Pubblicazione: (2026) -
A non-nested unstructured mesh perspective on highly parallel multilevel smoothed Schwarz preconditioner for linear parametric PDEs
di: Ma, Chengdi
Pubblicazione: (2024) -
A Non‐Nested Mesh Perspective on Highly Parallel Multilevel Schwarz Preconditioner
di: Chengdi Ma
Pubblicazione: (2026) -
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
di: Guo, Xin, et al.
Pubblicazione: (2025)