Gespeichert in:
| Hauptverfasser: | Zhang, Yingchuan, Ma, Terry, Zhong, Wenxuan, Ma, Ping |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2026
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2602.02828 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Exploring Time-Step Size in Reinforcement Learning for Sepsis Treatment
von: Sun, Yingchuan, et al.
Veröffentlicht: (2025)
von: Sun, Yingchuan, et al.
Veröffentlicht: (2025)
Wahkon: A Statistically Principled Deep RKHS Superposition Network
von: Chen, Yongkai, et al.
Veröffentlicht: (2026)
von: Chen, Yongkai, et al.
Veröffentlicht: (2026)
Not All Tokens Matter: Towards Efficient LLM Reasoning via Token Significance in Reinforcement Learning
von: Liu, Hanbing, et al.
Veröffentlicht: (2025)
von: Liu, Hanbing, et al.
Veröffentlicht: (2025)
Token-Efficient RL for LLM Reasoning
von: Lee, Alan, et al.
Veröffentlicht: (2025)
von: Lee, Alan, et al.
Veröffentlicht: (2025)
Token-Budget-Aware LLM Reasoning
von: Han, Tingxu, et al.
Veröffentlicht: (2024)
von: Han, Tingxu, et al.
Veröffentlicht: (2024)
NeuroMAS: Multi-Agent Systems as Neural Networks with Joint Reinforcement Learning
von: Lu, Haoran, et al.
Veröffentlicht: (2026)
von: Lu, Haoran, et al.
Veröffentlicht: (2026)
Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors
von: Fang, Luyang, et al.
Veröffentlicht: (2026)
von: Fang, Luyang, et al.
Veröffentlicht: (2026)
Pruning the Unsurprising: Efficient LLM Reasoning via First-Token Surprisal
von: Zeng, Wenhao, et al.
Veröffentlicht: (2025)
von: Zeng, Wenhao, et al.
Veröffentlicht: (2025)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
von: Feng, Shengyu, et al.
Veröffentlicht: (2024)
von: Feng, Shengyu, et al.
Veröffentlicht: (2024)
Step-wise Rubric Rewards for LLM Reasoning
von: Xie, Weichu, et al.
Veröffentlicht: (2026)
von: Xie, Weichu, et al.
Veröffentlicht: (2026)
Efficiently Scaling LLM Reasoning with Certaindex
von: Fu, Yichao, et al.
Veröffentlicht: (2024)
von: Fu, Yichao, et al.
Veröffentlicht: (2024)
One-Token Verification for Reasoning Correctness Estimation
von: Zhuang, Zhan, et al.
Veröffentlicht: (2026)
von: Zhuang, Zhan, et al.
Veröffentlicht: (2026)
Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
von: Yang, Zhicheng, et al.
Veröffentlicht: (2026)
von: Yang, Zhicheng, et al.
Veröffentlicht: (2026)
Semantic Step Prediction: Multi-Step Latent Forecasting in LLM Reasoning Trajectories via Step Sampling
von: Yuan, Yidi
Veröffentlicht: (2026)
von: Yuan, Yidi
Veröffentlicht: (2026)
When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning
von: Liu, Xiaogeng, et al.
Veröffentlicht: (2026)
von: Liu, Xiaogeng, et al.
Veröffentlicht: (2026)
TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation
von: Qu, Jian, et al.
Veröffentlicht: (2024)
von: Qu, Jian, et al.
Veröffentlicht: (2024)
Offline Reinforcement Learning for LLM Multi-Step Reasoning
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)
Scaling Laws for Data-Efficient Visual Transfer Learning
von: Yang, Wenxuan, et al.
Veröffentlicht: (2025)
von: Yang, Wenxuan, et al.
Veröffentlicht: (2025)
LLM Reasoning with Process Rewards for Outcome-Guided Steps
von: Rezaei, Mohammad, et al.
Veröffentlicht: (2026)
von: Rezaei, Mohammad, et al.
Veröffentlicht: (2026)
BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
von: Wen, Hao, et al.
Veröffentlicht: (2025)
von: Wen, Hao, et al.
Veröffentlicht: (2025)
Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning
von: Gai, Jingchu, et al.
Veröffentlicht: (2025)
von: Gai, Jingchu, et al.
Veröffentlicht: (2025)
Token-Efficient Change Detection in LLM APIs
von: Chauvin, Timothée, et al.
Veröffentlicht: (2026)
von: Chauvin, Timothée, et al.
Veröffentlicht: (2026)
Single-Step Consistent Diffusion Samplers
von: Jutras-Dubé, Pascal, et al.
Veröffentlicht: (2025)
von: Jutras-Dubé, Pascal, et al.
Veröffentlicht: (2025)
T-REG: Preference Optimization with Token-Level Reward Regularization
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)
Stabilizing Efficient Reasoning with Step-Level Advantage Selection
von: Wang, Han, et al.
Veröffentlicht: (2026)
von: Wang, Han, et al.
Veröffentlicht: (2026)
A General and Efficient Training for Transformer via Token Expansion
von: Huang, Wenxuan, et al.
Veröffentlicht: (2024)
von: Huang, Wenxuan, et al.
Veröffentlicht: (2024)
Efficient Ensembles Improve Training Data Attribution
von: Deng, Junwei, et al.
Veröffentlicht: (2024)
von: Deng, Junwei, et al.
Veröffentlicht: (2024)
Embedding Perturbation may Better Reflect Intermediate-Step Uncertainty in LLM Reasoning
von: Wen, Qihao, et al.
Veröffentlicht: (2026)
von: Wen, Qihao, et al.
Veröffentlicht: (2026)
Inverse Design in Distributed Circuits Using Single-Step Reinforcement Learning
von: Li, Jiayu, et al.
Veröffentlicht: (2025)
von: Li, Jiayu, et al.
Veröffentlicht: (2025)
Thought Anchors: Which LLM Reasoning Steps Matter?
von: Bogdan, Paul C., et al.
Veröffentlicht: (2025)
von: Bogdan, Paul C., et al.
Veröffentlicht: (2025)
Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning
von: Shi, Zeru, et al.
Veröffentlicht: (2025)
von: Shi, Zeru, et al.
Veröffentlicht: (2025)
LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals
von: Sun, Lihao, et al.
Veröffentlicht: (2026)
von: Sun, Lihao, et al.
Veröffentlicht: (2026)
SWIFT: Mapping Sub-series with Wavelet Decomposition Improves Time Series Forecasting
von: Xie, Wenxuan, et al.
Veröffentlicht: (2025)
von: Xie, Wenxuan, et al.
Veröffentlicht: (2025)
STRIDE: Learnable Stepwise Language Feedback for LLM Reasoning
von: Zhang, Junjie, et al.
Veröffentlicht: (2026)
von: Zhang, Junjie, et al.
Veröffentlicht: (2026)
SafeCoT: Improving VLM Safety with Minimal Reasoning
von: Ma, Jiachen, et al.
Veröffentlicht: (2025)
von: Ma, Jiachen, et al.
Veröffentlicht: (2025)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning
von: Zhou, Zhi, et al.
Veröffentlicht: (2025)
von: Zhou, Zhi, et al.
Veröffentlicht: (2025)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
von: Lin, Zicheng, et al.
Veröffentlicht: (2024)
von: Lin, Zicheng, et al.
Veröffentlicht: (2024)
Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving
von: Huan, Chengying, et al.
Veröffentlicht: (2025)
von: Huan, Chengying, et al.
Veröffentlicht: (2025)
CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
von: Wang, Ruiyu, et al.
Veröffentlicht: (2025)
von: Wang, Ruiyu, et al.
Veröffentlicht: (2025)
Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning
von: Koirala, Prajwal, et al.
Veröffentlicht: (2025)
von: Koirala, Prajwal, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Exploring Time-Step Size in Reinforcement Learning for Sepsis Treatment
von: Sun, Yingchuan, et al.
Veröffentlicht: (2025) -
Wahkon: A Statistically Principled Deep RKHS Superposition Network
von: Chen, Yongkai, et al.
Veröffentlicht: (2026) -
Not All Tokens Matter: Towards Efficient LLM Reasoning via Token Significance in Reinforcement Learning
von: Liu, Hanbing, et al.
Veröffentlicht: (2025) -
Token-Efficient RL for LLM Reasoning
von: Lee, Alan, et al.
Veröffentlicht: (2025) -
Token-Budget-Aware LLM Reasoning
von: Han, Tingxu, et al.
Veröffentlicht: (2024)