:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhang, Yingchuan, Ma, Terry, Zhong, Wenxuan, Ma, Ping
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Machine Learning
Online-Zugang:	https://arxiv.org/abs/2602.02828
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Exploring Time-Step Size in Reinforcement Learning for Sepsis Treatment
von: Sun, Yingchuan, et al.
Veröffentlicht: (2025)

Wahkon: A Statistically Principled Deep RKHS Superposition Network
von: Chen, Yongkai, et al.
Veröffentlicht: (2026)

Not All Tokens Matter: Towards Efficient LLM Reasoning via Token Significance in Reinforcement Learning
von: Liu, Hanbing, et al.
Veröffentlicht: (2025)

Token-Efficient RL for LLM Reasoning
von: Lee, Alan, et al.
Veröffentlicht: (2025)

Token-Budget-Aware LLM Reasoning
von: Han, Tingxu, et al.
Veröffentlicht: (2024)

NeuroMAS: Multi-Agent Systems as Neural Networks with Joint Reinforcement Learning
von: Lu, Haoran, et al.
Veröffentlicht: (2026)

Multi-Teacher Knowledge Distillation via Teacher-Informed Mixture Priors
von: Fang, Luyang, et al.
Veröffentlicht: (2026)

Pruning the Unsurprising: Efficient LLM Reasoning via First-Token Surprisal
von: Zeng, Wenhao, et al.
Veröffentlicht: (2025)

Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
von: Feng, Shengyu, et al.
Veröffentlicht: (2024)

Step-wise Rubric Rewards for LLM Reasoning
von: Xie, Weichu, et al.
Veröffentlicht: (2026)

Efficiently Scaling LLM Reasoning with Certaindex
von: Fu, Yichao, et al.
Veröffentlicht: (2024)

One-Token Verification for Reasoning Correctness Estimation
von: Zhuang, Zhan, et al.
Veröffentlicht: (2026)

Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
von: Yang, Zhicheng, et al.
Veröffentlicht: (2026)

Semantic Step Prediction: Multi-Step Latent Forecasting in LLM Reasoning Trajectories via Step Sampling
von: Yuan, Yidi
Veröffentlicht: (2026)

When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning
von: Liu, Xiaogeng, et al.
Veröffentlicht: (2026)

TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation
von: Qu, Jian, et al.
Veröffentlicht: (2024)

Offline Reinforcement Learning for LLM Multi-Step Reasoning
von: Wang, Huaijie, et al.
Veröffentlicht: (2024)

Scaling Laws for Data-Efficient Visual Transfer Learning
von: Yang, Wenxuan, et al.
Veröffentlicht: (2025)

LLM Reasoning with Process Rewards for Outcome-Guided Steps
von: Rezaei, Mohammad, et al.
Veröffentlicht: (2026)

BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
von: Wen, Hao, et al.
Veröffentlicht: (2025)

Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning
von: Gai, Jingchu, et al.
Veröffentlicht: (2025)

Token-Efficient Change Detection in LLM APIs
von: Chauvin, Timothée, et al.
Veröffentlicht: (2026)

Single-Step Consistent Diffusion Samplers
von: Jutras-Dubé, Pascal, et al.
Veröffentlicht: (2025)

T-REG: Preference Optimization with Token-Level Reward Regularization
von: Zhou, Wenxuan, et al.
Veröffentlicht: (2024)

Stabilizing Efficient Reasoning with Step-Level Advantage Selection
von: Wang, Han, et al.
Veröffentlicht: (2026)

A General and Efficient Training for Transformer via Token Expansion
von: Huang, Wenxuan, et al.
Veröffentlicht: (2024)

Efficient Ensembles Improve Training Data Attribution
von: Deng, Junwei, et al.
Veröffentlicht: (2024)

Embedding Perturbation may Better Reflect Intermediate-Step Uncertainty in LLM Reasoning
von: Wen, Qihao, et al.
Veröffentlicht: (2026)

Inverse Design in Distributed Circuits Using Single-Step Reinforcement Learning
von: Li, Jiayu, et al.
Veröffentlicht: (2025)

Thought Anchors: Which LLM Reasoning Steps Matter?
von: Bogdan, Paul C., et al.
Veröffentlicht: (2025)

Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning
von: Shi, Zeru, et al.
Veröffentlicht: (2025)

LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals
von: Sun, Lihao, et al.
Veröffentlicht: (2026)

SWIFT: Mapping Sub-series with Wavelet Decomposition Improves Time Series Forecasting
von: Xie, Wenxuan, et al.
Veröffentlicht: (2025)

STRIDE: Learnable Stepwise Language Feedback for LLM Reasoning
von: Zhang, Junjie, et al.
Veröffentlicht: (2026)

SafeCoT: Improving VLM Safety with Minimal Reasoning
von: Ma, Jiachen, et al.
Veröffentlicht: (2025)

Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning
von: Zhou, Zhi, et al.
Veröffentlicht: (2025)

Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
von: Lin, Zicheng, et al.
Veröffentlicht: (2024)

Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving
von: Huan, Chengying, et al.
Veröffentlicht: (2025)

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization
von: Wang, Ruiyu, et al.
Veröffentlicht: (2025)

Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning
von: Koirala, Prajwal, et al.
Veröffentlicht: (2025)