Salvato in:
| Autori principali: | Zhang, Xuechen, Huang, Zijian, Ni, Chenshun, Xiong, Ziyang, Chen, Jiasi, Oymak, Samet |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2505.07961 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)
VSPO: Vector-Steered Policy Optimization for Behavioral Control
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)
Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)
Class-attribute Priors: Adapting Optimization to Heterogeneity and Fairness Objective
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
Selective Attention: Enhancing Transformer through Principled Context Control
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)
On the Power of Convolution Augmented Transformer
di: Li, Mingchen, et al.
Pubblicazione: (2024)
di: Li, Mingchen, et al.
Pubblicazione: (2024)
Continuous Chain of Thought Enables Parallel Exploration and Reasoning
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)
Latent Chain-of-Thought Improves Structured-Data Transformers
di: Dudley, Carson, et al.
Pubblicazione: (2026)
di: Dudley, Carson, et al.
Pubblicazione: (2026)
Covariance-Aware Transformers for Quadratic Programming and Decision Making
di: Tire, Kutay, et al.
Pubblicazione: (2026)
di: Tire, Kutay, et al.
Pubblicazione: (2026)
Test-Time Training Provably Improves Transformers as In-context Learners
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)
Evolutionary Multi-Task Optimization for LLM-Guided Program Discovery
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2026)
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2026)
L3GS: Layered 3D Gaussian Splats for Efficient 3D Scene Delivery
di: Tsai, Yi-Zhen, et al.
Pubblicazione: (2025)
di: Tsai, Yi-Zhen, et al.
Pubblicazione: (2025)
Learning to Bet for Horizon-Aware Anytime-Valid Testing
di: Taga, Ege Onur, et al.
Pubblicazione: (2026)
di: Taga, Ege Onur, et al.
Pubblicazione: (2026)
PaperGuide: Making Small Language-Model Paper-Reading Agents More Efficient
di: Wang, Zijian, et al.
Pubblicazione: (2026)
di: Wang, Zijian, et al.
Pubblicazione: (2026)
Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
di: Ildiz, Muhammed Emrullah, et al.
Pubblicazione: (2026)
di: Ildiz, Muhammed Emrullah, et al.
Pubblicazione: (2026)
Attention with Trained Embeddings Provably Selects Important Tokens
di: Wu, Diyuan, et al.
Pubblicazione: (2025)
di: Wu, Diyuan, et al.
Pubblicazione: (2025)
TimePFN: Effective Multivariate Time Series Forecasting with Synthetic Data
di: Taga, Ege Onur, et al.
Pubblicazione: (2025)
di: Taga, Ege Onur, et al.
Pubblicazione: (2025)
In-Context Learning Under Regime Change
di: Dudley, Carson, et al.
Pubblicazione: (2026)
di: Dudley, Carson, et al.
Pubblicazione: (2026)
Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond
di: Li, Yingcong, et al.
Pubblicazione: (2024)
di: Li, Yingcong, et al.
Pubblicazione: (2024)
Can Transformers Learn Optimal Filtering for Unknown Systems?
di: Balim, Haldun, et al.
Pubblicazione: (2023)
di: Balim, Haldun, et al.
Pubblicazione: (2023)
From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)
Retrieval Augmented Time Series Forecasting
di: Tire, Kutay, et al.
Pubblicazione: (2024)
di: Tire, Kutay, et al.
Pubblicazione: (2024)
Transformers as Support Vector Machines
di: Tarzanagh, Davoud Ataee, et al.
Pubblicazione: (2023)
di: Tarzanagh, Davoud Ataee, et al.
Pubblicazione: (2023)
Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks
di: Park, Jongho, et al.
Pubblicazione: (2024)
di: Park, Jongho, et al.
Pubblicazione: (2024)
Mechanics of Next Token Prediction with Self-Attention
di: Li, Yingcong, et al.
Pubblicazione: (2024)
di: Li, Yingcong, et al.
Pubblicazione: (2024)
High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)
RAPID: An Efficient Reinforcement Learning Algorithm for Small Language Models
di: Huang, Lianghuan, et al.
Pubblicazione: (2025)
di: Huang, Lianghuan, et al.
Pubblicazione: (2025)
Internalizing Outcome Supervision into Process Supervision: A New Paradigm for Reinforcement Learning for Reasoning
di: Ding, Fei, et al.
Pubblicazione: (2026)
di: Ding, Fei, et al.
Pubblicazione: (2026)
Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
di: Mei, Tiehua, et al.
Pubblicazione: (2026)
di: Mei, Tiehua, et al.
Pubblicazione: (2026)
Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction
di: Xia, Xiaobo, et al.
Pubblicazione: (2025)
di: Xia, Xiaobo, et al.
Pubblicazione: (2025)
Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
di: Li, Yingcong, et al.
Pubblicazione: (2025)
di: Li, Yingcong, et al.
Pubblicazione: (2025)
Identification and Adaptive Control of Markov Jump Systems: Sample Complexity and Regret Bounds
di: Sattar, Yahya, et al.
Pubblicazione: (2021)
di: Sattar, Yahya, et al.
Pubblicazione: (2021)
CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions
di: Ahmed, Sk Miraj, et al.
Pubblicazione: (2024)
di: Ahmed, Sk Miraj, et al.
Pubblicazione: (2024)
When and How Unlabeled Data Provably Improve In-Context Learning
di: Li, Yingcong, et al.
Pubblicazione: (2025)
di: Li, Yingcong, et al.
Pubblicazione: (2025)
Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)
VeriThinker: Learning to Verify Makes Reasoning Model Efficient
di: Chen, Zigeng, et al.
Pubblicazione: (2025)
di: Chen, Zigeng, et al.
Pubblicazione: (2025)
Efficient Sequential Decision Making with Large Language Models
di: Chen, Dingyang, et al.
Pubblicazione: (2024)
di: Chen, Dingyang, et al.
Pubblicazione: (2024)
RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning
di: Arzhantsev, Aleksei, et al.
Pubblicazione: (2025)
di: Arzhantsev, Aleksei, et al.
Pubblicazione: (2025)
ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
di: Jiang, Juyong, et al.
Pubblicazione: (2026)
di: Jiang, Juyong, et al.
Pubblicazione: (2026)
Documenti analoghi
-
BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
di: Zhang, Xuechen, et al.
Pubblicazione: (2025) -
VSPO: Vector-Steered Policy Optimization for Behavioral Control
di: Zhang, Xuechen, et al.
Pubblicazione: (2026) -
Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
di: Zhang, Xuechen, et al.
Pubblicazione: (2024) -
SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG
di: Zhang, Xuechen, et al.
Pubblicazione: (2025) -
Class-attribute Priors: Adapting Optimization to Heterogeneity and Fairness Objective
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)