:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Zhang, Xuechen, Huang, Zijian, Ni, Chenshun, Xiong, Ziyang, Chen, Jiasi, Oymak, Samet
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning
Accesso online:	https://arxiv.org/abs/2505.07961
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)

VSPO: Vector-Steered Policy Optimization for Behavioral Control
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)

Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)

SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG
di: Zhang, Xuechen, et al.
Pubblicazione: (2025)

Class-attribute Priors: Adapting Optimization to Heterogeneity and Fairness Objective
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)

Selective Attention: Enhancing Transformer through Principled Context Control
di: Zhang, Xuechen, et al.
Pubblicazione: (2024)

On the Power of Convolution Augmented Transformer
di: Li, Mingchen, et al.
Pubblicazione: (2024)

Continuous Chain of Thought Enables Parallel Exploration and Reasoning
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)

Latent Chain-of-Thought Improves Structured-Data Transformers
di: Dudley, Carson, et al.
Pubblicazione: (2026)

Covariance-Aware Transformers for Quadratic Programming and Decision Making
di: Tire, Kutay, et al.
Pubblicazione: (2026)

Test-Time Training Provably Improves Transformers as In-context Learners
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2025)

Evolutionary Multi-Task Optimization for LLM-Guided Program Discovery
di: Gozeten, Halil Alperen, et al.
Pubblicazione: (2026)

L3GS: Layered 3D Gaussian Splats for Efficient 3D Scene Delivery
di: Tsai, Yi-Zhen, et al.
Pubblicazione: (2025)

Learning to Bet for Horizon-Aware Anytime-Valid Testing
di: Taga, Ege Onur, et al.
Pubblicazione: (2026)

PaperGuide: Making Small Language-Model Paper-Reading Agents More Efficient
di: Wang, Zijian, et al.
Pubblicazione: (2026)

Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
di: Ildiz, Muhammed Emrullah, et al.
Pubblicazione: (2026)

Attention with Trained Embeddings Provably Selects Important Tokens
di: Wu, Diyuan, et al.
Pubblicazione: (2025)

TimePFN: Effective Multivariate Time Series Forecasting with Synthetic Data
di: Taga, Ege Onur, et al.
Pubblicazione: (2025)

In-Context Learning Under Regime Change
di: Dudley, Carson, et al.
Pubblicazione: (2026)

Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond
di: Li, Yingcong, et al.
Pubblicazione: (2024)

Can Transformers Learn Optimal Filtering for Unknown Systems?
di: Balim, Haldun, et al.
Pubblicazione: (2023)

From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)

Retrieval Augmented Time Series Forecasting
di: Tire, Kutay, et al.
Pubblicazione: (2024)

Transformers as Support Vector Machines
di: Tarzanagh, Davoud Ataee, et al.
Pubblicazione: (2023)

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks
di: Park, Jongho, et al.
Pubblicazione: (2024)

Mechanics of Next Token Prediction with Self-Attention
di: Li, Yingcong, et al.
Pubblicazione: (2024)

High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws
di: Ildiz, M. Emrullah, et al.
Pubblicazione: (2024)

RAPID: An Efficient Reinforcement Learning Algorithm for Small Language Models
di: Huang, Lianghuan, et al.
Pubblicazione: (2025)

Internalizing Outcome Supervision into Process Supervision: A New Paradigm for Reinforcement Learning for Reasoning
di: Ding, Fei, et al.
Pubblicazione: (2026)

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
di: Mei, Tiehua, et al.
Pubblicazione: (2026)

Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction
di: Xia, Xiaobo, et al.
Pubblicazione: (2025)

Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
di: Li, Yingcong, et al.
Pubblicazione: (2025)

Identification and Adaptive Control of Markov Jump Systems: Sample Complexity and Regret Bounds
di: Sattar, Yahya, et al.
Pubblicazione: (2021)

CONTRAST: Continual Multi-source Adaptation to Dynamic Distributions
di: Ahmed, Sk Miraj, et al.
Pubblicazione: (2024)

When and How Unlabeled Data Provably Improve In-Context Learning
di: Li, Yingcong, et al.
Pubblicazione: (2025)

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma
di: Zhang, Xuechen, et al.
Pubblicazione: (2026)

VeriThinker: Learning to Verify Makes Reasoning Model Efficient
di: Chen, Zigeng, et al.
Pubblicazione: (2025)

Efficient Sequential Decision Making with Large Language Models
di: Chen, Dingyang, et al.
Pubblicazione: (2024)

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning
di: Arzhantsev, Aleksei, et al.
Pubblicazione: (2025)

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
di: Jiang, Juyong, et al.
Pubblicazione: (2026)