:: Library Catalog

Kapak Resmi

Kaydedildi:

Detaylı Bibliyografya
Asıl Yazarlar:	Gautam, Tanmay, Park, Youngsuk, Zhou, Hao, Raman, Parameswaran, Ha, Wooseok
Materyal Türü:	Preprint
Baskı/Yayın Bilgisi:	2024
Konular:	Machine Learning Artificial Intelligence Computation and Language Optimization and Control
Online Erişim:	https://arxiv.org/abs/2404.08080
Etiketler:	Etiketle Etiket eklenmemiş, İlk siz ekleyin!

Benzer Materyaller

Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations
Yazar:: Ma, Shaocong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
Yazar:: Pan, Rui, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Zeroth-Order Optimization Finds Flat Minima
Yazar:: Zhang, Liang, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning -- A Convex Optimization Perspective
Yazar:: Fernando, Heshan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization
Yazar:: Ma, Shaocong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent
Yazar:: Jing, Gangshan, ve diğerleri
Baskı/Yayın Bilgisi: (2021)

Secure LLM Fine-Tuning via Safety-Aware Probing
Yazar:: Wu, Chengcan, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Minimisation of Quasar-Convex Functions Using Random Zeroth-Order Oracles
Yazar:: Farzin, Amir Ali, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Solving General Natural-Language-Description Optimization Problems with Large Language Models
Yazar:: Zhang, Jihai, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond
Yazar:: Li, Yingcong, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Reward Collapse in Aligning Large Language Models
Yazar:: Song, Ziang, ve diğerleri
Baskı/Yayın Bilgisi: (2023)

Leveraging Large Language Models for Solving Rare MIP Challenges
Yazar:: Wang, Teng, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence
Yazar:: Yau, Chung-Yiu, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Min-Max Optimisation for Nonconvex-Nonconcave Functions Using a Random Zeroth-Order Extragradient Algorithm
Yazar:: Farzin, Amir Ali, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

One-Shot Safety Alignment for Large Language Models via Optimal Dualization
Yazar:: Huang, Xinmeng, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning
Yazar:: Zhao, Hanyang, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence
Yazar:: Chen, Jiahe, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Krylov Cubic Regularized Newton: A Subspace Second-Order Method with Dimension-Free Convergence Rate
Yazar:: Jiang, Ruichen, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework
Yazar:: Ma, Shaocong, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Accelerating RLHF Training with Reward Variance Increase
Yazar:: Yang, Zonglin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings
Yazar:: Zhang, Zhixin, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation
Yazar:: Ma, Zeyuan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Adversarial Representation Engineering: A General Model Editing Framework for Large Language Models
Yazar:: Zhang, Yihao, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training
Yazar:: Song, Minhak, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

ACING: Actor-Critic for Instruction Learning in Black-Box LLMs
Yazar:: Kharrat, Salma, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

ControlAgent: Automating Control System Design via Novel Integration of LLM Agents and Domain Expertise
Yazar:: Guo, Xingang, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Zeroth-Order Methods for Stochastic Nonconvex Nonsmooth Composite Optimization
Yazar:: Chen, Ziyi, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Causal LLM Routing: End-to-End Regret Minimization from Observational Data
Yazar:: Tsiourvas, Asterios, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Reinforcement Learning from Human Feedback with Active Queries
Yazar:: Ji, Kaixuan, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers
Yazar:: Chen, Siyu, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

Variational Learning is Effective for Large Deep Networks
Yazar:: Shen, Yuesong, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning
Yazar:: Gurses, Selcuk, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Transformers as Support Vector Machines
Yazar:: Tarzanagh, Davoud Ataee, ve diğerleri
Baskı/Yayın Bilgisi: (2023)

Gating is Weighting: Understanding Gated Linear Attention through In-context Learning
Yazar:: Li, Yingcong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

When and How Unlabeled Data Provably Improve In-Context Learning
Yazar:: Li, Yingcong, ve diğerleri
Baskı/Yayın Bilgisi: (2025)

Mechanics of Next Token Prediction with Self-Attention
Yazar:: Li, Yingcong, ve diğerleri
Baskı/Yayın Bilgisi: (2024)

When and Why SignSGD Outperforms SGD: A Theoretical Study Based on $\ell_1$-norm Lower Bounds
Yazar:: Tao, Hongyi, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

On Adaptivity in Zeroth-Order Optimization
Yazar:: Dbouk, Hassan, ve diğerleri
Baskı/Yayın Bilgisi: (2026)

Primitive Agentic First-Order Optimization
Yazar:: Sala, R.
Baskı/Yayın Bilgisi: (2024)

The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training
Yazar:: Wang, Jinbo, ve diğerleri
Baskı/Yayın Bilgisi: (2025)