Gespeichert in:
| Hauptverfasser: | He, Guangxin, Cao, Yuan, He, Yutong, Bai, Tianyi, Chen, Kai, Yuan, Kun, Yuan, Binhang |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2506.01352 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
CE-LoRA: Computation-Efficient LoRA Fine-Tuning for Language Models
von: Chen, Guanduo, et al.
Veröffentlicht: (2025)
von: Chen, Guanduo, et al.
Veröffentlicht: (2025)
AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization
von: Lv, Mengtao, et al.
Veröffentlicht: (2025)
von: Lv, Mengtao, et al.
Veröffentlicht: (2025)
Unbiased Compression Saves Communication in Distributed Optimization: When and How Much?
von: He, Yutong, et al.
Veröffentlicht: (2023)
von: He, Yutong, et al.
Veröffentlicht: (2023)
VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL
von: Hu, Zengjie, et al.
Veröffentlicht: (2025)
von: Hu, Zengjie, et al.
Veröffentlicht: (2025)
Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference
von: Wu, Tong, et al.
Veröffentlicht: (2025)
von: Wu, Tong, et al.
Veröffentlicht: (2025)
Greedy Low-Rank Gradient Compression for Distributed Learning with Convergence Guarantees
von: Chen, Chuyan, et al.
Veröffentlicht: (2025)
von: Chen, Chuyan, et al.
Veröffentlicht: (2025)
Subspace Optimization for Large Language Models with Convergence Guarantees
von: He, Yutong, et al.
Veröffentlicht: (2024)
von: He, Yutong, et al.
Veröffentlicht: (2024)
Clapping: Removing Per-sample Storage for Pipeline Parallel Distributed Optimization with Communication Compression
von: Kong, Boao, et al.
Veröffentlicht: (2025)
von: Kong, Boao, et al.
Veröffentlicht: (2025)
Lower Bounds and Accelerated Algorithms in Distributed Stochastic Optimization with Communication Compression
von: He, Yutong, et al.
Veröffentlicht: (2023)
von: He, Yutong, et al.
Veröffentlicht: (2023)
An All-Reduce Compatible Top-K Compressor for Communication-Efficient Distributed Learning
von: Chen, Chuyan, et al.
Veröffentlicht: (2025)
von: Chen, Chuyan, et al.
Veröffentlicht: (2025)
AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science
von: Li, Chenyue, et al.
Veröffentlicht: (2025)
von: Li, Chenyue, et al.
Veröffentlicht: (2025)
MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling
von: Liu, Yuxi, et al.
Veröffentlicht: (2025)
von: Liu, Yuxi, et al.
Veröffentlicht: (2025)
TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension
von: Qiu, Zipeng, et al.
Veröffentlicht: (2024)
von: Qiu, Zipeng, et al.
Veröffentlicht: (2024)
FBQuant: FeedBack Quantization for Large Language Models
von: Liu, Yijiang, et al.
Veröffentlicht: (2025)
von: Liu, Yijiang, et al.
Veröffentlicht: (2025)
RoPeSLR: 3D RoPE-driven Sparse-LowRank Attention for Efficient Diffusion Transformers
von: Liu, Yuxi, et al.
Veröffentlicht: (2026)
von: Liu, Yuxi, et al.
Veröffentlicht: (2026)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures
von: Chen, Yiming, et al.
Veröffentlicht: (2024)
von: Chen, Yiming, et al.
Veröffentlicht: (2024)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training
von: Li, Zhouyang, et al.
Veröffentlicht: (2025)
von: Li, Zhouyang, et al.
Veröffentlicht: (2025)
Binary Weight Multi-Bit Activation Quantization for Compute-in-Memory CNN Accelerators
von: Zhou, Wenyong, et al.
Veröffentlicht: (2025)
von: Zhou, Wenyong, et al.
Veröffentlicht: (2025)
Synergistic Intra- and Cross-Layer Regularization Losses for MoE Expert Specialization
von: Hu, Rizhen, et al.
Veröffentlicht: (2026)
von: Hu, Rizhen, et al.
Veröffentlicht: (2026)
Transformers Simulate MLE for Sequence Generation in Bayesian Networks
von: Cao, Yuan, et al.
Veröffentlicht: (2025)
von: Cao, Yuan, et al.
Veröffentlicht: (2025)
FSA: An Alternative Efficient Implementation of Native Sparse Attention Kernel
von: Yan, Ran, et al.
Veröffentlicht: (2025)
von: Yan, Ran, et al.
Veröffentlicht: (2025)
High-fidelity Multiphysics Modelling for Rapid Predictions Using Physics-informed Parallel Neural Operator
von: Yuan, Biao, et al.
Veröffentlicht: (2025)
von: Yuan, Biao, et al.
Veröffentlicht: (2025)
Understanding the Benefits of SimCLR Pre-Training in Two-Layer Convolutional Neural Networks
von: Zhang, Han, et al.
Veröffentlicht: (2024)
von: Zhang, Han, et al.
Veröffentlicht: (2024)
Unraveling Privacy Risks of Individual Fairness in Graph Neural Networks
von: Zhang, He, et al.
Veröffentlicht: (2023)
von: Zhang, He, et al.
Veröffentlicht: (2023)
On the Escaping Efficiency of Distributed Adversarial Training Algorithms
von: Cao, Ying, et al.
Veröffentlicht: (2025)
von: Cao, Ying, et al.
Veröffentlicht: (2025)
On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study
von: Zhang, Lujia, et al.
Veröffentlicht: (2024)
von: Zhang, Lujia, et al.
Veröffentlicht: (2024)
Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization
von: Chen, Xi, et al.
Veröffentlicht: (2026)
von: Chen, Xi, et al.
Veröffentlicht: (2026)
TimeRadar: A Domain-Rotatable Foundation Model for Time Series Anomaly Detection
von: He, Hui, et al.
Veröffentlicht: (2026)
von: He, Hui, et al.
Veröffentlicht: (2026)
Language Models as Hierarchy Encoders
von: He, Yuan, et al.
Veröffentlicht: (2024)
von: He, Yuan, et al.
Veröffentlicht: (2024)
Efficient First-Order Optimization on the Pareto Set for Multi-Objective Learning under Preference Guidance
von: Chen, Lisha, et al.
Veröffentlicht: (2025)
von: Chen, Lisha, et al.
Veröffentlicht: (2025)
UltraLLaDA: Scaling the Context Length to 128K for Diffusion Large Language Models
von: He, Guangxin, et al.
Veröffentlicht: (2025)
von: He, Guangxin, et al.
Veröffentlicht: (2025)
Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels
von: Tong, Yujia, et al.
Veröffentlicht: (2025)
von: Tong, Yujia, et al.
Veröffentlicht: (2025)
CLIMATEAGENT: Multi-Agent Orchestration for Complex Climate Data Science Workflows
von: Kim, Hyeonjae, et al.
Veröffentlicht: (2025)
von: Kim, Hyeonjae, et al.
Veröffentlicht: (2025)
Forget by Uncertainty: Orthogonal Entropy Unlearning for Quantized Neural Networks
von: Zhang, Tian, et al.
Veröffentlicht: (2026)
von: Zhang, Tian, et al.
Veröffentlicht: (2026)
A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models
von: Chen, Yiming, et al.
Veröffentlicht: (2025)
von: Chen, Yiming, et al.
Veröffentlicht: (2025)
Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification
von: Bai, Tianyi, et al.
Veröffentlicht: (2025)
von: Bai, Tianyi, et al.
Veröffentlicht: (2025)
Transformers versus the EM Algorithm in Multi-class Clustering
von: He, Yihan, et al.
Veröffentlicht: (2025)
von: He, Yihan, et al.
Veröffentlicht: (2025)
Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes
von: Ding, Fangyu, et al.
Veröffentlicht: (2026)
von: Ding, Fangyu, et al.
Veröffentlicht: (2026)
Selective Prompt Anchoring for Code Generation
von: Tian, Yuan, et al.
Veröffentlicht: (2024)
von: Tian, Yuan, et al.
Veröffentlicht: (2024)
UniGraph: Learning a Unified Cross-Domain Foundation Model for Text-Attributed Graphs
von: He, Yufei, et al.
Veröffentlicht: (2024)
von: He, Yufei, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
CE-LoRA: Computation-Efficient LoRA Fine-Tuning for Language Models
von: Chen, Guanduo, et al.
Veröffentlicht: (2025) -
AMS-QUANT: Adaptive Mantissa Sharing for Floating-point Quantization
von: Lv, Mengtao, et al.
Veröffentlicht: (2025) -
Unbiased Compression Saves Communication in Distributed Optimization: When and How Much?
von: He, Yutong, et al.
Veröffentlicht: (2023) -
VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL
von: Hu, Zengjie, et al.
Veröffentlicht: (2025) -
Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference
von: Wu, Tong, et al.
Veröffentlicht: (2025)