Gespeichert in:
| 1. Verfasser: | Acharya, Rishiraj |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2509.00605 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Star Attention: Efficient LLM Inference over Long Sequences
von: Acharya, Shantanu, et al.
Veröffentlicht: (2024)
von: Acharya, Shantanu, et al.
Veröffentlicht: (2024)
Phase-Associative Memory: Sequence Modeling in Complex Hilbert Space
von: Vishwakarma, Gowrav, et al.
Veröffentlicht: (2026)
von: Vishwakarma, Gowrav, et al.
Veröffentlicht: (2026)
Linear Attention Sequence Parallelism
von: Sun, Weigao, et al.
Veröffentlicht: (2024)
von: Sun, Weigao, et al.
Veröffentlicht: (2024)
SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs
von: Wang, Sijia, et al.
Veröffentlicht: (2026)
von: Wang, Sijia, et al.
Veröffentlicht: (2026)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference
von: Chen, Hao Mark, et al.
Veröffentlicht: (2024)
von: Chen, Hao Mark, et al.
Veröffentlicht: (2024)
Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
von: Ma, Xuezhe, et al.
Veröffentlicht: (2026)
von: Ma, Xuezhe, et al.
Veröffentlicht: (2026)
Structured Recurrent Mixers for Massively Parallelized Sequence Generation
von: Badger, Benjamin L.
Veröffentlicht: (2026)
von: Badger, Benjamin L.
Veröffentlicht: (2026)
MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models
von: Zhang, Junyang, et al.
Veröffentlicht: (2025)
von: Zhang, Junyang, et al.
Veröffentlicht: (2025)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
von: Yang, Songlin, et al.
Veröffentlicht: (2024)
von: Yang, Songlin, et al.
Veröffentlicht: (2024)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding
von: Xiao, Zilin, et al.
Veröffentlicht: (2024)
von: Xiao, Zilin, et al.
Veröffentlicht: (2024)
Pipeline Parallelism with Controllable Memory
von: Qi, Penghui, et al.
Veröffentlicht: (2024)
von: Qi, Penghui, et al.
Veröffentlicht: (2024)
Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization
von: Challagundla, Bhavith Chandra, et al.
Veröffentlicht: (2024)
von: Challagundla, Bhavith Chandra, et al.
Veröffentlicht: (2024)
MoM: Linear Sequence Modeling with Mixture-of-Memories
von: Du, Jusen, et al.
Veröffentlicht: (2025)
von: Du, Jusen, et al.
Veröffentlicht: (2025)
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
von: Geiping, Jonas, et al.
Veröffentlicht: (2025)
von: Geiping, Jonas, et al.
Veröffentlicht: (2025)
FourierNAT: A Fourier-Mixing-Based Non-Autoregressive Transformer for Parallel Sequence Generation
von: Kiruluta, Andrew, et al.
Veröffentlicht: (2025)
von: Kiruluta, Andrew, et al.
Veröffentlicht: (2025)
SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models
von: Shen, Shuaijie, et al.
Veröffentlicht: (2024)
von: Shen, Shuaijie, et al.
Veröffentlicht: (2024)
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts
von: Sivtsov, Danil, et al.
Veröffentlicht: (2025)
von: Sivtsov, Danil, et al.
Veröffentlicht: (2025)
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
von: De, Soham, et al.
Veröffentlicht: (2024)
von: De, Soham, et al.
Veröffentlicht: (2024)
Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
von: Omidi, Parsa, et al.
Veröffentlicht: (2025)
von: Omidi, Parsa, et al.
Veröffentlicht: (2025)
Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression
von: Peng, Liangzu, et al.
Veröffentlicht: (2025)
von: Peng, Liangzu, et al.
Veröffentlicht: (2025)
A Survey on Symbolic Knowledge Distillation of Large Language Models
von: Acharya, Kamal, et al.
Veröffentlicht: (2024)
von: Acharya, Kamal, et al.
Veröffentlicht: (2024)
360-LLaMA-Factory: Plug & Play Sequence Parallelism for Long Post-Training
von: Zou, Haosheng, et al.
Veröffentlicht: (2025)
von: Zou, Haosheng, et al.
Veröffentlicht: (2025)
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
von: Ou, Jie, et al.
Veröffentlicht: (2024)
von: Ou, Jie, et al.
Veröffentlicht: (2024)
Gated Linear Attention Transformers with Hardware-Efficient Training
von: Yang, Songlin, et al.
Veröffentlicht: (2023)
von: Yang, Songlin, et al.
Veröffentlicht: (2023)
Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling
von: Egli, Eric, et al.
Veröffentlicht: (2025)
von: Egli, Eric, et al.
Veröffentlicht: (2025)
Native Hybrid Attention for Efficient Sequence Modeling
von: Du, Jusen, et al.
Veröffentlicht: (2025)
von: Du, Jusen, et al.
Veröffentlicht: (2025)
Cognitively-Inspired Episodic Memory Architectures for Accurate and Efficient Character AI
von: Gonzalez, Rafael Arias, et al.
Veröffentlicht: (2025)
von: Gonzalez, Rafael Arias, et al.
Veröffentlicht: (2025)
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
von: Sun, Weigao, et al.
Veröffentlicht: (2025)
von: Sun, Weigao, et al.
Veröffentlicht: (2025)
Rethinking Associative Memory Mechanism in Induction Head
von: Wang, Shuo, et al.
Veröffentlicht: (2024)
von: Wang, Shuo, et al.
Veröffentlicht: (2024)
Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
von: Huang, Mincong, et al.
Veröffentlicht: (2024)
von: Huang, Mincong, et al.
Veröffentlicht: (2024)
GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling
von: Katsch, Tobias
Veröffentlicht: (2023)
von: Katsch, Tobias
Veröffentlicht: (2023)
PGF-Net: A Progressive Gated-Fusion Framework for Efficient Multimodal Sentiment Analysis
von: Wen, Bin, et al.
Veröffentlicht: (2025)
von: Wen, Bin, et al.
Veröffentlicht: (2025)
Efficient Context Propagating Perceiver Architectures for Auto-Regressive Language Modeling
von: Mahmood, Kaleel, et al.
Veröffentlicht: (2024)
von: Mahmood, Kaleel, et al.
Veröffentlicht: (2024)
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
von: Kim, Jang-Hyun, et al.
Veröffentlicht: (2026)
von: Kim, Jang-Hyun, et al.
Veröffentlicht: (2026)
TeleLoRA: Teleporting Model-Specific Alignment Across LLMs
von: Lin, Xiao, et al.
Veröffentlicht: (2025)
von: Lin, Xiao, et al.
Veröffentlicht: (2025)
Parallel Scaling Law for Language Models
von: Chen, Mouxiang, et al.
Veröffentlicht: (2025)
von: Chen, Mouxiang, et al.
Veröffentlicht: (2025)
Parallel Token Prediction for Language Models
von: Draxler, Felix, et al.
Veröffentlicht: (2025)
von: Draxler, Felix, et al.
Veröffentlicht: (2025)
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
von: Lian, Long, et al.
Veröffentlicht: (2025)
von: Lian, Long, et al.
Veröffentlicht: (2025)
NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments
von: Ghimire, Rupak Raj, et al.
Veröffentlicht: (2026)
von: Ghimire, Rupak Raj, et al.
Veröffentlicht: (2026)
Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks
von: Pink, Mathis, et al.
Veröffentlicht: (2024)
von: Pink, Mathis, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
Star Attention: Efficient LLM Inference over Long Sequences
von: Acharya, Shantanu, et al.
Veröffentlicht: (2024) -
Phase-Associative Memory: Sequence Modeling in Complex Hilbert Space
von: Vishwakarma, Gowrav, et al.
Veröffentlicht: (2026) -
Linear Attention Sequence Parallelism
von: Sun, Weigao, et al.
Veröffentlicht: (2024) -
SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs
von: Wang, Sijia, et al.
Veröffentlicht: (2026) -
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference
von: Chen, Hao Mark, et al.
Veröffentlicht: (2024)