:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
1. Verfasser:	Acharya, Rishiraj
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computation and Language Machine Learning
Online-Zugang:	https://arxiv.org/abs/2509.00605
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Star Attention: Efficient LLM Inference over Long Sequences
von: Acharya, Shantanu, et al.
Veröffentlicht: (2024)

Phase-Associative Memory: Sequence Modeling in Complex Hilbert Space
von: Vishwakarma, Gowrav, et al.
Veröffentlicht: (2026)

Linear Attention Sequence Parallelism
von: Sun, Weigao, et al.
Veröffentlicht: (2024)

SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs
von: Wang, Sijia, et al.
Veröffentlicht: (2026)

Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference
von: Chen, Hao Mark, et al.
Veröffentlicht: (2024)

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
von: Ma, Xuezhe, et al.
Veröffentlicht: (2026)

Structured Recurrent Mixers for Massively Parallelized Sequence Generation
von: Badger, Benjamin L.
Veröffentlicht: (2026)

MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models
von: Zhang, Junyang, et al.
Veröffentlicht: (2025)

Parallelizing Linear Transformers with the Delta Rule over Sequence Length
von: Yang, Songlin, et al.
Veröffentlicht: (2024)

ParallelSpec: Parallel Drafter for Efficient Speculative Decoding
von: Xiao, Zilin, et al.
Veröffentlicht: (2024)

Pipeline Parallelism with Controllable Memory
von: Qi, Penghui, et al.
Veröffentlicht: (2024)

Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization
von: Challagundla, Bhavith Chandra, et al.
Veröffentlicht: (2024)

MoM: Linear Sequence Modeling with Mixture-of-Memories
von: Du, Jusen, et al.
Veröffentlicht: (2025)

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
von: Geiping, Jonas, et al.
Veröffentlicht: (2025)

FourierNAT: A Fourier-Mixing-Based Non-Autoregressive Transformer for Parallel Sequence Generation
von: Kiruluta, Andrew, et al.
Veröffentlicht: (2025)

SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models
von: Shen, Shuaijie, et al.
Veröffentlicht: (2024)

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts
von: Sivtsov, Danil, et al.
Veröffentlicht: (2025)

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
von: De, Soham, et al.
Veröffentlicht: (2024)

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
von: Omidi, Parsa, et al.
Veröffentlicht: (2025)

Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression
von: Peng, Liangzu, et al.
Veröffentlicht: (2025)

A Survey on Symbolic Knowledge Distillation of Large Language Models
von: Acharya, Kamal, et al.
Veröffentlicht: (2024)

360-LLaMA-Factory: Plug & Play Sequence Parallelism for Long Post-Training
von: Zou, Haosheng, et al.
Veröffentlicht: (2025)

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
von: Ou, Jie, et al.
Veröffentlicht: (2024)

Gated Linear Attention Transformers with Hardware-Efficient Training
von: Yang, Songlin, et al.
Veröffentlicht: (2023)

Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling
von: Egli, Eric, et al.
Veröffentlicht: (2025)

Native Hybrid Attention for Efficient Sequence Modeling
von: Du, Jusen, et al.
Veröffentlicht: (2025)

Cognitively-Inspired Episodic Memory Architectures for Accurate and Efficient Character AI
von: Gonzalez, Rafael Arias, et al.
Veröffentlicht: (2025)

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
von: Sun, Weigao, et al.
Veröffentlicht: (2025)

Rethinking Associative Memory Mechanism in Induction Head
von: Wang, Shuo, et al.
Veröffentlicht: (2024)

Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
von: Huang, Mincong, et al.
Veröffentlicht: (2024)

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling
von: Katsch, Tobias
Veröffentlicht: (2023)

PGF-Net: A Progressive Gated-Fusion Framework for Efficient Multimodal Sentiment Analysis
von: Wen, Bin, et al.
Veröffentlicht: (2025)

Efficient Context Propagating Perceiver Architectures for Auto-Regressive Language Modeling
von: Mahmood, Kaleel, et al.
Veröffentlicht: (2024)

Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction
von: Kim, Jang-Hyun, et al.
Veröffentlicht: (2026)

TeleLoRA: Teleporting Model-Specific Alignment Across LLMs
von: Lin, Xiao, et al.
Veröffentlicht: (2025)

Parallel Scaling Law for Language Models
von: Chen, Mouxiang, et al.
Veröffentlicht: (2025)

Parallel Token Prediction for Language Models
von: Draxler, Felix, et al.
Veröffentlicht: (2025)

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
von: Lian, Long, et al.
Veröffentlicht: (2025)

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments
von: Ghimire, Rupak Raj, et al.
Veröffentlicht: (2026)

Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks
von: Pink, Mathis, et al.
Veröffentlicht: (2024)