Salvato in:
| Autore principale: | Zhang, Yaobo |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.04217 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Circuit Complexity Bounds for RoPE-based Transformer Architecture
di: Chen, Bo, et al.
Pubblicazione: (2024)
di: Chen, Bo, et al.
Pubblicazione: (2024)
Frayed RoPE and Long Inputs: A Geometric Perspective
di: Wertheimer, Davis, et al.
Pubblicazione: (2026)
di: Wertheimer, Davis, et al.
Pubblicazione: (2026)
Demystifying the Slash Pattern in Attention: The Role of RoPE
di: Cheng, Yuan, et al.
Pubblicazione: (2026)
di: Cheng, Yuan, et al.
Pubblicazione: (2026)
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
di: Du, Yufeng, et al.
Pubblicazione: (2026)
di: Du, Yufeng, et al.
Pubblicazione: (2026)
RoPE Attention Can Be Trained in Almost Linear Time
di: Cao, Yang, et al.
Pubblicazione: (2024)
di: Cao, Yang, et al.
Pubblicazione: (2024)
Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
di: Khan, Mohammad Aflah, et al.
Pubblicazione: (2026)
di: Khan, Mohammad Aflah, et al.
Pubblicazione: (2026)
Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers
di: Liu, Feilong
Pubblicazione: (2026)
di: Liu, Feilong
Pubblicazione: (2026)
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs
di: Li, Haoran, et al.
Pubblicazione: (2026)
di: Li, Haoran, et al.
Pubblicazione: (2026)
Theoretical Constraints on the Expressive Power of $\mathsf{RoPE}$-based Tensor Attention Transformers
di: Li, Xiaoyu, et al.
Pubblicazione: (2024)
di: Li, Xiaoyu, et al.
Pubblicazione: (2024)
EliteKV: Scalable KV Cache Compression via RoPE Frequency Selection and Joint Low-Rank Projection
di: Zhou, Yuhao, et al.
Pubblicazione: (2025)
di: Zhou, Yuhao, et al.
Pubblicazione: (2025)
RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution
di: Picov, Isaac, et al.
Pubblicazione: (2026)
di: Picov, Isaac, et al.
Pubblicazione: (2026)
Base of RoPE Bounds Context Length
di: Men, Xin, et al.
Pubblicazione: (2024)
di: Men, Xin, et al.
Pubblicazione: (2024)
Scaling Laws of RoPE-based Extrapolation
di: Liu, Xiaoran, et al.
Pubblicazione: (2023)
di: Liu, Xiaoran, et al.
Pubblicazione: (2023)
Periodic RoPE for Infinite Context LLMs
di: Huo, Simin
Pubblicazione: (2026)
di: Huo, Simin
Pubblicazione: (2026)
Rethinking RoPE: A Mathematical Blueprint for N-dimensional Positional Embedding
di: Liu, Haiping, et al.
Pubblicazione: (2025)
di: Liu, Haiping, et al.
Pubblicazione: (2025)
SeqPE: Transformer with Sequential Position Encoding
di: Li, Huayang, et al.
Pubblicazione: (2025)
di: Li, Huayang, et al.
Pubblicazione: (2025)
Learning the RoPEs: Better 2D and 3D Position Encodings with STRING
di: Schenck, Connor, et al.
Pubblicazione: (2025)
di: Schenck, Connor, et al.
Pubblicazione: (2025)
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective
di: Zhong, Meizhi, et al.
Pubblicazione: (2024)
di: Zhong, Meizhi, et al.
Pubblicazione: (2024)
RoPeSLR: 3D RoPE-driven Sparse-LowRank Attention for Efficient Diffusion Transformers
di: Liu, Yuxi, et al.
Pubblicazione: (2026)
di: Liu, Yuxi, et al.
Pubblicazione: (2026)
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
di: Gokmen, Ahmet Berke, et al.
Pubblicazione: (2025)
di: Gokmen, Ahmet Berke, et al.
Pubblicazione: (2025)
RAP: KV-Cache Compression via RoPE-Aligned Pruning
di: Xin, Jihao, et al.
Pubblicazione: (2026)
di: Xin, Jihao, et al.
Pubblicazione: (2026)
LinearARD: Linear-Memory Attention Distillation for RoPE Restoration
di: Yang, Ning, et al.
Pubblicazione: (2026)
di: Yang, Ning, et al.
Pubblicazione: (2026)
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training
di: Wang, Haonan, et al.
Pubblicazione: (2024)
di: Wang, Haonan, et al.
Pubblicazione: (2024)
ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
di: Li, Bozhou, et al.
Pubblicazione: (2025)
di: Li, Bozhou, et al.
Pubblicazione: (2025)
Positional versus Symbolic Attention Heads: Learning Dynamics, RoPE Geometry, and Length Generalization
di: Urrutia, Felipe, et al.
Pubblicazione: (2026)
di: Urrutia, Felipe, et al.
Pubblicazione: (2026)
RayRoPE: Projective Ray Positional Encoding for Multi-view Attention
di: Wu, Yu, et al.
Pubblicazione: (2026)
di: Wu, Yu, et al.
Pubblicazione: (2026)
PoPE: Legendre Orthogonal Polynomials Based Position Encoding for Large Language Models
di: Aggarwal, Arpit
Pubblicazione: (2024)
di: Aggarwal, Arpit
Pubblicazione: (2024)
On the token distance modeling ability of higher RoPE attention dimension
di: Hong, Xiangyu, et al.
Pubblicazione: (2024)
di: Hong, Xiangyu, et al.
Pubblicazione: (2024)
ReRoPE: Repurposing RoPE for Relative Camera Control
di: Li, Chunyang, et al.
Pubblicazione: (2026)
di: Li, Chunyang, et al.
Pubblicazione: (2026)
Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation
di: Li, Zichong, et al.
Pubblicazione: (2026)
di: Li, Zichong, et al.
Pubblicazione: (2026)
Q-ROAR: Outlier-Aware Rescaling for RoPE Position Interpolation in Quantized Long-Context LLMs
di: Qiao, Ye, et al.
Pubblicazione: (2025)
di: Qiao, Ye, et al.
Pubblicazione: (2025)
Resonance RoPE: Improving Context Length Generalization of Large Language Models
di: Wang, Suyuchen, et al.
Pubblicazione: (2024)
di: Wang, Suyuchen, et al.
Pubblicazione: (2024)
HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation
di: Chen, Yuhan, et al.
Pubblicazione: (2024)
di: Chen, Yuhan, et al.
Pubblicazione: (2024)
RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models
di: Pan, Dayan, et al.
Pubblicazione: (2025)
di: Pan, Dayan, et al.
Pubblicazione: (2025)
Fast RoPE Attention: Combining the Polynomial Method and Fast Fourier Transform
di: Alman, Josh, et al.
Pubblicazione: (2025)
di: Alman, Josh, et al.
Pubblicazione: (2025)
On the Geometry of Positional Encodings in Transformers
di: Cirrincione, Giansalvo
Pubblicazione: (2026)
di: Cirrincione, Giansalvo
Pubblicazione: (2026)
Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
di: Zuo, Chunsheng, et al.
Pubblicazione: (2024)
di: Zuo, Chunsheng, et al.
Pubblicazione: (2024)
RoBERTurk: Adjusting RoBERTa for Turkish
di: Tas, Nuri
Pubblicazione: (2024)
di: Tas, Nuri
Pubblicazione: (2024)
PaTH Attention: Position Encoding via Accumulating Householder Transformations
di: Yang, Songlin, et al.
Pubblicazione: (2025)
di: Yang, Songlin, et al.
Pubblicazione: (2025)
Group Representational Position Encoding
di: Zhang, Yifan, et al.
Pubblicazione: (2025)
di: Zhang, Yifan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Circuit Complexity Bounds for RoPE-based Transformer Architecture
di: Chen, Bo, et al.
Pubblicazione: (2024) -
Frayed RoPE and Long Inputs: A Geometric Perspective
di: Wertheimer, Davis, et al.
Pubblicazione: (2026) -
Demystifying the Slash Pattern in Attention: The Role of RoPE
di: Cheng, Yuan, et al.
Pubblicazione: (2026) -
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
di: Du, Yufeng, et al.
Pubblicazione: (2026) -
RoPE Attention Can Be Trained in Almost Linear Time
di: Cao, Yang, et al.
Pubblicazione: (2024)