Salvato in:
| Autori principali: | Sun, Weigao, Hu, Jiaxi, Zhou, Yucheng, Du, Jusen, Lan, Disen, Wang, Kexin, Zhu, Tong, Qu, Xiaoye, Zhang, Yu, Mo, Xiaoyu, Liu, Daizong, Liang, Yuxuan, Chen, Wenliang, Li, Guoqi, Cheng, Yu |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.09834 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Liger: Linearizing Large Language Models to Gated Recurrent Structures
di: Lan, Disen, et al.
Pubblicazione: (2025)
di: Lan, Disen, et al.
Pubblicazione: (2025)
MoM: Linear Sequence Modeling with Mixture-of-Memories
di: Du, Jusen, et al.
Pubblicazione: (2025)
di: Du, Jusen, et al.
Pubblicazione: (2025)
Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
di: Sun, Weigao, et al.
Pubblicazione: (2025)
di: Sun, Weigao, et al.
Pubblicazione: (2025)
Comba: Improving Bilinear RNNs with Closed-loop Control
di: Hu, Jiaxi, et al.
Pubblicazione: (2025)
di: Hu, Jiaxi, et al.
Pubblicazione: (2025)
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
di: Sun, Weigao, et al.
Pubblicazione: (2025)
di: Sun, Weigao, et al.
Pubblicazione: (2025)
Native Hybrid Attention for Efficient Sequence Modeling
di: Du, Jusen, et al.
Pubblicazione: (2025)
di: Du, Jusen, et al.
Pubblicazione: (2025)
LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends
di: Liu, Daizong, et al.
Pubblicazione: (2024)
di: Liu, Daizong, et al.
Pubblicazione: (2024)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts
di: Zhu, Tong, et al.
Pubblicazione: (2024)
di: Zhu, Tong, et al.
Pubblicazione: (2024)
VideoSSR: Video Self-Supervised Reinforcement Learning
di: He, Zefeng, et al.
Pubblicazione: (2025)
di: He, Zefeng, et al.
Pubblicazione: (2025)
FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
di: He, Zefeng, et al.
Pubblicazione: (2025)
di: He, Zefeng, et al.
Pubblicazione: (2025)
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
di: Qu, Xiaoye, et al.
Pubblicazione: (2025)
di: Qu, Xiaoye, et al.
Pubblicazione: (2025)
Rethinking Video-Language Model from the Language Input Perspective
di: Fang, Xiang, et al.
Pubblicazione: (2026)
di: Fang, Xiang, et al.
Pubblicazione: (2026)
Spotlight on Token Perception for Multimodal Reinforcement Learning
di: Huang, Siyuan, et al.
Pubblicazione: (2025)
di: Huang, Siyuan, et al.
Pubblicazione: (2025)
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints
di: Chen, Guanjie, et al.
Pubblicazione: (2024)
di: Chen, Guanjie, et al.
Pubblicazione: (2024)
In This Apportionment Lottery, the House Always Wins
di: Gölz, Paul, et al.
Pubblicazione: (2022)
di: Gölz, Paul, et al.
Pubblicazione: (2022)
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
di: Huang, Siyuan, et al.
Pubblicazione: (2026)
di: Huang, Siyuan, et al.
Pubblicazione: (2026)
Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
di: Qin, Zhen, et al.
Pubblicazione: (2024)
di: Qin, Zhen, et al.
Pubblicazione: (2024)
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
di: Zhang, Jihai, et al.
Pubblicazione: (2024)
di: Zhang, Jihai, et al.
Pubblicazione: (2024)
SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
di: Sun, Jiashuo, et al.
Pubblicazione: (2024)
di: Sun, Jiashuo, et al.
Pubblicazione: (2024)
Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting
di: Hu, Jiaxi, et al.
Pubblicazione: (2024)
di: Hu, Jiaxi, et al.
Pubblicazione: (2024)
How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them
di: Liao, Disen, et al.
Pubblicazione: (2026)
di: Liao, Disen, et al.
Pubblicazione: (2026)
LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training
di: Zhu, Tong, et al.
Pubblicazione: (2024)
di: Zhu, Tong, et al.
Pubblicazione: (2024)
Rethinking Weakly-supervised Video Temporal Grounding From a Game Perspective
di: Fang, Xiang, et al.
Pubblicazione: (2026)
di: Fang, Xiang, et al.
Pubblicazione: (2026)
ExFusion: Efficient Transformer Training via Multi-Experts Fusion
di: Ruan, Jiacheng, et al.
Pubblicazione: (2026)
di: Ruan, Jiacheng, et al.
Pubblicazione: (2026)
Not All Inputs Are Valid: Towards Open-Set Video Moment Retrieval Using Language
di: Fang, Xiang, et al.
Pubblicazione: (2026)
di: Fang, Xiang, et al.
Pubblicazione: (2026)
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
di: He, Zefeng, et al.
Pubblicazione: (2025)
di: He, Zefeng, et al.
Pubblicazione: (2025)
Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning
di: Zhang, Jihai, et al.
Pubblicazione: (2024)
di: Zhang, Jihai, et al.
Pubblicazione: (2024)
Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning
di: Liao, Xinyao, et al.
Pubblicazione: (2025)
di: Liao, Xinyao, et al.
Pubblicazione: (2025)
SEE: Continual Fine-tuning with Sequential Ensemble of Experts
di: Wang, Zhilin, et al.
Pubblicazione: (2025)
di: Wang, Zhilin, et al.
Pubblicazione: (2025)
Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
di: Lin, Junan, et al.
Pubblicazione: (2025)
di: Lin, Junan, et al.
Pubblicazione: (2025)
Mitigating Multilingual Hallucination in Large Vision-Language Models
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
Toward Efficient Agents: Memory, Tool learning, and Planning
di: Yang, Xiaofang, et al.
Pubblicazione: (2026)
di: Yang, Xiaofang, et al.
Pubblicazione: (2026)
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
di: Song, Mingyang, et al.
Pubblicazione: (2025)
di: Song, Mingyang, et al.
Pubblicazione: (2025)
Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)
SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
di: Shen, Chuming, et al.
Pubblicazione: (2025)
di: Shen, Chuming, et al.
Pubblicazione: (2025)
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
di: Li, Yafu, et al.
Pubblicazione: (2025)
di: Li, Yafu, et al.
Pubblicazione: (2025)
GEMS: Agent-Native Multimodal Generation with Memory and Skills
di: He, Zefeng, et al.
Pubblicazione: (2026)
di: He, Zefeng, et al.
Pubblicazione: (2026)
Timo: Towards Better Temporal Reasoning for Language Models
di: Su, Zhaochen, et al.
Pubblicazione: (2024)
di: Su, Zhaochen, et al.
Pubblicazione: (2024)
Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding
di: Huang, Wencan, et al.
Pubblicazione: (2025)
di: Huang, Wencan, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Liger: Linearizing Large Language Models to Gated Recurrent Structures
di: Lan, Disen, et al.
Pubblicazione: (2025) -
MoM: Linear Sequence Modeling with Mixture-of-Memories
di: Du, Jusen, et al.
Pubblicazione: (2025) -
Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
di: Sun, Weigao, et al.
Pubblicazione: (2025) -
Comba: Improving Bilinear RNNs with Closed-loop Control
di: Hu, Jiaxi, et al.
Pubblicazione: (2025) -
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
di: Sun, Weigao, et al.
Pubblicazione: (2025)