:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Sun, Weigao, Hu, Jiaxi, Zhou, Yucheng, Du, Jusen, Lan, Disen, Wang, Kexin, Zhu, Tong, Qu, Xiaoye, Zhang, Yu, Mo, Xiaoyu, Liu, Daizong, Liang, Yuxuan, Chen, Wenliang, Li, Guoqi, Cheng, Yu
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computation and Language Artificial Intelligence Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2508.09834
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Liger: Linearizing Large Language Models to Gated Recurrent Structures
di: Lan, Disen, et al.
Pubblicazione: (2025)

MoM: Linear Sequence Modeling with Mixture-of-Memories
di: Du, Jusen, et al.
Pubblicazione: (2025)

Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
di: Sun, Weigao, et al.
Pubblicazione: (2025)

Comba: Improving Bilinear RNNs with Closed-loop Control
di: Hu, Jiaxi, et al.
Pubblicazione: (2025)

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid
di: Sun, Weigao, et al.
Pubblicazione: (2025)

Native Hybrid Attention for Efficient Sequence Modeling
di: Du, Jusen, et al.
Pubblicazione: (2025)

LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)

A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends
di: Liu, Daizong, et al.
Pubblicazione: (2024)

Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts
di: Zhu, Tong, et al.
Pubblicazione: (2024)

VideoSSR: Video Self-Supervised Reinforcement Learning
di: He, Zefeng, et al.
Pubblicazione: (2025)

FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
di: He, Zefeng, et al.
Pubblicazione: (2025)

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
di: Qu, Xiaoye, et al.
Pubblicazione: (2025)

Rethinking Video-Language Model from the Language Input Perspective
di: Fang, Xiang, et al.
Pubblicazione: (2026)

Spotlight on Token Perception for Multimodal Reinforcement Learning
di: Huang, Siyuan, et al.
Pubblicazione: (2025)

Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints
di: Chen, Guanjie, et al.
Pubblicazione: (2024)

In This Apportionment Lottery, the House Always Wins
di: Gölz, Paul, et al.
Pubblicazione: (2022)

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
di: Huang, Siyuan, et al.
Pubblicazione: (2026)

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
di: Qin, Zhen, et al.
Pubblicazione: (2024)

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
di: Zhang, Jihai, et al.
Pubblicazione: (2024)

SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
di: Sun, Jiashuo, et al.
Pubblicazione: (2024)

Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting
di: Hu, Jiaxi, et al.
Pubblicazione: (2024)

How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them
di: Liao, Disen, et al.
Pubblicazione: (2026)

LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training
di: Zhu, Tong, et al.
Pubblicazione: (2024)

Rethinking Weakly-supervised Video Temporal Grounding From a Game Perspective
di: Fang, Xiang, et al.
Pubblicazione: (2026)

ExFusion: Efficient Transformer Training via Multi-Experts Fusion
di: Ruan, Jiacheng, et al.
Pubblicazione: (2026)

Not All Inputs Are Valid: Towards Open-Set Video Moment Retrieval Using Language
di: Fang, Xiang, et al.
Pubblicazione: (2026)

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
di: He, Zefeng, et al.
Pubblicazione: (2025)

Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning
di: Zhang, Jihai, et al.
Pubblicazione: (2024)

Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning
di: Liao, Xinyao, et al.
Pubblicazione: (2025)

SEE: Continual Fine-tuning with Sequential Ensemble of Experts
di: Wang, Zhilin, et al.
Pubblicazione: (2025)

Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
di: Lin, Junan, et al.
Pubblicazione: (2025)

Mitigating Multilingual Hallucination in Large Vision-Language Models
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)

Toward Efficient Agents: Memory, Tool learning, and Planning
di: Yang, Xiaofang, et al.
Pubblicazione: (2026)

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
di: Song, Mingyang, et al.
Pubblicazione: (2025)

Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning
di: Qu, Xiaoye, et al.
Pubblicazione: (2024)

SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring
di: Shen, Chuming, et al.
Pubblicazione: (2025)

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
di: Li, Yafu, et al.
Pubblicazione: (2025)

GEMS: Agent-Native Multimodal Generation with Memory and Skills
di: He, Zefeng, et al.
Pubblicazione: (2026)

Timo: Towards Better Temporal Reasoning for Language Models
di: Su, Zhaochen, et al.
Pubblicazione: (2024)

Fast3D: Accelerating 3D Multi-modal Large Language Models for Efficient 3D Scene Understanding
di: Huang, Wencan, et al.
Pubblicazione: (2025)