Enregistré dans:
| Auteurs principaux: | Tong, Junlong, Fu, Jinlan, Lin, Zixuan, Fan, Yingqi, Zhao, Anhao, Su, Hui, Shen, Xiaoyu |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2505.16983 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
StreamingThinker: Large Language Models Can Think While Reading
par: Tong, Junlong, et autres
Publié: (2025)
par: Tong, Junlong, et autres
Publié: (2025)
$\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs
par: Fan, Yingqi, et autres
Publié: (2025)
par: Fan, Yingqi, et autres
Publié: (2025)
What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
par: Fan, Yingqi, et autres
Publié: (2026)
par: Fan, Yingqi, et autres
Publié: (2026)
SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling
par: Zhao, Anhao, et autres
Publié: (2025)
par: Zhao, Anhao, et autres
Publié: (2025)
Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation
par: Zhao, Anhao, et autres
Publié: (2026)
par: Zhao, Anhao, et autres
Publié: (2026)
Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism
par: Zhao, Anhao, et autres
Publié: (2024)
par: Zhao, Anhao, et autres
Publié: (2024)
HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
par: Wu, Hao, et autres
Publié: (2026)
par: Wu, Hao, et autres
Publié: (2026)
From Static Inference to Dynamic Interaction: A Survey of Streaming Large Language Models
par: Tong, Junlong, et autres
Publié: (2026)
par: Tong, Junlong, et autres
Publié: (2026)
ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
par: Liu, Wenjie, et autres
Publié: (2026)
par: Liu, Wenjie, et autres
Publié: (2026)
On-Policy Supervised Fine-Tuning for Efficient Reasoning
par: Zhao, Anhao, et autres
Publié: (2026)
par: Zhao, Anhao, et autres
Publié: (2026)
Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge
par: Fu, Jinlan, et autres
Publié: (2024)
par: Fu, Jinlan, et autres
Publié: (2024)
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
par: Zhang, Haowei, et autres
Publié: (2026)
par: Zhang, Haowei, et autres
Publié: (2026)
Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices
par: Lin, Junyan, et autres
Publié: (2025)
par: Lin, Junyan, et autres
Publié: (2025)
SirLLM: Streaming Infinite Retentive LLM
par: Yao, Yao, et autres
Publié: (2024)
par: Yao, Yao, et autres
Publié: (2024)
From Batch to Stream: Automatic Generation of Online Algorithms
par: Wang, Ziteng, et autres
Publié: (2024)
par: Wang, Ziteng, et autres
Publié: (2024)
SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation
par: He, Zicheng, et autres
Publié: (2026)
par: He, Zicheng, et autres
Publié: (2026)
The Few Govern the Many:Unveiling Few-Layer Dominance for Time Series Models
par: Qiu, Xin, et autres
Publié: (2025)
par: Qiu, Xin, et autres
Publié: (2025)
Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
par: Zhang, Jialiang, et autres
Publié: (2026)
par: Zhang, Jialiang, et autres
Publié: (2026)
Group Representational Position Encoding
par: Zhang, Yifan, et autres
Publié: (2025)
par: Zhang, Yifan, et autres
Publié: (2025)
Rethinking the Role of LLMs in Time Series Forecasting
par: Qiu, Xin, et autres
Publié: (2026)
par: Qiu, Xin, et autres
Publié: (2026)
Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
par: Su, Guinan, et autres
Publié: (2026)
par: Su, Guinan, et autres
Publié: (2026)
Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models
par: Lin, Junyan, et autres
Publié: (2026)
par: Lin, Junyan, et autres
Publié: (2026)
An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding
par: Wu, Tong, et autres
Publié: (2024)
par: Wu, Tong, et autres
Publié: (2024)
MCM-DPO: Multifaceted Cross-Modal Direct Preference Optimization for Alt-text Generation
par: Fu, Jinlan, et autres
Publié: (2025)
par: Fu, Jinlan, et autres
Publié: (2025)
Speculative Streaming: Fast LLM Inference without Auxiliary Models
par: Bhendawade, Nikhil, et autres
Publié: (2024)
par: Bhendawade, Nikhil, et autres
Publié: (2024)
Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition
par: Xia, Yinfeng, et autres
Publié: (2026)
par: Xia, Yinfeng, et autres
Publié: (2026)
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
par: Xiao, Guangxuan, et autres
Publié: (2024)
par: Xiao, Guangxuan, et autres
Publié: (2024)
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
par: Wang, Haibo, et autres
Publié: (2025)
par: Wang, Haibo, et autres
Publié: (2025)
CET2: Modelling Topic Transitions for Coherent and Engaging Knowledge-Grounded Conversations
par: Xu, Lin, et autres
Publié: (2024)
par: Xu, Lin, et autres
Publié: (2024)
StreamAdapter: Efficient Test Time Adaptation from Contextual Streams
par: Muhtar, Dilxat, et autres
Publié: (2024)
par: Muhtar, Dilxat, et autres
Publié: (2024)
Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling
par: Zeghidour, Neil, et autres
Publié: (2025)
par: Zeghidour, Neil, et autres
Publié: (2025)
Efficient Streaming LLM for Speech Recognition
par: Jia, Junteng, et autres
Publié: (2024)
par: Jia, Junteng, et autres
Publié: (2024)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
par: Fu, Jinlan, et autres
Publié: (2025)
par: Fu, Jinlan, et autres
Publié: (2025)
UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
par: Wu, Hao, et autres
Publié: (2026)
par: Wu, Hao, et autres
Publié: (2026)
Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations
par: Yao, Yuxuan, et autres
Publié: (2026)
par: Yao, Yuxuan, et autres
Publié: (2026)
Stream Types
par: Cutler, Joseph W., et autres
Publié: (2023)
par: Cutler, Joseph W., et autres
Publié: (2023)
Dissecting Human and LLM Preferences
par: Li, Junlong, et autres
Publié: (2024)
par: Li, Junlong, et autres
Publié: (2024)
Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning
par: Chen, Xinghao, et autres
Publié: (2025)
par: Chen, Xinghao, et autres
Publié: (2025)
ListConRanker: A Contrastive Text Reranker with Listwise Encoding
par: Liu, Junlong, et autres
Publié: (2025)
par: Liu, Junlong, et autres
Publié: (2025)
Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs
par: Su, Siyue, et autres
Publié: (2026)
par: Su, Siyue, et autres
Publié: (2026)
Documents similaires
-
StreamingThinker: Large Language Models Can Think While Reading
par: Tong, Junlong, et autres
Publié: (2025) -
$\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs
par: Fan, Yingqi, et autres
Publié: (2025) -
What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
par: Fan, Yingqi, et autres
Publié: (2026) -
SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling
par: Zhao, Anhao, et autres
Publié: (2025) -
Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation
par: Zhao, Anhao, et autres
Publié: (2026)