:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Tong, Junlong, Fu, Jinlan, Lin, Zixuan, Fan, Yingqi, Zhao, Anhao, Su, Hui, Shen, Xiaoyu
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language
Accès en ligne:	https://arxiv.org/abs/2505.16983
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

StreamingThinker: Large Language Models Can Think While Reading
par: Tong, Junlong, et autres
Publié: (2025)

$\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs
par: Fan, Yingqi, et autres
Publié: (2025)

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
par: Fan, Yingqi, et autres
Publié: (2026)

SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling
par: Zhao, Anhao, et autres
Publié: (2025)

Decoupling KL and Trajectories: A Unified Perspective for SFT, DAgger, Offline RL, and OPD in LLM Distillation
par: Zhao, Anhao, et autres
Publié: (2026)

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism
par: Zhao, Anhao, et autres
Publié: (2024)

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
par: Wu, Hao, et autres
Publié: (2026)

From Static Inference to Dynamic Interaction: A Survey of Streaming Large Language Models
par: Tong, Junlong, et autres
Publié: (2026)

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
par: Liu, Wenjie, et autres
Publié: (2026)

On-Policy Supervised Fine-Tuning for Efficient Reasoning
par: Zhao, Anhao, et autres
Publié: (2026)

Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge
par: Fu, Jinlan, et autres
Publié: (2024)

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
par: Zhang, Haowei, et autres
Publié: (2026)

Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices
par: Lin, Junyan, et autres
Publié: (2025)

SirLLM: Streaming Infinite Retentive LLM
par: Yao, Yao, et autres
Publié: (2024)

From Batch to Stream: Automatic Generation of Online Algorithms
par: Wang, Ziteng, et autres
Publié: (2024)

SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation
par: He, Zicheng, et autres
Publié: (2026)

The Few Govern the Many:Unveiling Few-Layer Dominance for Time Series Models
par: Qiu, Xin, et autres
Publié: (2025)

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
par: Zhang, Jialiang, et autres
Publié: (2026)

Group Representational Position Encoding
par: Zhang, Yifan, et autres
Publié: (2025)

Rethinking the Role of LLMs in Time Series Forecasting
par: Qiu, Xin, et autres
Publié: (2026)

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
par: Su, Guinan, et autres
Publié: (2026)

Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models
par: Lin, Junyan, et autres
Publié: (2026)

An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding
par: Wu, Tong, et autres
Publié: (2024)

MCM-DPO: Multifaceted Cross-Modal Direct Preference Optimization for Alt-text Generation
par: Fu, Jinlan, et autres
Publié: (2025)

Speculative Streaming: Fast LLM Inference without Auxiliary Models
par: Bhendawade, Nikhil, et autres
Publié: (2024)

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition
par: Xia, Yinfeng, et autres
Publié: (2026)

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads
par: Xiao, Guangxuan, et autres
Publié: (2024)

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
par: Wang, Haibo, et autres
Publié: (2025)

CET2: Modelling Topic Transitions for Coherent and Engaging Knowledge-Grounded Conversations
par: Xu, Lin, et autres
Publié: (2024)

StreamAdapter: Efficient Test Time Adaptation from Contextual Streams
par: Muhtar, Dilxat, et autres
Publié: (2024)

Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling
par: Zeghidour, Neil, et autres
Publié: (2025)

Efficient Streaming LLM for Speech Recognition
par: Jia, Junteng, et autres
Publié: (2024)

CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
par: Fu, Jinlan, et autres
Publié: (2025)

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking
par: Wu, Hao, et autres
Publié: (2026)

Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations
par: Yao, Yuxuan, et autres
Publié: (2026)

Stream Types
par: Cutler, Joseph W., et autres
Publié: (2023)

Dissecting Human and LLM Preferences
par: Li, Junlong, et autres
Publié: (2024)

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning
par: Chen, Xinghao, et autres
Publié: (2025)

ListConRanker: A Contrastive Text Reranker with Listwise Encoding
par: Liu, Junlong, et autres
Publié: (2025)

Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs
par: Su, Siyue, et autres
Publié: (2026)