:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Cheng, Baoping, Lei, Peng, Xie, Xiaoyan, Fu, Tao, Zhang, Yukun, Tao, Xiaoming
Format:	Preprint
Published:	2024
Subjects:	Multimedia
Online Access:	https://arxiv.org/abs/2408.07957
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Tube-Structured Incremental Semantic HARQ for Generative Video Receivers
by: Wang, Xuesong, et al.
Published: (2026)

Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning
by: Xu, Xinmeng, et al.
Published: (2026)

Few-shot Semantic Encoding and Decoding for Video Surveillance
by: Cheng, Baoping, et al.
Published: (2025)

Optimizing Mobile-Friendly Viewport Prediction for Live 360-Degree Video Streaming
by: Zhang, Lei, et al.
Published: (2024)

Object-Attribute-Relation Representation Based Video Semantic Communication
by: Du, Qiyuan, et al.
Published: (2024)

Exploring the Role of Audio in Multimodal Misinformation Detection
by: Liu, Moyang, et al.
Published: (2024)

Interest-Aware Joint Caching, Computing, and Communication Optimization for Mobile VR Delivery in MEC Networks
by: Fu, Baojie, et al.
Published: (2024)

ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation
by: Zhang, Haoshuo, et al.
Published: (2025)

Contextual Wireless Video Semantic Communication in MIMO-OFDM Systems
by: Xie, Bingyan, et al.
Published: (2026)

Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios
by: Zhang, Yuan, et al.
Published: (2024)

Delving Deeper: Hierarchical Visual Perception for Robust Video-Text Retrieval
by: Xie, Zequn, et al.
Published: (2026)

Hybrid CNN-Mamba Enhancement Network for Robust Multimodal Sentiment Analysis
by: Li, Xiang, et al.
Published: (2025)

Startup Delay Aware Short Video Ordering: Problem, Model, and A Reinforcement Learning based Algorithm
by: Gao, Zhipeng, et al.
Published: (2024)

Modeling the Impacts of Swipe Delay on User Quality of Experience in Short Video Streaming
by: Nguyen, Duc V., et al.
Published: (2026)

A Video Steganography for H.265/HEVC Based on Multiple CU Size and Block Structure Distortion
by: Zhang, Xiang, et al.
Published: (2026)

TF-Mamba: Text-enhanced Fusion Mamba with Missing Modalities for Robust Multimodal Sentiment Analysis
by: Li, Xiang, et al.
Published: (2025)

Prompt-based Multimodal Semantic Communication for Multi-spectral Image Segmentation
by: Zhang, Haoshuo, et al.
Published: (2025)

DualDub: Video-to-Soundtrack Generation via Joint Speech and Background Audio Synthesis
by: Tian, Wenjie, et al.
Published: (2025)

Wireless Video Semantic Communication with Decoupled Diffusion Multi-frame Compensation
by: Xie, Bingyan, et al.
Published: (2025)

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
by: Liu, Kai, et al.
Published: (2026)

Feedback-Driven Rate Control for Learned Video Compression
by: Xu, Zhiheng, et al.
Published: (2026)

PSA-MF: Personality-Sentiment Aligned Multi-Level Fusion for Multimodal Sentiment Analysis
by: Xie, Heng, et al.
Published: (2025)

Mining the Social Fabric: Unveiling Communities for Fake News Detection in Short Videos
by: Gong, Haisong, et al.
Published: (2025)

Mixture of Disentangled Experts with Missing Modalities for Robust Multimodal Sentiment Analysis
by: Li, Xiang, et al.
Published: (2026)

Divide and Conquer: Multimodal Video Deepfake Detection via Cross-Modal Fusion and Localization
by: Li, Qingcao, et al.
Published: (2026)

Multimodal Semantic Communication for Generative Audio-Driven Video Conferencing
by: Tong, Haonan, et al.
Published: (2024)

Adaptive Offloading and Enhancement for Low-Light Video Analytics on Mobile Devices
by: He, Yuanyi, et al.
Published: (2024)

Seeing Further and Wider: Joint Spatio-Temporal Enlargement for Micro-Video Popularity Prediction
by: Wang, Dali, et al.
Published: (2026)

WVSC: Wireless Video Semantic Communication with Multi-frame Compensation
by: Xie, Bingyan, et al.
Published: (2025)

Prediction, Communication, and Computing Duration Optimization for VR Video Streaming
by: Wei, Xing, et al.
Published: (2019)

DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models
by: Xu, Siyuan, et al.
Published: (2026)

When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation
by: Chen, Siran, et al.
Published: (2025)

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs
by: Li, Jinmin, et al.
Published: (2024)

VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement Learning
by: Chen, Siran, et al.
Published: (2025)

Video Super-Resolution for Optimized Bitrate and Green Online Streaming
by: Menon, Vignesh V, et al.
Published: (2024)

M3TR: Temporal Retrieval Enhanced Multi-Modal Micro-video Popularity Prediction
by: Lu, Jiacheng, et al.
Published: (2024)

Compression Metadata-assisted RoI Extraction and Adaptive Inference for Efficient Video Analytics
by: Wang, Chengzhi, et al.
Published: (2025)

Virbo: Multimodal Multilingual Avatar Video Generation in Digital Marketing
by: Zhang, Juan, et al.
Published: (2024)

H.265/HEVC Video Steganalysis Based on CU Block Structure Gradients and IPM Mapping
by: Zhang, Xiang, et al.
Published: (2026)

Music Grounding by Short Video
by: Xin, Zijie, et al.
Published: (2024)