:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhao, Chengxin, Ling, Hefei, Xie, Sijing, Sun, Nan, Li, Zongyi, Shi, Yuxuan, Chen, Jiazhong
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition Multimedia
Online Access:	https://arxiv.org/abs/2405.03436
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions
by: Xie, Sijing, et al.
Published: (2024)

Dual-Branch Network for Portrait Image Quality Assessment
by: Sun, Wei, et al.
Published: (2024)

SSyncOA: Self-synchronizing Object-aligned Watermarking to Resist Cropping-paste Attacks
by: Zhao, Chengxin, et al.
Published: (2024)

MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
by: Teng, Jiajie, et al.
Published: (2024)

END$^2$: Robust Dual-Decoder Watermarking Framework Against Non-Differentiable Distortions
by: Sun, Nan, et al.
Published: (2024)

Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information
by: Maruyama, Mizuki, et al.
Published: (2021)

Generating Attribute-Aware Human Motions from Textual Prompt
by: Wang, Xinghan, et al.
Published: (2025)

DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
by: Zhao, Yan, et al.
Published: (2025)

ROGLE: Robust Global-Local Alignment with Automated Region Supervision for Text-Based Person Search
by: Xie, Zequn, et al.
Published: (2026)

Dual Mutual Learning Network with Global-local Awareness for RGB-D Salient Object Detection
by: Yi, Kang, et al.
Published: (2025)

DDNet: A Dual-Stream Graph Learning and Disentanglement Framework for Temporal Forgery Localization
by: Zhao, Boyang, et al.
Published: (2026)

Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework
by: Liu, Ke, et al.
Published: (2026)

CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model
by: Luo, Yuxuan, et al.
Published: (2025)

SFFNet: Synergistic Feature Fusion Network With Dual-Domain Edge Enhancement for UAV Image Object Detection
by: Zhang, Wenfeng, et al.
Published: (2026)

PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
by: Ling, Jun, et al.
Published: (2024)

Improving Visual Quality and Transferability of Adversarial Attacks on Face Recognition Simultaneously with Adversarial Restoration
by: Zhou, Fengfan, et al.
Published: (2023)

Fine-grained Image Retrieval via Dual-Vision Adaptation
by: Jiang, Xin, et al.
Published: (2025)

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models
by: Li, Haoyang, et al.
Published: (2025)

NeR-SC: Adapting Neural Video Representation to Screen Content
by: Shi, Ruohan, et al.
Published: (2026)

WVSC: Wireless Video Semantic Communication with Multi-frame Compensation
by: Xie, Bingyan, et al.
Published: (2025)

Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding
by: Xu, Yue, et al.
Published: (2024)

DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
by: Shu, Ying, et al.
Published: (2026)

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
by: Li, Yanjun, et al.
Published: (2025)

KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation
by: Vo-Thanh, Hoang-Son, et al.
Published: (2024)

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization
by: Guo, Yuxin, et al.
Published: (2024)

Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM
by: Zhang, Pingping, et al.
Published: (2024)

DMC$^3$: Dual-Modal Counterfactual Contrastive Construction for Egocentric Video Question Answering
by: Zou, Jiayi, et al.
Published: (2025)

RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
by: Yuan, Zhiqiang, et al.
Published: (2025)

Hybrid Local-Global Context Learning for Neural Video Compression
by: Zhai, Yongqi, et al.
Published: (2024)

A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis
by: Van Doan, Nguyen, et al.
Published: (2024)

DuoTeach: Dual Role Self-Teaching for Coarse-to-Fine Decision Coordination in Vision--Language Models
by: Yang, Wei, et al.
Published: (2025)

KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation
by: Lyu, Tianle, et al.
Published: (2025)

Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach
by: Fu, Zhe, et al.
Published: (2024)

Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
by: Song, Zijie, et al.
Published: (2023)

ConcealGS: Concealing Invisible Copyright Information in 3D Gaussian Splatting
by: Yang, Yifeng, et al.
Published: (2025)

Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
by: Zhang, Yanjie, et al.
Published: (2026)

PetalView: Fine-grained Location and Orientation Extraction of Street-view Images via Cross-view Local Search with Supplementary Materials
by: Hu, Wenmiao, et al.
Published: (2024)

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
by: Zhang, Dongxu, et al.
Published: (2026)

TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification
by: Qiao, Qian, et al.
Published: (2023)

Beyond Patches: Global-aware Autoregressive Model for Multimodal Few-Shot Font Generation
by: Cai, Haonan, et al.
Published: (2026)