:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Zhang, Liyun, Lian, Zheng, Liu, Hong, Takebe, Takanori, Nakashima, Yuta
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Multimedia
Accesso online:	https://arxiv.org/abs/2503.15237
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

QuMAB: Query-based Multi-Annotator Behavior Modeling with Reliability under Sparse Labels
di: Zhang, Liyun, et al.
Pubblicazione: (2025)

SimLabel: Similarity-Weighted Iterative Framework for Multi-annotator Learning with Missing Annotations
di: Zhang, Liyun, et al.
Pubblicazione: (2025)

A Unified Evaluation Framework for Multi-Annotator Tendency Learning
di: Zhang, Liyun, et al.
Pubblicazione: (2025)

AcoustEmo: Open-Vocabulary Emotion Reasoning via Utterance-Aware Acoustic Q-Former
di: Zhang, Liyun, et al.
Pubblicazione: (2026)

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
di: Zhang, Liyun
Pubblicazione: (2024)

Enhancing Fake News Detection in Social Media via Label Propagation on Cross-modal Tweet Graph
di: Zhao, Wanqing, et al.
Pubblicazione: (2024)

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
di: Chai, Yuxiang, et al.
Pubblicazione: (2024)

Multimodal LLM-based Query Paraphrasing for Video Search
di: Wu, Jiaxin, et al.
Pubblicazione: (2024)

HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection
di: Jung, Juho, et al.
Pubblicazione: (2024)

VCEMO: Multi-Modal Emotion Recognition for Chinese Voiceprints
di: Tang, Jinghua, et al.
Pubblicazione: (2024)

ITEACH-Net: Inverted Teacher-studEnt seArCH Network for Emotion Recognition in Conversation
di: Sun, Haiyang, et al.
Pubblicazione: (2023)

Multimodal Interaction Modeling via Self-Supervised Multi-Task Learning for Review Helpfulness Prediction
di: Gong, HongLin, et al.
Pubblicazione: (2024)

Harnessing Multimodal Large Language Models for Personalized Product Search with Query-aware Refinement
di: Zhang, Beibei, et al.
Pubblicazione: (2025)

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries
di: You, Qijie, et al.
Pubblicazione: (2026)

Clinical Multi-modal Fusion with Heterogeneous Graph and Disease Correlation Learning for Multi-Disease Prediction
di: Jiang, Yueheng, et al.
Pubblicazione: (2025)

Robust Multi-generation Learned Compression of Point Cloud Attribute
di: Liu, Xiangzuo, et al.
Pubblicazione: (2025)

Look, Compare and Draw: Differential Query Transformer for Automatic Oil Painting
di: Liu, Lingyu, et al.
Pubblicazione: (2026)

Contribution-Guided Asymmetric Learning for Robust Multimodal Fusion under Imbalance and Noise
di: Xu, Zijing, et al.
Pubblicazione: (2025)

Multi-view Hypergraph-based Contrastive Learning Model for Cold-Start Micro-video Recommendation
di: Lyu, Sisuo, et al.
Pubblicazione: (2024)

3D-LMVIC: Learning-based Multi-View Image Coding with 3D Gaussian Geometric Priors
di: Huang, Yujun, et al.
Pubblicazione: (2024)

ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation
di: Zhang, Haoshuo, et al.
Pubblicazione: (2025)

Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset
di: Ancarani, Elisa, et al.
Pubblicazione: (2025)

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio
di: Li, Qingcao, et al.
Pubblicazione: (2026)

Enhancing DETRs Variants through Improved Content Query and Similar Query Aggregation
di: Zhang, Yingying, et al.
Pubblicazione: (2024)

MaskSearch: Querying Image Masks at Scale
di: He, Dong, et al.
Pubblicazione: (2023)

Deep Mamba Multi-modal Learning
di: Zhu, Jian, et al.
Pubblicazione: (2024)

Exploring Transferability of Multimodal Adversarial Samples for Vision-Language Pre-training Models with Contrastive Learning
di: Wang, Youze, et al.
Pubblicazione: (2023)

Towards Multimodal Empathetic Response Generation: A Rich Text-Speech-Vision Avatar-based Benchmark
di: Zhang, Han, et al.
Pubblicazione: (2025)

Low Complexity Learning-based Lossless Event-based Compression
di: Sezavar, Ahmadreza, et al.
Pubblicazione: (2024)

Vidformer: Drop-in Declarative Optimization for Rendering Video-Native Query Results
di: Winecki, Dominik, et al.
Pubblicazione: (2026)

Demonstration of MaskSearch: Efficiently Querying Image Masks for Machine Learning Workflows
di: Wei, Lindsey Linxi, et al.
Pubblicazione: (2024)

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding
di: Zhang, Zhenxing, et al.
Pubblicazione: (2024)

FinCall-Surprise: A Large Scale Multi-modal Benchmark for Earning Surprise Prediction
di: Shu, Dong, et al.
Pubblicazione: (2025)

Startup Delay Aware Short Video Ordering: Problem, Model, and A Reinforcement Learning based Algorithm
di: Gao, Zhipeng, et al.
Pubblicazione: (2024)

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
di: Chao, Jianghan, et al.
Pubblicazione: (2025)

Learning Switchable Priors for Neural Image Compression
di: Zhang, Haotian, et al.
Pubblicazione: (2025)

Learning-based Lossless Event Data Compression
di: Sezavar, Ahmadreza, et al.
Pubblicazione: (2024)

MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique
di: Liu, Shuhang, et al.
Pubblicazione: (2025)

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
di: Chow, Wei, et al.
Pubblicazione: (2025)

Multi-Reference Generative Face Video Compression with Contrastive Learning
di: Konuko, Goluck, et al.
Pubblicazione: (2024)