:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Yang, Dingkang, Li, Mingcheng, Qu, Linhao, Yang, Kun, Zhai, Peng, Wang, Song, Zhang, Lihua
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2407.04955
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection
by: Yang, Dingkang, et al.
Published: (2025)

Towards Unified Molecule-Enhanced Pathology Image Representation Learning via Integrating Spatial Transcriptomics
by: Han, Minghao, et al.
Published: (2024)

Towards Multimodal Sentiment Analysis Debiasing via Bias Purification
by: Yang, Dingkang, et al.
Published: (2024)

Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities
by: Li, Mingcheng, et al.
Published: (2024)

FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
by: Jiang, Yue, et al.
Published: (2025)

MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning
by: Han, Minghao, et al.
Published: (2024)

Robust Emotion Recognition in Context Debiasing
by: Yang, Dingkang, et al.
Published: (2024)

Multimodal Cancer Survival Analysis via Hypergraph Learning with Cross-Modality Rebalance
by: Qu, Mingcheng, et al.
Published: (2025)

Can LLMs' Tuning Methods Work in Medical Multimodal Domain?
by: Chen, Jiawei, et al.
Published: (2024)

SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
by: Qian, Ziyun, et al.
Published: (2024)

Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology
by: Han, Minghao, et al.
Published: (2026)

Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning
by: Li, Mingcheng, et al.
Published: (2024)

Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding
by: Liu, Keliang, et al.
Published: (2025)

ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation
by: Xue, Wei, et al.
Published: (2026)

OmniFysics: Towards Physical Intelligence Evolution via Omni-Modal Signal Processing and Network Optimization
by: Han, Minghao, et al.
Published: (2026)

MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation
by: Zhao, Xiao, et al.
Published: (2024)

Faster Diffusion Action Segmentation
by: Wang, Shuaibing, et al.
Published: (2024)

Efficiency in Focus: LayerNorm as a Catalyst for Fine-tuning Medical Visual Language Pre-trained Models
by: Chen, Jiawei, et al.
Published: (2024)

HandGCAT: Occlusion-Robust 3D Hand Mesh Reconstruction from Monocular Images
by: Wang, Shuaibing, et al.
Published: (2024)

Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training
by: Yang, Dingkang, et al.
Published: (2024)

ME-Mamba: Multi-Expert Mamba with Efficient Knowledge Capture and Fusion for Multimodal Survival Analysis
by: Zhang, Chengsheng, et al.
Published: (2025)

PersonaAnimator: Personalized Motion Transfer from Unconstrained Videos
by: Qian, Ziyun, et al.
Published: (2025)

Memory-Augmented Incomplete Multimodal Survival Prediction via Cross-Slide and Gene-Attentive Hypergraph Learning
by: Qu, Mingcheng, et al.
Published: (2025)

Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification
by: Qu, Linhao, et al.
Published: (2024)

SatireDecoder: Visual Cascaded Decoupling for Enhancing Satirical Image Comprehension
by: Jiang, Yue, et al.
Published: (2025)

CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation
by: Jiang, Yue, et al.
Published: (2024)

Large Vision-Language Models as Emotion Recognizers in Context Awareness
by: Lei, Yuxuan, et al.
Published: (2024)

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation
by: Yang, Zhiwei, et al.
Published: (2024)

Skip and Skip: Segmenting Medical Images with Prompts
by: Chen, Jiawei, et al.
Published: (2024)

HiddenObject: Modality-Agnostic Fusion for Multimodal Hidden Object Detection
by: Song, Harris, et al.
Published: (2025)

Multi-Scale Heterogeneity-Aware Hypergraph Representation for Histopathology Whole Slide Images
by: Han, Minghao, et al.
Published: (2024)

Learning Language-Driven Sequence-Level Modal-Invariant Representations for Video-Based Visible-Infrared Person Re-Identification
by: Yang, Xiaomei, et al.
Published: (2026)

HybridOcc: NeRF Enhanced Transformer-based Multi-Camera 3D Occupancy Prediction
by: Zhao, Xiao, et al.
Published: (2024)

On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection
by: Song, Xiufeng, et al.
Published: (2024)

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation
by: Li, Mingcheng, et al.
Published: (2025)

Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
by: Chen, Jiawei, et al.
Published: (2024)

MM-Snowball: Evaluating and Mitigating Hallucination Snowballing in Multimodal Multi-Turn Dialogue
by: Jiang, Yue, et al.
Published: (2026)

Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection
by: Wang, Hao, et al.
Published: (2026)

Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image Registration
by: Mok, Tony C. W., et al.
Published: (2024)

Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning
by: Li, Tingtian, et al.
Published: (2024)