:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wu, Minghui, Zhao, Chenxu, Su, Anyang, Di, Donglin, Fu, Tianyu, An, Da, He, Min, Gao, Ya, Ma, Meng, Yan, Kun, Wang, Ping
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2407.08150
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction
by: Wu, Hanbing, et al.
Published: (2025)

Multimodal Cancer Survival Analysis via Hypergraph Learning with Cross-Modality Rebalance
by: Qu, Mingcheng, et al.
Published: (2025)

ToCoAD: Two-Stage Contrastive Learning for Industrial Anomaly Detection
by: Liang, Yun, et al.
Published: (2024)

Boundary-Guided Learning for Gene Expression Prediction in Spatial Transcriptomics
by: Qu, Mingcheng, et al.
Published: (2024)

Salvaging the Overlooked: Leveraging Class-Aware Contrastive Learning for Multi-Class Anomaly Detection
by: Fan, Lei, et al.
Published: (2024)

Hypergraph Tversky-Aware Domain Incremental Learning for Brain Tumor Segmentation with Missing Modalities
by: Wang, Junze, et al.
Published: (2025)

CogPortrait: Fine-Grained Eye-Region Control in Portrait Animation via Hierarchical Agent Planning
by: Feng, He, et al.
Published: (2026)

Multi-Modal Hypergraph Enhanced LLM Learning for Recommendation
by: Guo, Xu, et al.
Published: (2025)

Hypergraph Multi-Modal Learning for EEG-based Emotion Recognition in Conversation
by: Kang, Zijian, et al.
Published: (2025)

EFDiT: Efficient Fine-grained Image Generation Using Diffusion Transformer Models
by: Wang, Kun, et al.
Published: (2025)

From Word Embedding to Reading Embedding Using Large Language Model, EEG and Eye-tracking
by: Zhang, Yuhong, et al.
Published: (2024)

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
by: Li, Qian, et al.
Published: (2024)

Memory-Augmented Incomplete Multimodal Survival Prediction via Cross-Slide and Gene-Attentive Hypergraph Learning
by: Qu, Mingcheng, et al.
Published: (2025)

MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities
by: Li, Kunxi, et al.
Published: (2024)

Heterogeneous Temporal Hypergraph Neural Network
by: Liu, Huan, et al.
Published: (2025)

An Emotion Recognition Framework via Cross-modal Alignment of EEG and Eye Movement Data
by: Wang, Jianlu, et al.
Published: (2025)

DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification
by: Lin, Minghui, et al.
Published: (2025)

Real Face Video Animation Platform
by: Chen, Xiaokai, et al.
Published: (2024)

Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity
by: Yu, Donglin
Published: (2026)

EasyVideoR1: Easier RL for Video Understanding
by: Qin, Chuanyu, et al.
Published: (2026)

Hyper-3DG: Text-to-3D Gaussian Generation via Hypergraph
by: Di, Donglin, et al.
Published: (2024)

EEG-MedRAG: Enhancing EEG-based Clinical Decision-Making via Hierarchical Hypergraph Retrieval-Augmented Generation
by: Wang, Yi, et al.
Published: (2025)

PHGNet: Prototype-Guided Hypergraph Construction for Heterogeneous Spatiotemporal Forecasting
by: Gu, Ruiwen, et al.
Published: (2026)

Hypergraph based Understanding for Document Semantic Entity Recognition
by: Li, Qiwei, et al.
Published: (2024)

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
by: Li, Kunchang, et al.
Published: (2023)

Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery
by: Sun, Minghao, et al.
Published: (2026)

sleep2vec: Unified Cross-Modal Alignment for Heterogeneous Nocturnal Biosignals
by: Yuan, Weixuan, et al.
Published: (2026)

UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection
by: Peng, Siran, et al.
Published: (2026)

Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization
by: Cui, Feng-Qi, et al.
Published: (2025)

Exploring EEG and Eye Movement Fusion for Multi-Class Target RSVP-BCI
by: Li, Xujin, et al.
Published: (2025)

QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval
by: Gao, Chenghua, et al.
Published: (2024)

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model
by: Liu, Zhou, et al.
Published: (2026)

Building Dialogue Understanding Models for Low-resource Language Indonesian from Scratch
by: Di, Donglin, et al.
Published: (2024)

MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
by: Su, Yuhao, et al.
Published: (2025)

DPI: Exploiting Parameter Heterogeneity for Interference-Free Fine-Tuning
by: Liu, Xiaoyu, et al.
Published: (2026)

Quantifying and Enhancing Multi-modal Robustness with Modality Preference
by: Yang, Zequn, et al.
Published: (2024)

Hypergraph coverings and Ramanujan Hypergraphs
by: Song, Yi-Min, et al.
Published: (2023)

Exploiting Auxiliary Caption for Video Grounding
by: Li, Hongxiang, et al.
Published: (2023)

M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention
by: Yang, Xiaofan, et al.
Published: (2026)

Mano Technical Report
by: Fu, Tianyu, et al.
Published: (2025)