:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Hu, Yunzuo, Li, Wen, Zhang, Jing
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2602.08309
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
par: Lu, Lidong, et autres
Publié: (2025)

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
par: Chatziagapi, Aggelina, et autres
Publié: (2025)

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
par: Wang, Kai, et autres
Publié: (2024)

Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
par: Xing, Ling, et autres
Publié: (2024)

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV
par: Liu, Tengfei, et autres
Publié: (2026)

Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition
par: Shi, Tong, et autres
Publié: (2024)

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
par: Tong, Wenwen, et autres
Publié: (2025)

AV-RIR: Audio-Visual Room Impulse Response Estimation
par: Ratnarajah, Anton, et autres
Publié: (2023)

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
par: Choi, Jeongsoo, et autres
Publié: (2023)

Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning
par: Zhang, Yi, et autres
Publié: (2024)

AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
par: Zhang, Jiayu, et autres
Publié: (2025)

InstructAV2AV: Instruction-Guided Audio-Video Joint Editing
par: Zheng, Haojie, et autres
Publié: (2026)

Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning
par: Saito, Namiko, et autres
Publié: (2024)

AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control
par: Guo, Xinyue, et autres
Publié: (2025)

CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
par: Bai, Detao, et autres
Publié: (2025)

TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos
par: Feng, Hengyi, et autres
Publié: (2026)

Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition
par: He, Wen-Jue, et autres
Publié: (2025)

AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation
par: Gong, Sitong, et autres
Publié: (2025)

Improving Joint Audio-Video Generation with Cross-Modal Context Learning
par: Ma, Bingqi, et autres
Publié: (2026)

SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning
par: Zhang, Runmin, et autres
Publié: (2024)

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs
par: Xia, Shuhan, et autres
Publié: (2025)

Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment
par: Shangguan, Zeyu, et autres
Publié: (2025)

AV-Unified: A Unified Framework for Audio-visual Scene Understanding
par: Li, Guangyao, et autres
Publié: (2026)

PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
par: He, Yuchen, et autres
Publié: (2026)

AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
par: Cai, Zhixi, et autres
Publié: (2023)

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement
par: Li, Bing, et autres
Publié: (2022)

Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing
par: Zhang, Xu, et autres
Publié: (2025)

AV-Dialog: Spoken Dialogue Models with Audio-Visual Input
par: Chen, Tuochao, et autres
Publié: (2025)

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation
par: Cao, Zhe, et autres
Publié: (2025)

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
par: Zhang, Guozhen, et autres
Publié: (2025)

DEL: Dense Event Localization for Multi-modal Audio-Visual Understanding
par: Ahmadian, Mona, et autres
Publié: (2025)

AV-Deepfake1M++: A Large-Scale Audio-Visual Deepfake Benchmark with Real-World Perturbations
par: Cai, Zhixi, et autres
Publié: (2025)

Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality
par: Wang, Hu, et autres
Publié: (2023)

Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer
par: Liu, Jiaming, et autres
Publié: (2022)

Scope: Selective Cross-modal Orchestration of Visual Perception Experts
par: Zhang, Tianyu, et autres
Publié: (2025)

CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation
par: Zhang, Zherui, et autres
Publié: (2025)

Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation
par: Zheng, Xu, et autres
Publié: (2024)

AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues
par: Park, Se Jin, et autres
Publié: (2024)

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)