Enregistré dans:
| Auteurs principaux: | Hu, Yunzuo, Li, Wen, Zhang, Jing |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2602.08309 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
par: Lu, Lidong, et autres
Publié: (2025)
par: Lu, Lidong, et autres
Publié: (2025)
AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
par: Chatziagapi, Aggelina, et autres
Publié: (2025)
par: Chatziagapi, Aggelina, et autres
Publié: (2025)
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
par: Wang, Kai, et autres
Publié: (2024)
par: Wang, Kai, et autres
Publié: (2024)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
par: Xing, Ling, et autres
Publié: (2024)
par: Xing, Ling, et autres
Publié: (2024)
Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV
par: Liu, Tengfei, et autres
Publié: (2026)
par: Liu, Tengfei, et autres
Publié: (2026)
Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition
par: Shi, Tong, et autres
Publié: (2024)
par: Shi, Tong, et autres
Publié: (2024)
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
par: Tong, Wenwen, et autres
Publié: (2025)
par: Tong, Wenwen, et autres
Publié: (2025)
AV-RIR: Audio-Visual Room Impulse Response Estimation
par: Ratnarajah, Anton, et autres
Publié: (2023)
par: Ratnarajah, Anton, et autres
Publié: (2023)
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
par: Choi, Jeongsoo, et autres
Publié: (2023)
par: Choi, Jeongsoo, et autres
Publié: (2023)
Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning
par: Zhang, Yi, et autres
Publié: (2024)
par: Zhang, Yi, et autres
Publié: (2024)
AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
par: Zhang, Jiayu, et autres
Publié: (2025)
par: Zhang, Jiayu, et autres
Publié: (2025)
InstructAV2AV: Instruction-Guided Audio-Video Joint Editing
par: Zheng, Haojie, et autres
Publié: (2026)
par: Zheng, Haojie, et autres
Publié: (2026)
Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning
par: Saito, Namiko, et autres
Publié: (2024)
par: Saito, Namiko, et autres
Publié: (2024)
AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control
par: Guo, Xinyue, et autres
Publié: (2025)
par: Guo, Xinyue, et autres
Publié: (2025)
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
par: Bai, Detao, et autres
Publié: (2025)
par: Bai, Detao, et autres
Publié: (2025)
TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos
par: Feng, Hengyi, et autres
Publié: (2026)
par: Feng, Hengyi, et autres
Publié: (2026)
Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition
par: He, Wen-Jue, et autres
Publié: (2025)
par: He, Wen-Jue, et autres
Publié: (2025)
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation
par: Gong, Sitong, et autres
Publié: (2025)
par: Gong, Sitong, et autres
Publié: (2025)
Improving Joint Audio-Video Generation with Cross-Modal Context Learning
par: Ma, Bingqi, et autres
Publié: (2026)
par: Ma, Bingqi, et autres
Publié: (2026)
SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning
par: Zhang, Runmin, et autres
Publié: (2024)
par: Zhang, Runmin, et autres
Publié: (2024)
AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs
par: Xia, Shuhan, et autres
Publié: (2025)
par: Xia, Shuhan, et autres
Publié: (2025)
Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment
par: Shangguan, Zeyu, et autres
Publié: (2025)
par: Shangguan, Zeyu, et autres
Publié: (2025)
AV-Unified: A Unified Framework for Audio-visual Scene Understanding
par: Li, Guangyao, et autres
Publié: (2026)
par: Li, Guangyao, et autres
Publié: (2026)
PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition
par: He, Yuchen, et autres
Publié: (2026)
par: He, Yuchen, et autres
Publié: (2026)
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
par: Cai, Zhixi, et autres
Publié: (2023)
par: Cai, Zhixi, et autres
Publié: (2023)
Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement
par: Li, Bing, et autres
Publié: (2022)
par: Li, Bing, et autres
Publié: (2022)
Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing
par: Zhang, Xu, et autres
Publié: (2025)
par: Zhang, Xu, et autres
Publié: (2025)
AV-Dialog: Spoken Dialogue Models with Audio-Visual Input
par: Chen, Tuochao, et autres
Publié: (2025)
par: Chen, Tuochao, et autres
Publié: (2025)
T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation
par: Cao, Zhe, et autres
Publié: (2025)
par: Cao, Zhe, et autres
Publié: (2025)
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
par: Zhang, Guozhen, et autres
Publié: (2025)
par: Zhang, Guozhen, et autres
Publié: (2025)
DEL: Dense Event Localization for Multi-modal Audio-Visual Understanding
par: Ahmadian, Mona, et autres
Publié: (2025)
par: Ahmadian, Mona, et autres
Publié: (2025)
AV-Deepfake1M++: A Large-Scale Audio-Visual Deepfake Benchmark with Real-World Perturbations
par: Cai, Zhixi, et autres
Publié: (2025)
par: Cai, Zhixi, et autres
Publié: (2025)
Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality
par: Wang, Hu, et autres
Publié: (2023)
par: Wang, Hu, et autres
Publié: (2023)
Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer
par: Liu, Jiaming, et autres
Publié: (2022)
par: Liu, Jiaming, et autres
Publié: (2022)
Scope: Selective Cross-modal Orchestration of Visual Perception Experts
par: Zhang, Tianyu, et autres
Publié: (2025)
par: Zhang, Tianyu, et autres
Publié: (2025)
CAE-DFKD: Bridging the Transferability Gap in Data-Free Knowledge Distillation
par: Zhang, Zherui, et autres
Publié: (2025)
par: Zhang, Zherui, et autres
Publié: (2025)
Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation
par: Zheng, Xu, et autres
Publié: (2024)
par: Zheng, Xu, et autres
Publié: (2024)
AV-EmoDialog: Chat with Audio-Visual Users Leveraging Emotional Cues
par: Park, Se Jin, et autres
Publié: (2024)
par: Park, Se Jin, et autres
Publié: (2024)
DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
Documents similaires
-
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
par: Lu, Lidong, et autres
Publié: (2025) -
AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
par: Chatziagapi, Aggelina, et autres
Publié: (2025) -
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
par: Wang, Kai, et autres
Publié: (2024) -
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization
par: Xing, Ling, et autres
Publié: (2024) -
Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)