:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Ma, Juncheng, Sun, Peiwen, Wang, Yaoting, Hu, Di
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition Artificial Intelligence
Online Access:	https://arxiv.org/abs/2407.11820
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
by: Wang, Yaoting, et al.
Published: (2024)

Can Textual Semantics Mitigate Sounding Object Segmentation Preference?
by: Wang, Yaoting, et al.
Published: (2024)

Unveiling and Mitigating Bias in Audio Visual Segmentation
by: Sun, Peiwen, et al.
Published: (2024)

AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs
by: Chowdhury, Sanjoy, et al.
Published: (2025)

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
by: Li, Guangyao, et al.
Published: (2024)

Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation
by: Zhou, Jinxing, et al.
Published: (2026)

Progressive Confident Masking Attention Network for Audio-Visual Segmentation
by: Wang, Yuxuan, et al.
Published: (2024)

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning
by: Tu, Yunbin, et al.
Published: (2024)

How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?
by: Lee, Yujian, et al.
Published: (2026)

Unsupervised Audio-Visual Segmentation with Modality Alignment
by: Bhosale, Swapnil, et al.
Published: (2024)

Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning
by: Yang, Yanwu, et al.
Published: (2024)

Audio-Guided Visual Perception for Audio-Visual Navigation
by: Wang, Yi, et al.
Published: (2025)

Taming Modality Entanglement in Continual Audio-Visual Segmentation
by: Hong, Yuyang, et al.
Published: (2025)

Audio Visual Segmentation Through Text Embeddings
by: Lee, Kyungbok, et al.
Published: (2025)

LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier
by: Yu, Haojun, et al.
Published: (2025)

video-SALMONN S: Memory-Enhanced Streaming Audio-Visual LLM
by: Sun, Guangzhi, et al.
Published: (2025)

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning
by: Yin, Jiong, et al.
Published: (2025)

Multimodal SAM-adapter for Semantic Segmentation
by: Curti, Iacopo, et al.
Published: (2025)

Pre-Trained LLM is a Semantic-Aware and Generalizable Segmentation Booster
by: Tang, Fenghe, et al.
Published: (2025)

Revisiting Network Perturbation for Semi-Supervised Semantic Segmentation
by: Li, Sien, et al.
Published: (2024)

Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation
by: Li, Shuyang, et al.
Published: (2025)

XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection
by: Clement, Tobias, et al.
Published: (2024)

Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation
by: Zhang, Zicheng, et al.
Published: (2024)

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
by: Cai, Dongnuan, et al.
Published: (2026)

One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion
by: Lu, Haoang, et al.
Published: (2025)

Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models
by: Zhang, Jielu, et al.
Published: (2023)

Fighting Fire with Fire (F3): A Training-free and Efficient Visual Adversarial Example Purification Method in LVLMs
by: Zhang, Yudong, et al.
Published: (2025)

Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics
by: Zhao, Pengcheng, et al.
Published: (2024)

Semantic Segmentation by Semantic Proportions
by: Aysel, Halil Ibrahim, et al.
Published: (2023)

Integrating Semi-Supervised and Active Learning for Semantic Segmentation
by: Ma, Wanli, et al.
Published: (2025)

Improved Kidney Stone Recognition Through Attention and Multi-View Feature Fusion Strategies
by: Villalvazo-Avila, Elias, et al.
Published: (2022)

Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer
by: Wang, Yaoting, et al.
Published: (2023)

D3S2: Diffusion-Guided Dataset Distillation for Semantic Segmentation
by: Zheng, Wenjie, et al.
Published: (2026)

Visual Prompt Selection for In-Context Learning Segmentation
by: Suo, Wei, et al.
Published: (2024)

Open-Vocabulary Remote Sensing Image Semantic Segmentation
by: Cao, Qinglong, et al.
Published: (2024)

Representation Separation for Semantic Segmentation with Vision Transformers
by: Hong, Yuanduo, et al.
Published: (2022)

Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models
by: Ma, Jie, et al.
Published: (2026)

Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark
by: Wang, Xiao, et al.
Published: (2025)

Semi-Supervised Semantic Segmentation using Redesigned Self-Training for White Blood Cells
by: Luu, Vinh Quoc, et al.
Published: (2024)

Depth-guided Texture Diffusion for Image Semantic Segmentation
by: Sun, Wei, et al.
Published: (2024)