:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Jiang, Wenbo, Zhang, Rui, Li, Hongwei, Liu, Xiaoyuan, Yang, Haomiao, Yu, Shui
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Sound Artificial Intelligence Databases Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2407.10446
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Cross-Domain Audio Deepfake Detection: Dataset and Analysis
di: Li, Yuang, et al.
Pubblicazione: (2024)

Audio Atlas: Visualizing and Exploring Audio Datasets
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)

Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio
di: Lu, Yi, et al.
Pubblicazione: (2024)

CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
di: Hu, Jing, et al.
Pubblicazione: (2026)

The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
di: Xie, Yuankun, et al.
Pubblicazione: (2024)

ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation
di: Feng, Tiantian, et al.
Pubblicazione: (2024)

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)

IndieFake Dataset: A Benchmark Dataset for Audio Deepfake Detection
di: Kumar, Abhay, et al.
Pubblicazione: (2025)

Audio Deepfake Attribution: An Initial Dataset and Investigation
di: Yan, Xinrui, et al.
Pubblicazione: (2022)

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)

Representation-Regularized Convolutional Audio Transformer for Audio Understanding
di: Han, Bing, et al.
Pubblicazione: (2026)

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
di: Chen, Liyang, et al.
Pubblicazione: (2026)

Audio Spatially-Guided Fusion for Audio-Visual Navigation
di: Zhou, Xinyu, et al.
Pubblicazione: (2026)

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue
di: Gupta, Chitralekha, et al.
Pubblicazione: (2025)

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
di: Song, Zirui, et al.
Pubblicazione: (2025)

Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG
di: Yang, Haoyun, et al.
Pubblicazione: (2026)

Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation
di: Liu, Teng, et al.
Pubblicazione: (2026)

GOAT: A Large Dataset of Paired Guitar Audio Recordings and Tablatures
di: Loth, Jackson, et al.
Pubblicazione: (2025)

Multi-Speaker Conversational Audio Deepfake: Taxonomy, Dataset and Pilot Study
di: Ahmed, Alabi, et al.
Pubblicazione: (2026)

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
di: Mei, Xinhao, et al.
Pubblicazione: (2026)

Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition
di: Liu, Rui, et al.
Pubblicazione: (2025)

Single-stage TTS with Masked Audio Token Modeling and Semantic Knowledge Distillation
di: Gállego, Gerard I., et al.
Pubblicazione: (2024)

Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection
di: Raghavan, Ksheeraja, et al.
Pubblicazione: (2024)

Exploring Finetuned Audio-LLM on Heart Murmur Features
di: Florea, Adrian, et al.
Pubblicazione: (2025)

Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models
di: Yang, Wanqi, et al.
Pubblicazione: (2024)

Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers
di: Salameh, Raghad, et al.
Pubblicazione: (2024)

BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics
di: Rauch, Lukas, et al.
Pubblicazione: (2024)

BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset
di: Fahad, Istiaq Ahmed, et al.
Pubblicazione: (2025)

MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free
di: Lei, Yishu, et al.
Pubblicazione: (2026)

ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors
di: Yin, Yuguo, et al.
Pubblicazione: (2025)

AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion
di: Zhao, Junqi, et al.
Pubblicazione: (2025)

PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation
di: Xiao, Yujia, et al.
Pubblicazione: (2025)

DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
di: Yuan, Yi, et al.
Pubblicazione: (2025)

MixAssist: An Audio-Language Dataset for Co-Creative AI Assistance in Music Mixing
di: Clemens, Michael, et al.
Pubblicazione: (2025)

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection
di: Bibbó, Gabriel, et al.
Pubblicazione: (2024)

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction
di: Li, Jia, et al.
Pubblicazione: (2026)

Example-Based Framework for Perceptually Guided Audio Texture Generation
di: Kamath, Purnima, et al.
Pubblicazione: (2023)

Sound Check: Auditing Audio Datasets
di: Agnew, William, et al.
Pubblicazione: (2024)

4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification
di: Berg, Andrew P., et al.
Pubblicazione: (2025)

Unlocking Strong Supervision: A Data-Centric Study of General-Purpose Audio Pre-Training Methods
di: Zhou, Xuanru, et al.
Pubblicazione: (2026)