:: Library Catalog

Kansikuva

Tallennettuna:

Bibliografiset tiedot
Päätekijät:	Comanducci, Luca, Antonacci, Fabio, Sarti, Augusto
Aineistotyyppi:	Preprint
Julkaistu:	2024
Aiheet:	Audio and Speech Processing Sound
Linkit:	https://arxiv.org/abs/2404.03436
Tagit:	Lisää tagi Ei tageja, Lisää ensimmäinen tagi!

Samankaltaisia teoksia

Room Transfer Function Reconstruction Using Complex-valued Neural Networks and Irregularly Distributed Microphones
Tekijä: Ronchini, Francesca, et al.
Julkaistu: (2024)

Reconstruction of Sound Field through Diffusion Models
Tekijä: Miotello, Federico, et al.
Julkaistu: (2023)

Synthetic training set generation using text-to-audio models for environmental sound classification
Tekijä: Ronchini, Francesca, et al.
Julkaistu: (2024)

Physics-Informed Transfer Learning for Data-Driven Sound Source Reconstruction in Near-Field Acoustic Holography
Tekijä: Luan, Xinmeng, et al.
Julkaistu: (2025)

Synthesis of Soundfields through Irregular Loudspeaker Arrays Based on Convolutional Neural Networks
Tekijä: Comanducci, Luca, et al.
Julkaistu: (2022)

PAGURI: a user experience study of creative interaction with text-to-music models
Tekijä: Ronchini, Francesca, et al.
Julkaistu: (2024)

MambaFoley: Foley Sound Generation using Selective State-Space Models
Tekijä: Colombo, Marco Furio, et al.
Julkaistu: (2024)

Towards HRTF Personalization using Denoising Diffusion Models
Tekijä: Sánchez, Juan Camilo Albarracín, et al.
Julkaistu: (2025)

AI-Assisted Music Production: A User Study on Text-to-Music Models
Tekijä: Ronchini, Francesca, et al.
Julkaistu: (2025)

Acoustic source localization in the spherical harmonics domain exploiting low-rank approximations
Tekijä: Cobos, Maximo, et al.
Julkaistu: (2023)

Implicit neural representation with physics-informed neural networks for the reconstruction of the early part of room impulse responses
Tekijä: Pezzoli, Mirco, et al.
Julkaistu: (2023)

Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
Tekijä: Messina, Francisco, et al.
Julkaistu: (2025)

Diffused Responsibility: Analyzing the Energy Consumption of Generative Text-to-Audio Diffusion Models
Tekijä: Passoni, Riccardo, et al.
Julkaistu: (2025)

FakeMusicCaps: a Dataset for Detection and Attribution of Synthetic Music Generated via Text-to-Music Models
Tekijä: Comanducci, Luca, et al.
Julkaistu: (2024)

WMCodec: End-to-End Neural Speech Codec with Deep Watermarking for Authenticity Verification
Tekijä: Zhou, Junzuo, et al.
Julkaistu: (2024)

An End-to-End Speech Summarization Using Large Language Model
Tekijä: Shang, Hengchao, et al.
Julkaistu: (2024)

A Physics-Informed Neural Network-Based Approach for the Spatial Upsampling of Spherical Microphone Arrays
Tekijä: Miotello, Federico, et al.
Julkaistu: (2024)

CosyEdit: Unlocking End-to-End Speech Editing Capability from Zero-Shot Text-to-Speech Models
Tekijä: Chen, Junyang, et al.
Julkaistu: (2026)

AADNet: An End-to-End Deep Learning Model for Auditory Attention Decoding
Tekijä: Nguyen, Nhan Duc Thanh, et al.
Julkaistu: (2024)

An Efficient End-to-End Approach to Noise Invariant Speech Features via Multi-Task Learning
Tekijä: Guimarães, Heitor R., et al.
Julkaistu: (2024)

Toward Deep Drum Source Separation
Tekijä: Mezza, Alessandro Ilic, et al.
Julkaistu: (2023)

End-to-End Target Speaker Speech Recognition Using Context-Aware Attention Mechanisms for Challenging Enrollment Scenario
Tekijä: Ghane, Mohsen, et al.
Julkaistu: (2025)

End-to-End Diarization utilizing Attractor Deep Clustering
Tekijä: Palzer, David, et al.
Julkaistu: (2025)

Low-Rank Adaptation of Deep Prior Neural Networks For Room Impulse Response Reconstruction
Tekijä: Pezzoli, Mirco, et al.
Julkaistu: (2025)

Central Kurdish Text-to-Speech Synthesis with Novel End-to-End Transformer Training
Tekijä: Ahmad, Hawraz A., et al.
Julkaistu: (2024)

Wav2Prompt: End-to-End Speech Prompt Generation and Tuning For LLM in Zero and Few-shot Learning
Tekijä: Deng, Keqi, et al.
Julkaistu: (2024)

End-to-End Integration of Speech Emotion Recognition with Voice Activity Detection using Self-Supervised Learning Features
Tekijä: Yamashita, Natsuo, et al.
Julkaistu: (2024)

Speech-to-See: End-to-End Speech-Driven Open-Set Object Detection
Tekijä: Lu, Wenhuan, et al.
Julkaistu: (2025)

Layer-wise Analysis for Quality of Multilingual Synthesized Speech
Tekijä: Cooper, Erica, et al.
Julkaistu: (2025)

Diff-SAGe: End-to-End Spatial Audio Generation Using Diffusion Models
Tekijä: Kushwaha, Saksham Singh, et al.
Julkaistu: (2024)

FLY-TTS: Fast, Lightweight and High-Quality End-to-End Text-to-Speech Synthesis
Tekijä: Guo, Yinlin, et al.
Julkaistu: (2024)

HOMULA-RIR: A Room Impulse Response Dataset for Teleconferencing and Spatial Audio Applications Acquired Through Higher-Order Microphones and Uniform Linear Microphone Arrays
Tekijä: Miotello, Federico, et al.
Julkaistu: (2024)

On Improving Error Resilience of Neural End-to-End Speech Coders
Tekijä: Gupta, Kishan, et al.
Julkaistu: (2024)

Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition
Tekijä: Chen, Jinming, et al.
Julkaistu: (2024)

Representation Purification for End-to-End Speech Translation
Tekijä: Zhang, Chengwei, et al.
Julkaistu: (2024)

IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition
Tekijä: Zhuang, Zhuoran, et al.
Julkaistu: (2026)

Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review
Tekijä: Raimon, Athul, et al.
Julkaistu: (2024)

Speaker Adaptation for Quantised End-to-End ASR Models
Tekijä: Zhao, Qiuming, et al.
Julkaistu: (2024)

Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech
Tekijä: Lin, Guan-Ting, et al.
Julkaistu: (2024)

Dissecting the Segmentation Model of End-to-End Diarization with Vector Clustering
Tekijä: Plaquet, Alexis, et al.
Julkaistu: (2025)