:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Giacomelli, Stefano, Giordano, Marco, Rinaldi, Claudia, Graziosi, Fabio
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Sound Artificial Intelligence Audio and Speech Processing 68T07 E.1; H.1; I.2; I.5; J.2; K.4; C.4
Accesso online:	https://arxiv.org/abs/2506.23437
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware
di: Giordano, Marco, et al.
Pubblicazione: (2025)

The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)

The OCON model: an old but gold solution for distributable supervised classification
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)

M2D-CLAP: Exploring General-purpose Audio-Language Representations Beyond CLAP
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)

Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning
di: Niizumi, Daisuke, et al.
Pubblicazione: (2026)

Audio-based Kinship Verification Using Age Domain Conversion
di: Sun, Qiyang, et al.
Pubblicazione: (2024)

HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
di: Khushiyant, et al.
Pubblicazione: (2026)

Graph Connectionist Temporal Classification for Phoneme Recognition
di: Grafé, Henry, et al.
Pubblicazione: (2025)

Modeling L1 Influence on L2 Pronunciation: An MFCC-Based Framework for Explainable Machine Learning and Pedagogical Feedback
di: Jahanbin, Peyman
Pubblicazione: (2025)

STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution
di: Firc, Anton, et al.
Pubblicazione: (2025)

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
di: Wu, Junyan, et al.
Pubblicazione: (2024)

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
di: Hori, Takaaki, et al.
Pubblicazione: (2025)

Quantization for OpenAI's Whisper Models: A Comparative Analysis
di: Andreyev, Allison
Pubblicazione: (2025)

Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network
di: Liu, Yucheng, et al.
Pubblicazione: (2025)

AudioTime: A Temporally-aligned Audio-text Benchmark Dataset
di: Xie, Zeyu, et al.
Pubblicazione: (2024)

OBHS: An Optimized Block Huffman Scheme for Real-Time Audio Compression
di: Mahfi, Muntahi Safwan, et al.
Pubblicazione: (2025)

PicoAudio2: Temporal Controllable Text-to-Audio Generation with Natural Language Description
di: Zheng, Zihao, et al.
Pubblicazione: (2025)

Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices
di: Lasbordes, Maxence, et al.
Pubblicazione: (2025)

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
di: Xie, Zeyu, et al.
Pubblicazione: (2024)

FakeSound: Deepfake General Audio Detection
di: Xie, Zeyu, et al.
Pubblicazione: (2024)

STAR: Speech-to-Audio Generation via Representation Learning
di: Xie, Zeyu, et al.
Pubblicazione: (2025)

FakeSound2: A Benchmark for Explainable and Generalizable Deepfake Sound Detection
di: Xie, Zeyu, et al.
Pubblicazione: (2025)

Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements
di: BN, Suhas, et al.
Pubblicazione: (2025)

Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet
di: Venkatesh, Satvik, et al.
Pubblicazione: (2024)

Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device
di: Kozak, Nazar
Pubblicazione: (2026)

Deep Feed-Forward Neural Network for Bangla Isolated Speech Recognition
di: Bhadra, Dipayan, et al.
Pubblicazione: (2025)

Make Some Noise: Towards LLM audio reasoning and generation using sound tokens
di: Mehta, Shivam, et al.
Pubblicazione: (2025)

SemAlignVC: Enhancing zero-shot timbre conversion using semantic alignment
di: Mehta, Shivam, et al.
Pubblicazione: (2025)

Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages
di: Zaragozá, Lucía Gómez, et al.
Pubblicazione: (2024)

Prevailing Research Areas for Music AI in the Era of Foundation Models
di: Wei, Megan, et al.
Pubblicazione: (2024)

Simultaneous source separation of unknown numbers of single-channel underwater acoustic signals based on deep neural networks with separator-decoder structure
di: Sun, Qinggang, et al.
Pubblicazione: (2022)

Boundary Regression for Leitmotif Detection in Music Audio
di: Lee, Sihun, et al.
Pubblicazione: (2025)

AI-based Drone Assisted Human Rescue in Disaster Environments: Challenges and Opportunities
di: Papyan, Narek, et al.
Pubblicazione: (2024)

Hidden Echoes Survive Training in Audio To Audio Generative Instrument Models
di: Tralie, Christopher J., et al.
Pubblicazione: (2024)

Sink or SWIM: Tackling Real-Time ASR at Scale
di: Bruzzone, Federico, et al.
Pubblicazione: (2026)

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
di: Richter-Powell, Jessie, et al.
Pubblicazione: (2025)

Representation Loss Minimization with Randomized Selection Strategy for Efficient Environmental Fake Audio Detection
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)

Investigating Prosodic Signatures via Speech Pre-Trained Models for Audio Deepfake Source Attribution
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)

Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
di: Mehta, Shivam, et al.
Pubblicazione: (2024)