Salvato in:
| Autori principali: | Giacomelli, Stefano, Giordano, Marco, Rinaldi, Claudia, Graziosi, Fabio |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2506.23437 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware
di: Giordano, Marco, et al.
Pubblicazione: (2025)
di: Giordano, Marco, et al.
Pubblicazione: (2025)
The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)
The OCON model: an old but gold solution for distributable supervised classification
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024)
M2D-CLAP: Exploring General-purpose Audio-Language Representations Beyond CLAP
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)
Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning
di: Niizumi, Daisuke, et al.
Pubblicazione: (2026)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2026)
Audio-based Kinship Verification Using Age Domain Conversion
di: Sun, Qiyang, et al.
Pubblicazione: (2024)
di: Sun, Qiyang, et al.
Pubblicazione: (2024)
HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
di: Khushiyant, et al.
Pubblicazione: (2026)
di: Khushiyant, et al.
Pubblicazione: (2026)
Graph Connectionist Temporal Classification for Phoneme Recognition
di: Grafé, Henry, et al.
Pubblicazione: (2025)
di: Grafé, Henry, et al.
Pubblicazione: (2025)
Modeling L1 Influence on L2 Pronunciation: An MFCC-Based Framework for Explainable Machine Learning and Pedagogical Feedback
di: Jahanbin, Peyman
Pubblicazione: (2025)
di: Jahanbin, Peyman
Pubblicazione: (2025)
STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution
di: Firc, Anton, et al.
Pubblicazione: (2025)
di: Firc, Anton, et al.
Pubblicazione: (2025)
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
di: Wu, Junyan, et al.
Pubblicazione: (2024)
di: Wu, Junyan, et al.
Pubblicazione: (2024)
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
di: Hori, Takaaki, et al.
Pubblicazione: (2025)
di: Hori, Takaaki, et al.
Pubblicazione: (2025)
Quantization for OpenAI's Whisper Models: A Comparative Analysis
di: Andreyev, Allison
Pubblicazione: (2025)
di: Andreyev, Allison
Pubblicazione: (2025)
Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network
di: Liu, Yucheng, et al.
Pubblicazione: (2025)
di: Liu, Yucheng, et al.
Pubblicazione: (2025)
AudioTime: A Temporally-aligned Audio-text Benchmark Dataset
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
OBHS: An Optimized Block Huffman Scheme for Real-Time Audio Compression
di: Mahfi, Muntahi Safwan, et al.
Pubblicazione: (2025)
di: Mahfi, Muntahi Safwan, et al.
Pubblicazione: (2025)
PicoAudio2: Temporal Controllable Text-to-Audio Generation with Natural Language Description
di: Zheng, Zihao, et al.
Pubblicazione: (2025)
di: Zheng, Zihao, et al.
Pubblicazione: (2025)
Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices
di: Lasbordes, Maxence, et al.
Pubblicazione: (2025)
di: Lasbordes, Maxence, et al.
Pubblicazione: (2025)
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
FakeSound: Deepfake General Audio Detection
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
di: Xie, Zeyu, et al.
Pubblicazione: (2024)
STAR: Speech-to-Audio Generation via Representation Learning
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
FakeSound2: A Benchmark for Explainable and Generalizable Deepfake Sound Detection
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements
di: BN, Suhas, et al.
Pubblicazione: (2025)
di: BN, Suhas, et al.
Pubblicazione: (2025)
Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet
di: Venkatesh, Satvik, et al.
Pubblicazione: (2024)
di: Venkatesh, Satvik, et al.
Pubblicazione: (2024)
Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device
di: Kozak, Nazar
Pubblicazione: (2026)
di: Kozak, Nazar
Pubblicazione: (2026)
Deep Feed-Forward Neural Network for Bangla Isolated Speech Recognition
di: Bhadra, Dipayan, et al.
Pubblicazione: (2025)
di: Bhadra, Dipayan, et al.
Pubblicazione: (2025)
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens
di: Mehta, Shivam, et al.
Pubblicazione: (2025)
di: Mehta, Shivam, et al.
Pubblicazione: (2025)
SemAlignVC: Enhancing zero-shot timbre conversion using semantic alignment
di: Mehta, Shivam, et al.
Pubblicazione: (2025)
di: Mehta, Shivam, et al.
Pubblicazione: (2025)
Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages
di: Zaragozá, Lucía Gómez, et al.
Pubblicazione: (2024)
di: Zaragozá, Lucía Gómez, et al.
Pubblicazione: (2024)
Prevailing Research Areas for Music AI in the Era of Foundation Models
di: Wei, Megan, et al.
Pubblicazione: (2024)
di: Wei, Megan, et al.
Pubblicazione: (2024)
Simultaneous source separation of unknown numbers of single-channel underwater acoustic signals based on deep neural networks with separator-decoder structure
di: Sun, Qinggang, et al.
Pubblicazione: (2022)
di: Sun, Qinggang, et al.
Pubblicazione: (2022)
Boundary Regression for Leitmotif Detection in Music Audio
di: Lee, Sihun, et al.
Pubblicazione: (2025)
di: Lee, Sihun, et al.
Pubblicazione: (2025)
AI-based Drone Assisted Human Rescue in Disaster Environments: Challenges and Opportunities
di: Papyan, Narek, et al.
Pubblicazione: (2024)
di: Papyan, Narek, et al.
Pubblicazione: (2024)
Hidden Echoes Survive Training in Audio To Audio Generative Instrument Models
di: Tralie, Christopher J., et al.
Pubblicazione: (2024)
di: Tralie, Christopher J., et al.
Pubblicazione: (2024)
Sink or SWIM: Tackling Real-Time ASR at Scale
di: Bruzzone, Federico, et al.
Pubblicazione: (2026)
di: Bruzzone, Federico, et al.
Pubblicazione: (2026)
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
di: Richter-Powell, Jessie, et al.
Pubblicazione: (2025)
di: Richter-Powell, Jessie, et al.
Pubblicazione: (2025)
Representation Loss Minimization with Randomized Selection Strategy for Efficient Environmental Fake Audio Detection
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)
Investigating Prosodic Signatures via Speech Pre-Trained Models for Audio Deepfake Source Attribution
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)
di: Phukan, Orchid Chetia, et al.
Pubblicazione: (2024)
Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech
di: Mehta, Shivam, et al.
Pubblicazione: (2024)
di: Mehta, Shivam, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware
di: Giordano, Marco, et al.
Pubblicazione: (2025) -
The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024) -
The OCON model: an old but gold solution for distributable supervised classification
di: Giacomelli, Stefano, et al.
Pubblicazione: (2024) -
M2D-CLAP: Exploring General-purpose Audio-Language Representations Beyond CLAP
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025) -
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)