:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Seow, Kayley, Arovas, Alexander, Steinmetz, Grace, Bick, Emily
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Audio and Speech Processing Sound
Accesso online:	https://arxiv.org/abs/2601.17014
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Differentiable Black-box and Gray-box Modeling of Nonlinear Audio Effects
di: Comunità, Marco, et al.
Pubblicazione: (2025)

ST-ITO: Controlling Audio Effects for Style Transfer with Inference-Time Optimization
di: Steinmetz, Christian J., et al.
Pubblicazione: (2024)

Audio Enhancement from Multiple Crowdsourced Recordings: A Simple and Effective Baseline
di: Aziz, Shiran, et al.
Pubblicazione: (2024)

Uncovering the Visual Contribution in Audio-Visual Speech Recognition
di: Lin, Zhaofeng, et al.
Pubblicazione: (2024)

Review of MEMS Speakers for Audio Applications
di: Wittek, Nils, et al.
Pubblicazione: (2025)

Audio-Visual Speech Enhancement in Noisy Environments via Emotion-Based Contextual Cues
di: Hussain, Tassadaq, et al.
Pubblicazione: (2024)

Online Audio-Visual Autoregressive Speaker Extraction
di: Pan, Zexu, et al.
Pubblicazione: (2025)

Low-Complexity Neural Wind Noise Reduction for Audio Recordings
di: Eftekhari, Hesam, et al.
Pubblicazione: (2025)

Quantifying Spatial Audio Quality Impairment
di: Watcharasupat, Karn N., et al.
Pubblicazione: (2023)

HumDial-EIBench: A Human-Recorded Multi-Turn Emotional Intelligence Benchmark for Audio Language Models
di: Wang, Shuiyuan, et al.
Pubblicazione: (2026)

Diffusion-Based Audio Inpainting
di: Moliner, Eloi, et al.
Pubblicazione: (2023)

AVR: Synergizing Foundation Models for Audio-Visual Humor Detection
di: Sharma, Sarthak, et al.
Pubblicazione: (2024)

POLIPHONE: A Dataset for Smartphone Model Identification from Audio Recordings
di: Salvi, Davide, et al.
Pubblicazione: (2024)

AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
di: Jia, Yuhang, et al.
Pubblicazione: (2024)

Automated Analysis of Naturalistic Recordings in Early Childhood: Applications, Challenges, and Opportunities
di: Li, Jialu, et al.
Pubblicazione: (2025)

A Fast and Lightweight Model for Causal Audio-Visual Speech Separation
di: Sang, Wendi, et al.
Pubblicazione: (2025)

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
di: Tao, Ruijie, et al.
Pubblicazione: (2024)

Leveraging Mamba with Full-Face Vision for Audio-Visual Speech Enhancement
di: Chao, Rong, et al.
Pubblicazione: (2025)

GRAFX: An Open-Source Library for Audio Processing Graphs in PyTorch
di: Lee, Sungho, et al.
Pubblicazione: (2024)

AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences
di: Kishi, Minoru, et al.
Pubblicazione: (2025)

Generating Diverse Audio-Visual 360 Soundscapes for Sound Event Localization and Detection
di: Roman, Adrian S., et al.
Pubblicazione: (2025)

FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching
di: Jung, Chaeyoung, et al.
Pubblicazione: (2024)

ASPED: An Audio Dataset for Detecting Pedestrians
di: Seshadri, Pavan, et al.
Pubblicazione: (2023)

Attention-Based Audio Embeddings for Query-by-Example
di: Singh, Anup, et al.
Pubblicazione: (2022)

Online Single-Channel Audio-Based Sound Speed Estimation for Robust Multi-Channel Audio Control
di: Fuglsig, Andreas Jonas, et al.
Pubblicazione: (2026)

Multimodal Assessment of Speech Impairment in ALS Using Audio-Visual and Machine Learning Approaches
di: Pierotti, Francesco, et al.
Pubblicazione: (2025)

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
di: Jin, Zhan, et al.
Pubblicazione: (2025)

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
di: Yang, Dongchao, et al.
Pubblicazione: (2023)

Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)

Building Audio-Visual Digital Twins with Smartphones
di: Lan, Zitong, et al.
Pubblicazione: (2025)

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
di: Gong, Yitian, et al.
Pubblicazione: (2026)

Robust Audio-Visual Speech Enhancement: Correcting Misassignments in Complex Environments with Advanced Post-Processing
di: Ren, Wenze, et al.
Pubblicazione: (2024)

DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module
di: Wang, Xinyu, et al.
Pubblicazione: (2024)

Audio Atlas: Visualizing and Exploring Audio Datasets
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)

An Adaptive CMSA for Solving the Longest Filled Common Subsequence Problem with an Application in Audio Querying
di: Djukanovic, Marko, et al.
Pubblicazione: (2025)

Streaming Audio Transformers for Online Audio Tagging
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)

Discrete Audio Representations for Automated Audio Captioning
di: Tian, Jingguang, et al.
Pubblicazione: (2025)

Pengi: An Audio Language Model for Audio Tasks
di: Deshmukh, Soham, et al.
Pubblicazione: (2023)

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm
di: Okita, Youichi, et al.
Pubblicazione: (2026)