Salvato in:
| Autori principali: | Seow, Kayley, Arovas, Alexander, Steinmetz, Grace, Bick, Emily |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2601.17014 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Differentiable Black-box and Gray-box Modeling of Nonlinear Audio Effects
di: Comunità, Marco, et al.
Pubblicazione: (2025)
di: Comunità, Marco, et al.
Pubblicazione: (2025)
ST-ITO: Controlling Audio Effects for Style Transfer with Inference-Time Optimization
di: Steinmetz, Christian J., et al.
Pubblicazione: (2024)
di: Steinmetz, Christian J., et al.
Pubblicazione: (2024)
Audio Enhancement from Multiple Crowdsourced Recordings: A Simple and Effective Baseline
di: Aziz, Shiran, et al.
Pubblicazione: (2024)
di: Aziz, Shiran, et al.
Pubblicazione: (2024)
Uncovering the Visual Contribution in Audio-Visual Speech Recognition
di: Lin, Zhaofeng, et al.
Pubblicazione: (2024)
di: Lin, Zhaofeng, et al.
Pubblicazione: (2024)
Review of MEMS Speakers for Audio Applications
di: Wittek, Nils, et al.
Pubblicazione: (2025)
di: Wittek, Nils, et al.
Pubblicazione: (2025)
Audio-Visual Speech Enhancement in Noisy Environments via Emotion-Based Contextual Cues
di: Hussain, Tassadaq, et al.
Pubblicazione: (2024)
di: Hussain, Tassadaq, et al.
Pubblicazione: (2024)
Online Audio-Visual Autoregressive Speaker Extraction
di: Pan, Zexu, et al.
Pubblicazione: (2025)
di: Pan, Zexu, et al.
Pubblicazione: (2025)
Low-Complexity Neural Wind Noise Reduction for Audio Recordings
di: Eftekhari, Hesam, et al.
Pubblicazione: (2025)
di: Eftekhari, Hesam, et al.
Pubblicazione: (2025)
Quantifying Spatial Audio Quality Impairment
di: Watcharasupat, Karn N., et al.
Pubblicazione: (2023)
di: Watcharasupat, Karn N., et al.
Pubblicazione: (2023)
HumDial-EIBench: A Human-Recorded Multi-Turn Emotional Intelligence Benchmark for Audio Language Models
di: Wang, Shuiyuan, et al.
Pubblicazione: (2026)
di: Wang, Shuiyuan, et al.
Pubblicazione: (2026)
Diffusion-Based Audio Inpainting
di: Moliner, Eloi, et al.
Pubblicazione: (2023)
di: Moliner, Eloi, et al.
Pubblicazione: (2023)
AVR: Synergizing Foundation Models for Audio-Visual Humor Detection
di: Sharma, Sarthak, et al.
Pubblicazione: (2024)
di: Sharma, Sarthak, et al.
Pubblicazione: (2024)
POLIPHONE: A Dataset for Smartphone Model Identification from Audio Recordings
di: Salvi, Davide, et al.
Pubblicazione: (2024)
di: Salvi, Davide, et al.
Pubblicazione: (2024)
AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework
di: Jia, Yuhang, et al.
Pubblicazione: (2024)
di: Jia, Yuhang, et al.
Pubblicazione: (2024)
Automated Analysis of Naturalistic Recordings in Early Childhood: Applications, Challenges, and Opportunities
di: Li, Jialu, et al.
Pubblicazione: (2025)
di: Li, Jialu, et al.
Pubblicazione: (2025)
A Fast and Lightweight Model for Causal Audio-Visual Speech Separation
di: Sang, Wendi, et al.
Pubblicazione: (2025)
di: Sang, Wendi, et al.
Pubblicazione: (2025)
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
di: Tao, Ruijie, et al.
Pubblicazione: (2024)
Leveraging Mamba with Full-Face Vision for Audio-Visual Speech Enhancement
di: Chao, Rong, et al.
Pubblicazione: (2025)
di: Chao, Rong, et al.
Pubblicazione: (2025)
GRAFX: An Open-Source Library for Audio Processing Graphs in PyTorch
di: Lee, Sungho, et al.
Pubblicazione: (2024)
di: Lee, Sungho, et al.
Pubblicazione: (2024)
AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences
di: Kishi, Minoru, et al.
Pubblicazione: (2025)
di: Kishi, Minoru, et al.
Pubblicazione: (2025)
Generating Diverse Audio-Visual 360 Soundscapes for Sound Event Localization and Detection
di: Roman, Adrian S., et al.
Pubblicazione: (2025)
di: Roman, Adrian S., et al.
Pubblicazione: (2025)
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching
di: Jung, Chaeyoung, et al.
Pubblicazione: (2024)
di: Jung, Chaeyoung, et al.
Pubblicazione: (2024)
ASPED: An Audio Dataset for Detecting Pedestrians
di: Seshadri, Pavan, et al.
Pubblicazione: (2023)
di: Seshadri, Pavan, et al.
Pubblicazione: (2023)
Attention-Based Audio Embeddings for Query-by-Example
di: Singh, Anup, et al.
Pubblicazione: (2022)
di: Singh, Anup, et al.
Pubblicazione: (2022)
Online Single-Channel Audio-Based Sound Speed Estimation for Robust Multi-Channel Audio Control
di: Fuglsig, Andreas Jonas, et al.
Pubblicazione: (2026)
di: Fuglsig, Andreas Jonas, et al.
Pubblicazione: (2026)
Multimodal Assessment of Speech Impairment in ALS Using Audio-Visual and Machine Learning Approaches
di: Pierotti, Francesco, et al.
Pubblicazione: (2025)
di: Pierotti, Francesco, et al.
Pubblicazione: (2025)
Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
di: Jin, Zhan, et al.
Pubblicazione: (2025)
di: Jin, Zhan, et al.
Pubblicazione: (2025)
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
di: Zhang, Jing-Xuan, et al.
Pubblicazione: (2025)
UniAudio: An Audio Foundation Model Toward Universal Audio Generation
di: Yang, Dongchao, et al.
Pubblicazione: (2023)
di: Yang, Dongchao, et al.
Pubblicazione: (2023)
Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)
Building Audio-Visual Digital Twins with Smartphones
di: Lan, Zitong, et al.
Pubblicazione: (2025)
di: Lan, Zitong, et al.
Pubblicazione: (2025)
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
di: Gong, Yitian, et al.
Pubblicazione: (2026)
di: Gong, Yitian, et al.
Pubblicazione: (2026)
Robust Audio-Visual Speech Enhancement: Correcting Misassignments in Complex Environments with Advanced Post-Processing
di: Ren, Wenze, et al.
Pubblicazione: (2024)
di: Ren, Wenze, et al.
Pubblicazione: (2024)
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module
di: Wang, Xinyu, et al.
Pubblicazione: (2024)
di: Wang, Xinyu, et al.
Pubblicazione: (2024)
Audio Atlas: Visualizing and Exploring Audio Datasets
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)
di: Lanzendörfer, Luca A., et al.
Pubblicazione: (2024)
An Adaptive CMSA for Solving the Longest Filled Common Subsequence Problem with an Application in Audio Querying
di: Djukanovic, Marko, et al.
Pubblicazione: (2025)
di: Djukanovic, Marko, et al.
Pubblicazione: (2025)
Streaming Audio Transformers for Online Audio Tagging
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)
Discrete Audio Representations for Automated Audio Captioning
di: Tian, Jingguang, et al.
Pubblicazione: (2025)
di: Tian, Jingguang, et al.
Pubblicazione: (2025)
Pengi: An Audio Language Model for Audio Tasks
di: Deshmukh, Soham, et al.
Pubblicazione: (2023)
di: Deshmukh, Soham, et al.
Pubblicazione: (2023)
Audio Effect Estimation with DNN-Based Prediction and Search Algorithm
di: Okita, Youichi, et al.
Pubblicazione: (2026)
di: Okita, Youichi, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Differentiable Black-box and Gray-box Modeling of Nonlinear Audio Effects
di: Comunità, Marco, et al.
Pubblicazione: (2025) -
ST-ITO: Controlling Audio Effects for Style Transfer with Inference-Time Optimization
di: Steinmetz, Christian J., et al.
Pubblicazione: (2024) -
Audio Enhancement from Multiple Crowdsourced Recordings: A Simple and Effective Baseline
di: Aziz, Shiran, et al.
Pubblicazione: (2024) -
Uncovering the Visual Contribution in Audio-Visual Speech Recognition
di: Lin, Zhaofeng, et al.
Pubblicazione: (2024) -
Review of MEMS Speakers for Audio Applications
di: Wittek, Nils, et al.
Pubblicazione: (2025)