:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chen, Tuochao, Wang, Qirui, Wu, Bohan, Itani, Malek, Eskimez, Sefik Emre, Yoshioka, Takuya, Gollakota, Shyamnath
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computation and Language Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2407.11277
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Knowledge boosting during low-latency inference
di: Srinivas, Vidya, et al.
Pubblicazione: (2024)

Neural Speech Extraction with Human Feedback
di: Itani, Malek, et al.
Pubblicazione: (2025)

Look Once to Hear: Target Speech Hearing with Noisy Examples
di: Veluri, Bandhav, et al.
Pubblicazione: (2024)

TF-MLPNet: Tiny Real-Time Neural Speech Separation
di: Itani, Malek, et al.
Pubblicazione: (2025)

Proactive Hearing Assistants that Isolate Egocentric Conversations
di: Hu, Guilin, et al.
Pubblicazione: (2025)

Wireless Hearables With Programmable Speech AI Accelerators
di: Itani, Malek, et al.
Pubblicazione: (2025)

Fine-grained Soundscape Control for Augmented Hearing
di: Oh, Seunghyun, et al.
Pubblicazione: (2026)

TS3-Codec: Transformer-Based Simple Streaming Single Codec
di: Wu, Haibin, et al.
Pubblicazione: (2024)

Spatial Speech Translation: Translating Across Space With Binaural Hearables
di: Chen, Tuochao, et al.
Pubblicazione: (2025)

LLAMAPIE: Proactive In-Ear Conversation Assistants
di: Chen, Tuochao, et al.
Pubblicazione: (2025)

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
di: Wang, Xiaofei, et al.
Pubblicazione: (2023)

Total-Duration-Aware Duration Modeling for Text-to-Speech Systems
di: Eskimez, Sefik Emre, et al.
Pubblicazione: (2024)

Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents
di: Veluri, Bandhav, et al.
Pubblicazione: (2024)

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech
di: Wu, Haibin, et al.
Pubblicazione: (2024)

An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS
di: Wang, Xiaofei, et al.
Pubblicazione: (2024)

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS
di: Eskimez, Sefik Emre, et al.
Pubblicazione: (2024)

Profile-Error-Tolerant Target-Speaker Voice Activity Detection
di: Wang, Dongmei, et al.
Pubblicazione: (2023)

SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction
di: Chen, Tuochao, et al.
Pubblicazione: (2025)

Analysis and Extension of Noisy-target Training for Unsupervised Target Signal Enhancement
di: Fujimura, Takuya, et al.
Pubblicazione: (2025)

Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities
di: Lin, Guan-Ting, et al.
Pubblicazione: (2025)

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like
di: Kanda, Naoyuki, et al.
Pubblicazione: (2024)

DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds
di: Hasumi, Takuya, et al.
Pubblicazione: (2025)

Turn-taking annotation for quantitative and qualitative analyses of conversation
di: Kelterer, Anneliese, et al.
Pubblicazione: (2025)

Comparison of Classification Algorithms for COVID19 Detection using Cough Acoustic Signals
di: Erdoğan, Yunus Emre, et al.
Pubblicazione: (2022)

Transformer-based End-to-End Control Filter Generation for Active Noise Control
di: Yang, Ziyi, et al.
Pubblicazione: (2026)

Neural Network-Based Time-Frequency-Bin-Wise Linear Combination of Beamformers for Underdetermined Target Source Extraction
di: Chen, Changda, et al.
Pubblicazione: (2026)

MMedFD: A Real-world Healthcare Benchmark for Multi-turn Full-Duplex Automatic Speech Recognition
di: Chen, Hongzhao, et al.
Pubblicazione: (2025)

Investigating self-supervised features for expressive, multilingual voice conversion
di: Martín-Cortinas, Álvaro, et al.
Pubblicazione: (2025)

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)
di: Ho, Chun-wei, et al.
Pubblicazione: (2026)

Why does music source separation benefit from cacophony?
di: Jeon, Chang-Bin, et al.
Pubblicazione: (2024)

Real-Time and Accurate: Zero-shot High-Fidelity Singing Voice Conversion with Multi-Condition Flow Synthesis
di: Li, Hui, et al.
Pubblicazione: (2024)

Lightweight speech enhancement guided target speech extraction in noisy multi-speaker scenarios
di: Huang, Ziling, et al.
Pubblicazione: (2025)

ARTT: Augmented Reverberant-Target Training for Unsupervised Monaural Speech Dereverberation
di: Song, Siqi, et al.
Pubblicazione: (2026)

BSCodec: A Band-Split Neural Codec for High-Quality Universal Audio Reconstruction
di: Wang, Haoran, et al.
Pubblicazione: (2025)

SCNet: Sparse Compression Network for Music Source Separation
di: Tong, Weinan, et al.
Pubblicazione: (2024)

MedASR: An Open-Source Model for High-Accuracy Medical Dictation
di: Wu, Ke, et al.
Pubblicazione: (2026)

Full-Duplex-Bench v1.5: Evaluating Overlap Handling for Full-Duplex Speech Models
di: Lin, Guan-Ting, et al.
Pubblicazione: (2025)

Multiple Speaker Separation from Noisy Sources in Reverberant Rooms using Relative Transfer Matrix
di: Manamperi, Wageesha N., et al.
Pubblicazione: (2025)

Leveraging Sound Source Trajectories for Universal Sound Separation
di: Wu, Donghang, et al.
Pubblicazione: (2024)

Low algorithmic delay implementation of convolutional beamformer for online joint source separation and dereverberation
di: Mo, Kaien, et al.
Pubblicazione: (2024)