:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Bai, Liuyang, Lu, Weiyi, Guo, Li
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Sound Computation and Language Machine Learning
Accesso online:	https://arxiv.org/abs/2512.21653
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation
di: Yang, Xusheng, et al.
Pubblicazione: (2025)

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
di: Kim, Minchan, et al.
Pubblicazione: (2024)

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
di: Wang, Xiaofei, et al.
Pubblicazione: (2023)

Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
di: Lin, Tzu-Quan, et al.
Pubblicazione: (2022)

On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
di: Varshavsky-Hassid, Miri, et al.
Pubblicazione: (2024)

Huntington Disease Automatic Speech Recognition with Biomarker Supervision
di: Wang, Charles L., et al.
Pubblicazione: (2026)

Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025
di: Ferreira, Alef Iury Siqueira, et al.
Pubblicazione: (2025)

SpeakStream: Streaming Text-to-Speech with Interleaved Data
di: Bai, Richard He, et al.
Pubblicazione: (2025)

Early Attentive Sparsification Accelerates Neural Speech Transcription
di: Xu, Zifei, et al.
Pubblicazione: (2025)

Disentangling Textual and Acoustic Features of Neural Speech Representations
di: Mohebbi, Hosein, et al.
Pubblicazione: (2024)

Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech
di: Wang, Yuyu, et al.
Pubblicazione: (2025)

Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
di: Rosin, Theresa Pekarek, et al.
Pubblicazione: (2025)

Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications
di: Kudlur, Manjunath, et al.
Pubblicazione: (2026)

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks
di: Diaconu, Alexandra, et al.
Pubblicazione: (2026)

Autoregressive Diffusion Transformer for Text-to-Speech Synthesis
di: Liu, Zhijun, et al.
Pubblicazione: (2024)

Improving Self-supervised Pre-training using Accent-Specific Codebooks
di: Prabhu, Darshan, et al.
Pubblicazione: (2024)

Style Mixture of Experts for Expressive Text-To-Speech Synthesis
di: Jawaid, Ahad, et al.
Pubblicazione: (2024)

Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation
di: Duret, Jarod, et al.
Pubblicazione: (2024)

DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)

FlashSpeech: Efficient Zero-Shot Speech Synthesis
di: Ye, Zhen, et al.
Pubblicazione: (2024)

SimulTron: On-Device Simultaneous Speech to Speech Translation
di: Agranovich, Alex, et al.
Pubblicazione: (2024)

Translatotron 3: Speech to Speech Translation with Monolingual Data
di: Nachmani, Eliya, et al.
Pubblicazione: (2023)

Speech Robust Bench: A Robustness Benchmark For Speech Recognition
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)

TokenChain: A Discrete Speech Chain via Semantic Token Modeling
di: Wang, Mingxuan, et al.
Pubblicazione: (2025)

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement
di: Wang, Chien-Chun, et al.
Pubblicazione: (2026)

Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
di: Nagpal, Chirag, et al.
Pubblicazione: (2024)

CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
di: Lu, Yen-Ju, et al.
Pubblicazione: (2024)

Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
di: Chowdhury, MD. Sagor, et al.
Pubblicazione: (2026)

CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving
di: Shankar, Bhavani, et al.
Pubblicazione: (2024)

On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)

The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
di: Ljubešić, Nikola, et al.
Pubblicazione: (2024)

Modeling Overlapped Speech with Shuffles
di: Wiesner, Matthew, et al.
Pubblicazione: (2026)

MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)

HyperTTS: Parameter Efficient Adaptation in Text to Speech using Hypernetworks
di: Li, Yingting, et al.
Pubblicazione: (2024)

STTATTS: Unified Speech-To-Text And Text-To-Speech Model
di: Toyin, Hawau Olamide, et al.
Pubblicazione: (2024)

PAST: Phonetic-Acoustic Speech Tokenizer
di: Har-Tuv, Nadav, et al.
Pubblicazione: (2025)

Textually Pretrained Speech Language Models
di: Hassid, Michael, et al.
Pubblicazione: (2023)

TTSDS -- Text-to-Speech Distribution Score
di: Minixhofer, Christoph, et al.
Pubblicazione: (2024)

Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis
di: Fujita, Kenichi, et al.
Pubblicazione: (2024)

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation
di: Della Libera, Luca, et al.
Pubblicazione: (2026)