Salvato in:
| Autori principali: | Bai, Liuyang, Lu, Weiyi, Guo, Li |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2512.21653 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation
di: Yang, Xusheng, et al.
Pubblicazione: (2025)
di: Yang, Xusheng, et al.
Pubblicazione: (2025)
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
di: Kim, Minchan, et al.
Pubblicazione: (2024)
di: Kim, Minchan, et al.
Pubblicazione: (2024)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
di: Wang, Xiaofei, et al.
Pubblicazione: (2023)
di: Wang, Xiaofei, et al.
Pubblicazione: (2023)
Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
di: Lin, Tzu-Quan, et al.
Pubblicazione: (2022)
di: Lin, Tzu-Quan, et al.
Pubblicazione: (2022)
On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
di: Varshavsky-Hassid, Miri, et al.
Pubblicazione: (2024)
di: Varshavsky-Hassid, Miri, et al.
Pubblicazione: (2024)
Huntington Disease Automatic Speech Recognition with Biomarker Supervision
di: Wang, Charles L., et al.
Pubblicazione: (2026)
di: Wang, Charles L., et al.
Pubblicazione: (2026)
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025
di: Ferreira, Alef Iury Siqueira, et al.
Pubblicazione: (2025)
di: Ferreira, Alef Iury Siqueira, et al.
Pubblicazione: (2025)
SpeakStream: Streaming Text-to-Speech with Interleaved Data
di: Bai, Richard He, et al.
Pubblicazione: (2025)
di: Bai, Richard He, et al.
Pubblicazione: (2025)
Early Attentive Sparsification Accelerates Neural Speech Transcription
di: Xu, Zifei, et al.
Pubblicazione: (2025)
di: Xu, Zifei, et al.
Pubblicazione: (2025)
Disentangling Textual and Acoustic Features of Neural Speech Representations
di: Mohebbi, Hosein, et al.
Pubblicazione: (2024)
di: Mohebbi, Hosein, et al.
Pubblicazione: (2024)
Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech
di: Wang, Yuyu, et al.
Pubblicazione: (2025)
di: Wang, Yuyu, et al.
Pubblicazione: (2025)
Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
di: Rosin, Theresa Pekarek, et al.
Pubblicazione: (2025)
di: Rosin, Theresa Pekarek, et al.
Pubblicazione: (2025)
Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications
di: Kudlur, Manjunath, et al.
Pubblicazione: (2026)
di: Kudlur, Manjunath, et al.
Pubblicazione: (2026)
RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks
di: Diaconu, Alexandra, et al.
Pubblicazione: (2026)
di: Diaconu, Alexandra, et al.
Pubblicazione: (2026)
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis
di: Liu, Zhijun, et al.
Pubblicazione: (2024)
di: Liu, Zhijun, et al.
Pubblicazione: (2024)
Improving Self-supervised Pre-training using Accent-Specific Codebooks
di: Prabhu, Darshan, et al.
Pubblicazione: (2024)
di: Prabhu, Darshan, et al.
Pubblicazione: (2024)
Style Mixture of Experts for Expressive Text-To-Speech Synthesis
di: Jawaid, Ahad, et al.
Pubblicazione: (2024)
di: Jawaid, Ahad, et al.
Pubblicazione: (2024)
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation
di: Duret, Jarod, et al.
Pubblicazione: (2024)
di: Duret, Jarod, et al.
Pubblicazione: (2024)
DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
FlashSpeech: Efficient Zero-Shot Speech Synthesis
di: Ye, Zhen, et al.
Pubblicazione: (2024)
di: Ye, Zhen, et al.
Pubblicazione: (2024)
SimulTron: On-Device Simultaneous Speech to Speech Translation
di: Agranovich, Alex, et al.
Pubblicazione: (2024)
di: Agranovich, Alex, et al.
Pubblicazione: (2024)
Translatotron 3: Speech to Speech Translation with Monolingual Data
di: Nachmani, Eliya, et al.
Pubblicazione: (2023)
di: Nachmani, Eliya, et al.
Pubblicazione: (2023)
Speech Robust Bench: A Robustness Benchmark For Speech Recognition
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)
TokenChain: A Discrete Speech Chain via Semantic Token Modeling
di: Wang, Mingxuan, et al.
Pubblicazione: (2025)
di: Wang, Mingxuan, et al.
Pubblicazione: (2025)
Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement
di: Wang, Chien-Chun, et al.
Pubblicazione: (2026)
di: Wang, Chien-Chun, et al.
Pubblicazione: (2026)
Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
di: Nagpal, Chirag, et al.
Pubblicazione: (2024)
di: Nagpal, Chirag, et al.
Pubblicazione: (2024)
CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
di: Lu, Yen-Ju, et al.
Pubblicazione: (2024)
di: Lu, Yen-Ju, et al.
Pubblicazione: (2024)
Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
di: Chowdhury, MD. Sagor, et al.
Pubblicazione: (2026)
di: Chowdhury, MD. Sagor, et al.
Pubblicazione: (2026)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving
di: Shankar, Bhavani, et al.
Pubblicazione: (2024)
di: Shankar, Bhavani, et al.
Pubblicazione: (2024)
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings
di: Ljubešić, Nikola, et al.
Pubblicazione: (2024)
di: Ljubešić, Nikola, et al.
Pubblicazione: (2024)
Modeling Overlapped Speech with Shuffles
di: Wiesner, Matthew, et al.
Pubblicazione: (2026)
di: Wiesner, Matthew, et al.
Pubblicazione: (2026)
MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
di: Lou, Yuxuan, et al.
Pubblicazione: (2026)
HyperTTS: Parameter Efficient Adaptation in Text to Speech using Hypernetworks
di: Li, Yingting, et al.
Pubblicazione: (2024)
di: Li, Yingting, et al.
Pubblicazione: (2024)
STTATTS: Unified Speech-To-Text And Text-To-Speech Model
di: Toyin, Hawau Olamide, et al.
Pubblicazione: (2024)
di: Toyin, Hawau Olamide, et al.
Pubblicazione: (2024)
PAST: Phonetic-Acoustic Speech Tokenizer
di: Har-Tuv, Nadav, et al.
Pubblicazione: (2025)
di: Har-Tuv, Nadav, et al.
Pubblicazione: (2025)
Textually Pretrained Speech Language Models
di: Hassid, Michael, et al.
Pubblicazione: (2023)
di: Hassid, Michael, et al.
Pubblicazione: (2023)
TTSDS -- Text-to-Speech Distribution Score
di: Minixhofer, Christoph, et al.
Pubblicazione: (2024)
di: Minixhofer, Christoph, et al.
Pubblicazione: (2024)
Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis
di: Fujita, Kenichi, et al.
Pubblicazione: (2024)
di: Fujita, Kenichi, et al.
Pubblicazione: (2024)
WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation
di: Della Libera, Luca, et al.
Pubblicazione: (2026)
di: Della Libera, Luca, et al.
Pubblicazione: (2026)
Documenti analoghi
-
U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation
di: Yang, Xusheng, et al.
Pubblicazione: (2025) -
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
di: Kim, Minchan, et al.
Pubblicazione: (2024) -
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
di: Wang, Xiaofei, et al.
Pubblicazione: (2023) -
Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
di: Lin, Tzu-Quan, et al.
Pubblicazione: (2022) -
On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models
di: Varshavsky-Hassid, Miri, et al.
Pubblicazione: (2024)