Salvato in:
| Autori principali: | Li, Bohan, Wang, Hankun, Zhang, Situo, Guo, Yiwei, Yu, Kai |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2410.21951 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
di: Guichoux, Téo, et al.
Pubblicazione: (2025)
di: Guichoux, Téo, et al.
Pubblicazione: (2025)
HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
di: Li, Bohan, et al.
Pubblicazione: (2026)
di: Li, Bohan, et al.
Pubblicazione: (2026)
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
di: Guo, Yiwei, et al.
Pubblicazione: (2024)
di: Guo, Yiwei, et al.
Pubblicazione: (2024)
CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate
di: Wang, Hankun, et al.
Pubblicazione: (2025)
di: Wang, Hankun, et al.
Pubblicazione: (2025)
AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
di: Guo, Yiwei, et al.
Pubblicazione: (2025)
di: Guo, Yiwei, et al.
Pubblicazione: (2025)
Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding
di: Lin, Zijian, et al.
Pubblicazione: (2025)
di: Lin, Zijian, et al.
Pubblicazione: (2025)
On the Effectiveness of Acoustic BPE in Decoder-Only TTS
di: Li, Bohan, et al.
Pubblicazione: (2024)
di: Li, Bohan, et al.
Pubblicazione: (2024)
Recent Advances in Discrete Speech Tokens: A Review
di: Guo, Yiwei, et al.
Pubblicazione: (2025)
di: Guo, Yiwei, et al.
Pubblicazione: (2025)
Attention-Constrained Inference for Robust Decoder-Only Text-to-Speech
di: Wang, Hankun, et al.
Pubblicazione: (2024)
di: Wang, Hankun, et al.
Pubblicazione: (2024)
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
di: Salehi, Pegah, et al.
Pubblicazione: (2024)
di: Salehi, Pegah, et al.
Pubblicazione: (2024)
Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP
di: Liu, Yisi, et al.
Pubblicazione: (2024)
di: Liu, Yisi, et al.
Pubblicazione: (2024)
vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders
di: Guo, Yiwei, et al.
Pubblicazione: (2024)
di: Guo, Yiwei, et al.
Pubblicazione: (2024)
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
di: Nguyen, Tan Dat, et al.
Pubblicazione: (2024)
di: Nguyen, Tan Dat, et al.
Pubblicazione: (2024)
Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
Exploring Pre-trained General-purpose Audio Representations for Heart Murmur Detection
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech
di: Du, Chenpeng, et al.
Pubblicazione: (2024)
di: Du, Chenpeng, et al.
Pubblicazione: (2024)
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)
Can Sound Replace Vision in LLaVA With Token Substitution?
di: Vosoughi, Ali, et al.
Pubblicazione: (2025)
di: Vosoughi, Ali, et al.
Pubblicazione: (2025)
M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)
Towards General Discrete Speech Codec for Complex Acoustic Environments: A Study of Reconstruction and Downstream Task Consistency
di: Wang, Haoran, et al.
Pubblicazione: (2025)
di: Wang, Haoran, et al.
Pubblicazione: (2025)
Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy
di: Li, Bohan, et al.
Pubblicazione: (2025)
di: Li, Bohan, et al.
Pubblicazione: (2025)
Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate
di: Zhang, Hanglei, et al.
Pubblicazione: (2025)
di: Zhang, Hanglei, et al.
Pubblicazione: (2025)
Incremental FastPitch: Chunk-based High Quality Text to Speech
di: Du, Muyang, et al.
Pubblicazione: (2024)
di: Du, Muyang, et al.
Pubblicazione: (2024)
MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
di: Jon, Hyo Jin, et al.
Pubblicazione: (2025)
di: Jon, Hyo Jin, et al.
Pubblicazione: (2025)
Decoding Order Matters in Autoregressive Speech Synthesis
di: Zhao, Minghui, et al.
Pubblicazione: (2026)
di: Zhao, Minghui, et al.
Pubblicazione: (2026)
Assessing the Utility of Audio Foundation Models for Heart and Respiratory Sound Analysis
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
Towards Pre-training an Effective Respiratory Audio Foundation Model
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)
VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature
di: Du, Chenpeng, et al.
Pubblicazione: (2022)
di: Du, Chenpeng, et al.
Pubblicazione: (2022)
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
di: Liang, Susan, et al.
Pubblicazione: (2025)
di: Liang, Susan, et al.
Pubblicazione: (2025)
A Speech Enhancement Method Using Fast Fourier Transform and Convolutional Autoencoder
di: Kow, Pu-Yun, et al.
Pubblicazione: (2025)
di: Kow, Pu-Yun, et al.
Pubblicazione: (2025)
FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles
di: Zhang, Tian-Hao, et al.
Pubblicazione: (2025)
di: Zhang, Tian-Hao, et al.
Pubblicazione: (2025)
The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023
di: Wang, He, et al.
Pubblicazione: (2024)
di: Wang, He, et al.
Pubblicazione: (2024)
ECTSpeech: Enhancing Efficient Speech Synthesis via Easy Consistency Tuning
di: Zhu, Tao, et al.
Pubblicazione: (2025)
di: Zhu, Tao, et al.
Pubblicazione: (2025)
Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
di: Wang, Hankun, et al.
Pubblicazione: (2024)
di: Wang, Hankun, et al.
Pubblicazione: (2024)
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching
di: Guo, Yiwei, et al.
Pubblicazione: (2023)
di: Guo, Yiwei, et al.
Pubblicazione: (2023)
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
di: Wang, Helin, et al.
Pubblicazione: (2025)
di: Wang, Helin, et al.
Pubblicazione: (2025)
Apollo: Band-sequence Modeling for High-Quality Audio Restoration
di: Li, Kai, et al.
Pubblicazione: (2024)
di: Li, Kai, et al.
Pubblicazione: (2024)
Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
di: Cai, Runyuan, et al.
Pubblicazione: (2026)
di: Cai, Runyuan, et al.
Pubblicazione: (2026)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing
di: Sioros, Vassilis, et al.
Pubblicazione: (2025)
di: Sioros, Vassilis, et al.
Pubblicazione: (2025)
AMNet: An Acoustic Model Network for Enhanced Mandarin Speech Synthesis
di: Cao, Yubing, et al.
Pubblicazione: (2025)
di: Cao, Yubing, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
di: Guichoux, Téo, et al.
Pubblicazione: (2025) -
HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
di: Li, Bohan, et al.
Pubblicazione: (2026) -
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
di: Guo, Yiwei, et al.
Pubblicazione: (2024) -
CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate
di: Wang, Hankun, et al.
Pubblicazione: (2025) -
AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
di: Guo, Yiwei, et al.
Pubblicazione: (2025)