:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Li, Bohan, Wang, Hankun, Zhang, Situo, Guo, Yiwei, Yu, Kai
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Audio and Speech Processing Artificial Intelligence Sound 68T07
Accesso online:	https://arxiv.org/abs/2410.21951
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
di: Guichoux, Téo, et al.
Pubblicazione: (2025)

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding
di: Li, Bohan, et al.
Pubblicazione: (2026)

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
di: Guo, Yiwei, et al.
Pubblicazione: (2024)

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate
di: Wang, Hankun, et al.
Pubblicazione: (2025)

AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
di: Guo, Yiwei, et al.
Pubblicazione: (2025)

Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding
di: Lin, Zijian, et al.
Pubblicazione: (2025)

On the Effectiveness of Acoustic BPE in Decoder-Only TTS
di: Li, Bohan, et al.
Pubblicazione: (2024)

Recent Advances in Discrete Speech Tokens: A Review
di: Guo, Yiwei, et al.
Pubblicazione: (2025)

Attention-Constrained Inference for Robust Decoder-Only Text-to-Speech
di: Wang, Hankun, et al.
Pubblicazione: (2024)

Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
di: Salehi, Pegah, et al.
Pubblicazione: (2024)

Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP
di: Liu, Yisi, et al.
Pubblicazione: (2024)

vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders
di: Guo, Yiwei, et al.
Pubblicazione: (2024)

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
di: Nguyen, Tan Dat, et al.
Pubblicazione: (2024)

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)

Exploring Pre-trained General-purpose Audio Representations for Heart Murmur Detection
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech
di: Du, Chenpeng, et al.
Pubblicazione: (2024)

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
di: Roy, Abhinaba, et al.
Pubblicazione: (2025)

Can Sound Replace Vision in LLaVA With Token Substitution?
di: Vosoughi, Ali, et al.
Pubblicazione: (2025)

M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation
di: Niizumi, Daisuke, et al.
Pubblicazione: (2024)

Towards General Discrete Speech Codec for Complex Acoustic Environments: A Study of Reconstruction and Downstream Task Consistency
di: Wang, Haoran, et al.
Pubblicazione: (2025)

Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy
di: Li, Bohan, et al.
Pubblicazione: (2025)

Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate
di: Zhang, Hanglei, et al.
Pubblicazione: (2025)

Incremental FastPitch: Chunk-based High Quality Text to Speech
di: Du, Muyang, et al.
Pubblicazione: (2024)

MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition
di: Jon, Hyo Jin, et al.
Pubblicazione: (2025)

Decoding Order Matters in Autoregressive Speech Synthesis
di: Zhao, Minghui, et al.
Pubblicazione: (2026)

Assessing the Utility of Audio Foundation Models for Heart and Respiratory Sound Analysis
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)

Towards Pre-training an Effective Respiratory Audio Foundation Model
di: Niizumi, Daisuke, et al.
Pubblicazione: (2025)

VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature
di: Du, Chenpeng, et al.
Pubblicazione: (2022)

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
di: Liang, Susan, et al.
Pubblicazione: (2025)

A Speech Enhancement Method Using Fast Fourier Transform and Convolutional Autoencoder
di: Kow, Pu-Yun, et al.
Pubblicazione: (2025)

FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles
di: Zhang, Tian-Hao, et al.
Pubblicazione: (2025)

The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023
di: Wang, He, et al.
Pubblicazione: (2024)

ECTSpeech: Enhancing Efficient Speech Synthesis via Easy Consistency Tuning
di: Zhu, Tao, et al.
Pubblicazione: (2025)

Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
di: Wang, Hankun, et al.
Pubblicazione: (2024)

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching
di: Guo, Yiwei, et al.
Pubblicazione: (2023)

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline
di: Wang, Helin, et al.
Pubblicazione: (2025)

Apollo: Band-sequence Modeling for High-Quality Audio Restoration
di: Li, Kai, et al.
Pubblicazione: (2024)

Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
di: Cai, Runyuan, et al.
Pubblicazione: (2026)

EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing
di: Sioros, Vassilis, et al.
Pubblicazione: (2025)

AMNet: An Acoustic Model Network for Enhanced Mandarin Speech Synthesis
di: Cao, Yubing, et al.
Pubblicazione: (2025)