:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Mitsumori, Shunsuke, Kashiwagi, Sara, Tanaka, Keitaro, Morishima, Shigeo
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2506.22194
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

SyncViolinist: Music-Oriented Violin Motion Generation Based on Bowing and Fingering
di: Nishizawa, Hiroki, et al.
Pubblicazione: (2024)

Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
di: Yang, Zhengdong, et al.
Pubblicazione: (2025)

Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation
di: Tsunoo, Emiru, et al.
Pubblicazione: (2023)

TTA: Transcribe, Translate and Alignment for Cross-lingual Speech Representation
di: Liu, Wei, et al.
Pubblicazione: (2025)

Speaker Attributed Automatic Speech Recognition Using Speech Aware LLMS
di: Aronowitz, Hagai, et al.
Pubblicazione: (2026)

Using Songs to Improve Kazakh Automatic Speech Recognition
di: Yeshpanov, Rustem
Pubblicazione: (2026)

Speech Recognition Transformers: Topological-lingualism Perspective
di: Singh, Shruti, et al.
Pubblicazione: (2024)

Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting
di: Tsunoo, Emiru, et al.
Pubblicazione: (2025)

Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech
di: Kim, Youngjae, et al.
Pubblicazione: (2024)

Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
di: Pillai, Leena G, et al.
Pubblicazione: (2024)

Decoder-only Architecture for Streaming End-to-end Speech Recognition
di: Tsunoo, Emiru, et al.
Pubblicazione: (2024)

Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)

Zero Shot Text to Speech Augmentation for Automatic Speech Recognition on Low-Resource Accented Speech Corpora
di: Nespoli, Francesco, et al.
Pubblicazione: (2024)

Fairness of Automatic Speech Recognition in Cleft Lip and Palate Speech
di: Bhattacharjee, Susmita, et al.
Pubblicazione: (2025)

Leveraging Content and Acoustic Representations for Speech Emotion Recognition
di: Dutta, Soumya, et al.
Pubblicazione: (2024)

Using Adapters to Overcome Catastrophic Forgetting in End-to-End Automatic Speech Recognition
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2022)

Augmenting Polish Automatic Speech Recognition System With Synthetic Data
di: Bondaruk, Łukasz, et al.
Pubblicazione: (2024)

Zero-Shot Recognition of Dysarthric Speech Using Commercial Automatic Speech Recognition and Multimodal Large Language Models
di: Alsayegh, Ali, et al.
Pubblicazione: (2025)

Training Data Augmentation for Dysarthric Automatic Speech Recognition by Text-to-Dysarthric-Speech Synthesis
di: Leung, Wing-Zin, et al.
Pubblicazione: (2024)

The RoyalFlush Automatic Speech Diarization and Recognition System for In-Car Multi-Channel Automatic Speech Recognition Challenge
di: Tian, Jingguang, et al.
Pubblicazione: (2024)

Unsupervised Online Continual Learning for Automatic Speech Recognition
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2024)

Dynamic Data Pruning for Automatic Speech Recognition
di: Xiao, Qiao, et al.
Pubblicazione: (2024)

Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition
di: Shu, Yuchun, et al.
Pubblicazione: (2024)

Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems
di: Raymondaud, Quentin, et al.
Pubblicazione: (2024)

Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)

Fine-Tuning Automatic Speech Recognition for People with Parkinson's: An Effective Strategy for Enhancing Speech Technology Accessibility
di: Zheng, Xiuwen, et al.
Pubblicazione: (2024)

Non-Intrusive Automatic Speech Recognition Refinement: A Survey
di: Peyghan, Mohammad Reza, et al.
Pubblicazione: (2025)

Joint Multi-scale Cross-lingual Speaking Style Transfer with Bidirectional Attention Mechanism for Automatic Dubbing
di: Li, Jingbei, et al.
Pubblicazione: (2023)

On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)

Automatic Speech Recognition for Biomedical Data in Bengali Language
di: Kabir, Shariar, et al.
Pubblicazione: (2024)

Investigation of Deep Neural Network Acoustic Modelling Approaches for Low Resource Accented Mandarin Speech Recognition
di: Xie, Xurong, et al.
Pubblicazione: (2022)

CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation
di: Kim, Ji-Hoon, et al.
Pubblicazione: (2024)

Enhancing Acoustic-to-Articulatory Speech Inversion by Incorporating Nasality
di: Tabatabaee, Saba, et al.
Pubblicazione: (2025)

SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition
di: Hsu, Ming-Hao, et al.
Pubblicazione: (2024)

Acoustic modeling for Overlapping Speech Recognition: JHU Chime-5 Challenge System
di: Manohar, Vimal, et al.
Pubblicazione: (2024)

Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement
di: de Oliveira, Danilo, et al.
Pubblicazione: (2026)

Automatic Speech Recognition for Hindi
di: Saha, Anish, et al.
Pubblicazione: (2024)

UME: Upcycling Mixture-of-Experts for Scalable and Efficient Automatic Speech Recognition
di: Fu, Li, et al.
Pubblicazione: (2024)

FairASR: Fair Audio Contrastive Learning for Automatic Speech Recognition
di: Kim, Jongsuk, et al.
Pubblicazione: (2025)

Group-Aware Partial Model Merging for Children's Automatic Speech Recognition
di: Rolland, Thomas, et al.
Pubblicazione: (2025)