Salvato in:
| Autori principali: | Mitsumori, Shunsuke, Kashiwagi, Sara, Tanaka, Keitaro, Morishima, Shigeo |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2506.22194 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
SyncViolinist: Music-Oriented Violin Motion Generation Based on Bowing and Fingering
di: Nishizawa, Hiroki, et al.
Pubblicazione: (2024)
di: Nishizawa, Hiroki, et al.
Pubblicazione: (2024)
Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
di: Yang, Zhengdong, et al.
Pubblicazione: (2025)
di: Yang, Zhengdong, et al.
Pubblicazione: (2025)
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation
di: Tsunoo, Emiru, et al.
Pubblicazione: (2023)
di: Tsunoo, Emiru, et al.
Pubblicazione: (2023)
TTA: Transcribe, Translate and Alignment for Cross-lingual Speech Representation
di: Liu, Wei, et al.
Pubblicazione: (2025)
di: Liu, Wei, et al.
Pubblicazione: (2025)
Speaker Attributed Automatic Speech Recognition Using Speech Aware LLMS
di: Aronowitz, Hagai, et al.
Pubblicazione: (2026)
di: Aronowitz, Hagai, et al.
Pubblicazione: (2026)
Using Songs to Improve Kazakh Automatic Speech Recognition
di: Yeshpanov, Rustem
Pubblicazione: (2026)
di: Yeshpanov, Rustem
Pubblicazione: (2026)
Speech Recognition Transformers: Topological-lingualism Perspective
di: Singh, Shruti, et al.
Pubblicazione: (2024)
di: Singh, Shruti, et al.
Pubblicazione: (2024)
Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting
di: Tsunoo, Emiru, et al.
Pubblicazione: (2025)
di: Tsunoo, Emiru, et al.
Pubblicazione: (2025)
Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech
di: Kim, Youngjae, et al.
Pubblicazione: (2024)
di: Kim, Youngjae, et al.
Pubblicazione: (2024)
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages
di: Pillai, Leena G, et al.
Pubblicazione: (2024)
di: Pillai, Leena G, et al.
Pubblicazione: (2024)
Decoder-only Architecture for Streaming End-to-end Speech Recognition
di: Tsunoo, Emiru, et al.
Pubblicazione: (2024)
di: Tsunoo, Emiru, et al.
Pubblicazione: (2024)
Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)
Zero Shot Text to Speech Augmentation for Automatic Speech Recognition on Low-Resource Accented Speech Corpora
di: Nespoli, Francesco, et al.
Pubblicazione: (2024)
di: Nespoli, Francesco, et al.
Pubblicazione: (2024)
Fairness of Automatic Speech Recognition in Cleft Lip and Palate Speech
di: Bhattacharjee, Susmita, et al.
Pubblicazione: (2025)
di: Bhattacharjee, Susmita, et al.
Pubblicazione: (2025)
Leveraging Content and Acoustic Representations for Speech Emotion Recognition
di: Dutta, Soumya, et al.
Pubblicazione: (2024)
di: Dutta, Soumya, et al.
Pubblicazione: (2024)
Using Adapters to Overcome Catastrophic Forgetting in End-to-End Automatic Speech Recognition
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2022)
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2022)
Augmenting Polish Automatic Speech Recognition System With Synthetic Data
di: Bondaruk, Łukasz, et al.
Pubblicazione: (2024)
di: Bondaruk, Łukasz, et al.
Pubblicazione: (2024)
Zero-Shot Recognition of Dysarthric Speech Using Commercial Automatic Speech Recognition and Multimodal Large Language Models
di: Alsayegh, Ali, et al.
Pubblicazione: (2025)
di: Alsayegh, Ali, et al.
Pubblicazione: (2025)
Training Data Augmentation for Dysarthric Automatic Speech Recognition by Text-to-Dysarthric-Speech Synthesis
di: Leung, Wing-Zin, et al.
Pubblicazione: (2024)
di: Leung, Wing-Zin, et al.
Pubblicazione: (2024)
The RoyalFlush Automatic Speech Diarization and Recognition System for In-Car Multi-Channel Automatic Speech Recognition Challenge
di: Tian, Jingguang, et al.
Pubblicazione: (2024)
di: Tian, Jingguang, et al.
Pubblicazione: (2024)
Unsupervised Online Continual Learning for Automatic Speech Recognition
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2024)
di: Eeckt, Steven Vander, et al.
Pubblicazione: (2024)
Dynamic Data Pruning for Automatic Speech Recognition
di: Xiao, Qiao, et al.
Pubblicazione: (2024)
di: Xiao, Qiao, et al.
Pubblicazione: (2024)
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition
di: Shu, Yuchun, et al.
Pubblicazione: (2024)
di: Shu, Yuchun, et al.
Pubblicazione: (2024)
Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems
di: Raymondaud, Quentin, et al.
Pubblicazione: (2024)
di: Raymondaud, Quentin, et al.
Pubblicazione: (2024)
Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)
di: Kashiwagi, Yosuke, et al.
Pubblicazione: (2024)
Fine-Tuning Automatic Speech Recognition for People with Parkinson's: An Effective Strategy for Enhancing Speech Technology Accessibility
di: Zheng, Xiuwen, et al.
Pubblicazione: (2024)
di: Zheng, Xiuwen, et al.
Pubblicazione: (2024)
Non-Intrusive Automatic Speech Recognition Refinement: A Survey
di: Peyghan, Mohammad Reza, et al.
Pubblicazione: (2025)
di: Peyghan, Mohammad Reza, et al.
Pubblicazione: (2025)
Joint Multi-scale Cross-lingual Speaking Style Transfer with Bidirectional Attention Mechanism for Automatic Dubbing
di: Li, Jingbei, et al.
Pubblicazione: (2023)
di: Li, Jingbei, et al.
Pubblicazione: (2023)
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)
di: Rossenbach, Nick, et al.
Pubblicazione: (2024)
Automatic Speech Recognition for Biomedical Data in Bengali Language
di: Kabir, Shariar, et al.
Pubblicazione: (2024)
di: Kabir, Shariar, et al.
Pubblicazione: (2024)
Investigation of Deep Neural Network Acoustic Modelling Approaches for Low Resource Accented Mandarin Speech Recognition
di: Xie, Xurong, et al.
Pubblicazione: (2022)
di: Xie, Xurong, et al.
Pubblicazione: (2022)
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation
di: Kim, Ji-Hoon, et al.
Pubblicazione: (2024)
di: Kim, Ji-Hoon, et al.
Pubblicazione: (2024)
Enhancing Acoustic-to-Articulatory Speech Inversion by Incorporating Nasality
di: Tabatabaee, Saba, et al.
Pubblicazione: (2025)
di: Tabatabaee, Saba, et al.
Pubblicazione: (2025)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition
di: Hsu, Ming-Hao, et al.
Pubblicazione: (2024)
di: Hsu, Ming-Hao, et al.
Pubblicazione: (2024)
Acoustic modeling for Overlapping Speech Recognition: JHU Chime-5 Challenge System
di: Manohar, Vimal, et al.
Pubblicazione: (2024)
di: Manohar, Vimal, et al.
Pubblicazione: (2024)
Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement
di: de Oliveira, Danilo, et al.
Pubblicazione: (2026)
di: de Oliveira, Danilo, et al.
Pubblicazione: (2026)
Automatic Speech Recognition for Hindi
di: Saha, Anish, et al.
Pubblicazione: (2024)
di: Saha, Anish, et al.
Pubblicazione: (2024)
UME: Upcycling Mixture-of-Experts for Scalable and Efficient Automatic Speech Recognition
di: Fu, Li, et al.
Pubblicazione: (2024)
di: Fu, Li, et al.
Pubblicazione: (2024)
FairASR: Fair Audio Contrastive Learning for Automatic Speech Recognition
di: Kim, Jongsuk, et al.
Pubblicazione: (2025)
di: Kim, Jongsuk, et al.
Pubblicazione: (2025)
Group-Aware Partial Model Merging for Children's Automatic Speech Recognition
di: Rolland, Thomas, et al.
Pubblicazione: (2025)
di: Rolland, Thomas, et al.
Pubblicazione: (2025)
Documenti analoghi
-
SyncViolinist: Music-Oriented Violin Motion Generation Based on Bowing and Fingering
di: Nishizawa, Hiroki, et al.
Pubblicazione: (2024) -
Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition
di: Yang, Zhengdong, et al.
Pubblicazione: (2025) -
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation
di: Tsunoo, Emiru, et al.
Pubblicazione: (2023) -
TTA: Transcribe, Translate and Alignment for Cross-lingual Speech Representation
di: Liu, Wei, et al.
Pubblicazione: (2025) -
Speaker Attributed Automatic Speech Recognition Using Speech Aware LLMS
di: Aronowitz, Hagai, et al.
Pubblicazione: (2026)