Salvato in:
| Autori principali: | Lu, Xugang, Shen, Peng, Tsao, Yu, Kawai, Hisashi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2409.02239 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR
di: Lu, Xugang, et al.
Pubblicazione: (2025)
di: Lu, Xugang, et al.
Pubblicazione: (2025)
Retrieval-Augmented Speech Recognition Approach for Domain Challenges
di: Shen, Peng, et al.
Pubblicazione: (2025)
di: Shen, Peng, et al.
Pubblicazione: (2025)
Channel Adaptation for Speaker Verification Using Optimal Transport with Pseudo Label
di: Yang, Wenhao, et al.
Pubblicazione: (2024)
di: Yang, Wenhao, et al.
Pubblicazione: (2024)
CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning
di: Hira, Medha, et al.
Pubblicazione: (2024)
di: Hira, Medha, et al.
Pubblicazione: (2024)
FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
di: La Quatra, Moreno, et al.
Pubblicazione: (2025)
di: La Quatra, Moreno, et al.
Pubblicazione: (2025)
Mind the Gap: Entity-Preserved Context-Aware ASR Structured Transcriptions
di: Altinok, Duygu
Pubblicazione: (2025)
di: Altinok, Duygu
Pubblicazione: (2025)
Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation
di: Wei, Kun, et al.
Pubblicazione: (2023)
di: Wei, Kun, et al.
Pubblicazione: (2023)
Integrated Multi-Level Knowledge Distillation for Enhanced Speaker Verification
di: Yang, Wenhao, et al.
Pubblicazione: (2024)
di: Yang, Wenhao, et al.
Pubblicazione: (2024)
ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction
di: Wei, Victor Junqiu, et al.
Pubblicazione: (2024)
di: Wei, Victor Junqiu, et al.
Pubblicazione: (2024)
AutoMode-ASR: Learning to Select ASR Systems for Better Quality and Cost
di: Gündüz, Ahmet, et al.
Pubblicazione: (2024)
di: Gündüz, Ahmet, et al.
Pubblicazione: (2024)
Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper
di: Thorbecke, Iuliia, et al.
Pubblicazione: (2024)
di: Thorbecke, Iuliia, et al.
Pubblicazione: (2024)
PromptASR for contextualized ASR with controllable style
di: Yang, Xiaoyu, et al.
Pubblicazione: (2023)
di: Yang, Xiaoyu, et al.
Pubblicazione: (2023)
Romanization Encoding For Multilingual ASR
di: Ding, Wen, et al.
Pubblicazione: (2024)
di: Ding, Wen, et al.
Pubblicazione: (2024)
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus
di: Wang, Yi-Wei, et al.
Pubblicazione: (2023)
di: Wang, Yi-Wei, et al.
Pubblicazione: (2023)
Extending Whisper with prompt tuning to target-speaker ASR
di: Ma, Hao, et al.
Pubblicazione: (2023)
di: Ma, Hao, et al.
Pubblicazione: (2023)
Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder
di: Shakeel, Muhammad, et al.
Pubblicazione: (2025)
di: Shakeel, Muhammad, et al.
Pubblicazione: (2025)
Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)
Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR
di: Chen, Qian, et al.
Pubblicazione: (2023)
di: Chen, Qian, et al.
Pubblicazione: (2023)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
di: Nguyen, Thai-Binh, et al.
Pubblicazione: (2024)
di: Nguyen, Thai-Binh, et al.
Pubblicazione: (2024)
Alignment-Free Training for Transducer-based Multi-Talker ASR
di: Moriya, Takafumi, et al.
Pubblicazione: (2024)
di: Moriya, Takafumi, et al.
Pubblicazione: (2024)
Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper
di: Xu, Tianyi, et al.
Pubblicazione: (2024)
di: Xu, Tianyi, et al.
Pubblicazione: (2024)
Qwen3-ASR Technical Report
di: Shi, Xian, et al.
Pubblicazione: (2026)
di: Shi, Xian, et al.
Pubblicazione: (2026)
Cross-utterance ASR Rescoring with Graph-based Label Propagation
di: Tankasala, Srinath, et al.
Pubblicazione: (2023)
di: Tankasala, Srinath, et al.
Pubblicazione: (2023)
Diagnostic-Driven Layer-Wise Compensation for Post-Training Quantization of Encoder-Decoder ASR Models
di: Wang, Xinyu, et al.
Pubblicazione: (2026)
di: Wang, Xinyu, et al.
Pubblicazione: (2026)
WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing
di: Nakagome, Yu, et al.
Pubblicazione: (2025)
di: Nakagome, Yu, et al.
Pubblicazione: (2025)
Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
di: Yuhang, Yang, et al.
Pubblicazione: (2024)
di: Yuhang, Yang, et al.
Pubblicazione: (2024)
Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
di: Cui, Mingyu, et al.
Pubblicazione: (2024)
di: Cui, Mingyu, et al.
Pubblicazione: (2024)
Linguistic Knowledge Transfer Learning for Speech Enhancement
di: Hung, Kuo-Hsuan, et al.
Pubblicazione: (2025)
di: Hung, Kuo-Hsuan, et al.
Pubblicazione: (2025)
NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR
di: Xie, Yuan, et al.
Pubblicazione: (2026)
di: Xie, Yuan, et al.
Pubblicazione: (2026)
Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation
di: Lei, Ligong, et al.
Pubblicazione: (2026)
di: Lei, Ligong, et al.
Pubblicazione: (2026)
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)
Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems
di: Kwok, Chin Yuen, et al.
Pubblicazione: (2024)
di: Kwok, Chin Yuen, et al.
Pubblicazione: (2024)
Model-free Speculative Decoding for Transformer-based ASR with Token Map Drafting
di: Ho, Tuan Vu, et al.
Pubblicazione: (2025)
di: Ho, Tuan Vu, et al.
Pubblicazione: (2025)
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
di: Li, Shaojun, et al.
Pubblicazione: (2024)
di: Li, Shaojun, et al.
Pubblicazione: (2024)
HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
di: Dutta, Soumya, et al.
Pubblicazione: (2023)
di: Dutta, Soumya, et al.
Pubblicazione: (2023)
Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval
di: Tsubaki, Shunsuke, et al.
Pubblicazione: (2024)
di: Tsubaki, Shunsuke, et al.
Pubblicazione: (2024)
Layer-wise Analysis for Quality of Multilingual Synthesized Speech
di: Cooper, Erica, et al.
Pubblicazione: (2025)
di: Cooper, Erica, et al.
Pubblicazione: (2025)
Promptformer: Prompted Conformer Transducer for ASR
di: Duarte-Torres, Sergio, et al.
Pubblicazione: (2024)
di: Duarte-Torres, Sergio, et al.
Pubblicazione: (2024)
Revisiting Acoustic Features for Robust ASR
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)
Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning
di: Ma, Yingyi, et al.
Pubblicazione: (2024)
di: Ma, Yingyi, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR
di: Lu, Xugang, et al.
Pubblicazione: (2025) -
Retrieval-Augmented Speech Recognition Approach for Domain Challenges
di: Shen, Peng, et al.
Pubblicazione: (2025) -
Channel Adaptation for Speaker Verification Using Optimal Transport with Pseudo Label
di: Yang, Wenhao, et al.
Pubblicazione: (2024) -
CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning
di: Hira, Medha, et al.
Pubblicazione: (2024) -
FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
di: La Quatra, Moreno, et al.
Pubblicazione: (2025)