:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Lu, Xugang, Shen, Peng, Tsao, Yu, Kawai, Hisashi
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Sound Artificial Intelligence Computation and Language Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2409.02239
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR
di: Lu, Xugang, et al.
Pubblicazione: (2025)

Retrieval-Augmented Speech Recognition Approach for Domain Challenges
di: Shen, Peng, et al.
Pubblicazione: (2025)

Channel Adaptation for Speaker Verification Using Optimal Transport with Pseudo Label
di: Yang, Wenhao, et al.
Pubblicazione: (2024)

CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning
di: Hira, Medha, et al.
Pubblicazione: (2024)

FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
di: La Quatra, Moreno, et al.
Pubblicazione: (2025)

Mind the Gap: Entity-Preserved Context-Aware ASR Structured Transcriptions
di: Altinok, Duygu
Pubblicazione: (2025)

Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation
di: Wei, Kun, et al.
Pubblicazione: (2023)

Integrated Multi-Level Knowledge Distillation for Enhanced Speaker Verification
di: Yang, Wenhao, et al.
Pubblicazione: (2024)

ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction
di: Wei, Victor Junqiu, et al.
Pubblicazione: (2024)

AutoMode-ASR: Learning to Select ASR Systems for Better Quality and Cost
di: Gündüz, Ahmet, et al.
Pubblicazione: (2024)

Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper
di: Thorbecke, Iuliia, et al.
Pubblicazione: (2024)

PromptASR for contextualized ASR with controllable style
di: Yang, Xiaoyu, et al.
Pubblicazione: (2023)

Romanization Encoding For Multilingual ASR
di: Ding, Wen, et al.
Pubblicazione: (2024)

HypR: A comprehensive study for ASR hypothesis revising with a reference corpus
di: Wang, Yi-Wei, et al.
Pubblicazione: (2023)

Extending Whisper with prompt tuning to target-speaker ASR
di: Ma, Hao, et al.
Pubblicazione: (2023)

Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder
di: Shakeel, Muhammad, et al.
Pubblicazione: (2025)

Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)

Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR
di: Chen, Qian, et al.
Pubblicazione: (2023)

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
di: Nguyen, Thai-Binh, et al.
Pubblicazione: (2024)

Alignment-Free Training for Transducer-based Multi-Talker ASR
di: Moriya, Takafumi, et al.
Pubblicazione: (2024)

Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper
di: Xu, Tianyi, et al.
Pubblicazione: (2024)

Qwen3-ASR Technical Report
di: Shi, Xian, et al.
Pubblicazione: (2026)

Cross-utterance ASR Rescoring with Graph-based Label Propagation
di: Tankasala, Srinath, et al.
Pubblicazione: (2023)

Diagnostic-Driven Layer-Wise Compensation for Post-Training Quantization of Encoder-Decoder ASR Models
di: Wang, Xinyu, et al.
Pubblicazione: (2026)

WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing
di: Nakagome, Yu, et al.
Pubblicazione: (2025)

Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
di: Yuhang, Yang, et al.
Pubblicazione: (2024)

Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR
di: Cui, Mingyu, et al.
Pubblicazione: (2024)

Linguistic Knowledge Transfer Learning for Speech Enhancement
di: Hung, Kuo-Hsuan, et al.
Pubblicazione: (2025)

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR
di: Xie, Yuan, et al.
Pubblicazione: (2026)

Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation
di: Lei, Ligong, et al.
Pubblicazione: (2026)

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
di: Tseng, Liang-Hsuan, et al.
Pubblicazione: (2024)

Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems
di: Kwok, Chin Yuen, et al.
Pubblicazione: (2024)

Model-free Speculative Decoding for Transformer-based ASR with Token Map Drafting
di: Ho, Tuan Vu, et al.
Pubblicazione: (2025)

LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation
di: Li, Shaojun, et al.
Pubblicazione: (2024)

HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
di: Dutta, Soumya, et al.
Pubblicazione: (2023)

Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval
di: Tsubaki, Shunsuke, et al.
Pubblicazione: (2024)

Layer-wise Analysis for Quality of Multilingual Synthesized Speech
di: Cooper, Erica, et al.
Pubblicazione: (2025)

Promptformer: Prompted Conformer Transducer for ASR
di: Duarte-Torres, Sergio, et al.
Pubblicazione: (2024)

Revisiting Acoustic Features for Robust ASR
di: Shah, Muhammad A., et al.
Pubblicazione: (2024)

Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning
di: Ma, Yingyi, et al.
Pubblicazione: (2024)