:: Library Catalog

প্রচ্ছদ

সংরক্ষণ করুন:

গ্রন্থ-পঞ্জীর বিবরন
প্রধান লেখক:	Kumar, Shashi, Madikeri, Srikanth, Zuluaga-Gomez, Juan, Villatoro-Tello, Esaú, Thorbecke, Iuliia, Motlicek, Petr, E, Manjunath K, Ganapathiraju, Aravind
বিন্যাস:	Preprint
প্রকাশিত:	2024
বিষয়গুলি:	Audio and Speech Processing
অনলাইন ব্যবহার করুন:	https://arxiv.org/abs/2407.04439
ট্যাগগুলো:	ট্যাগ যুক্ত করুন কোনো ট্যাগ নেই, প্রথমজন হিসাবে ট্যাগ করুন!

অনুরূপ উপাদানগুলি

TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASR
অনুযায়ী: Kumar, Shashi, অন্যান্য
প্রকাশিত: (2024)

Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper
অনুযায়ী: Thorbecke, Iuliia, অন্যান্য
প্রকাশিত: (2024)

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward
অনুযায়ী: Kumar, Shashi, অন্যান্য
প্রকাশিত: (2024)

Effectiveness of Text, Acoustic, and Lattice-based representations in Spoken Language Understanding tasks
অনুযায়ী: Villatoro-Tello, Esaú, অন্যান্য
প্রকাশিত: (2022)

Unifying Global and Near-Context Biasing in a Single Trie Pass
অনুযায়ী: Thorbecke, Iuliia, অন্যান্য
প্রকাশিত: (2024)

Text-only adaptation in LLM-based ASR through text denoising
অনুযায়ী: Carofilis, Andrés, অন্যান্য
প্রকাশিত: (2026)

Reducing Prompt Sensitivity in LLM-based Speech Recognition Through Learnable Projection
অনুযায়ী: Burdisso, Sergio, অন্যান্য
প্রকাশিত: (2026)

Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
অনুযায়ী: Kumar, Shashi, অন্যান্য
প্রকাশিত: (2026)

Better Semi-supervised Learning for Multi-domain ASR Through Incremental Retraining and Data Filtering
অনুযায়ী: Carofilis, Andres, অন্যান্য
প্রকাশিত: (2025)

Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering
অনুযায়ী: Rangappa, Pradeep, অন্যান্য
প্রকাশিত: (2025)

TokenVerse++: Towards Flexible Multitask Learning with Dynamic Task Activation
অনুযায়ী: Kumar, Shashi, অন্যান্য
প্রকাশিত: (2025)

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities
অনুযায়ী: Farhadipour, Aref, অন্যান্য
প্রকাশিত: (2025)

A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport
অনুযায়ী: Kaloga, Yacouba, অন্যান্য
প্রকাশিত: (2025)

When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews
অনুযায়ী: Watawana, Hasindri, অন্যান্য
প্রকাশিত: (2026)

Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical Interviews
অনুযায়ী: Burdisso, Sergio, অন্যান্য
প্রকাশিত: (2023)

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction
অনুযায়ী: Baroudi, Séverin, অন্যান্য
প্রকাশিত: (2026)

CUSIDE-T: Chunking, Simulating Future and Decoding for Transducer based Streaming ASR
অনুযায়ী: Zhao, Wenbo, অন্যান্য
প্রকাশিত: (2024)

TidyVoice: A Curated Multilingual Dataset for Speaker Verification Derived from Common Voice
অনুযায়ী: Farhadipour, Aref, অন্যান্য
প্রকাশিত: (2026)

Promptformer: Prompted Conformer Transducer for ASR
অনুযায়ী: Duarte-Torres, Sergio, অন্যান্য
প্রকাশিত: (2024)

Unifying Streaming and Non-streaming Zipformer-based ASR
অনুযায়ী: Sharma, Bidisha, অন্যান্য
প্রকাশিত: (2025)

All-in-One ASR: Unifying Encoder-Decoder Models of CTC, Attention, and Transducer in Dual-Mode ASR
অনুযায়ী: Moriya, Takafumi, অন্যান্য
প্রকাশিত: (2025)

Improving endpoint detection in end-to-end streaming ASR for conversational speech
অনুযায়ী: C, Anandh, অন্যান্য
প্রকাশিত: (2025)

XLSR-Mamba: A Dual-Column Bidirectional State Space Model for Spoofing Attack Detection
অনুযায়ী: Xiao, Yang, অন্যান্য
প্রকাশিত: (2024)

Spoofing-Aware Speaker Verification via Wavelet Prompt Tuning and Multi-Model Ensembles
অনুযায়ী: Farhadipour, Aref, অন্যান্য
প্রকাশিত: (2026)

XLSR-MamBo: Scaling the Hybrid Mamba-Attention Backbone for Audio Deepfake Detection
অনুযায়ী: Ng, Kwok-Ho, অন্যান্য
প্রকাশিত: (2026)

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
অনুযায়ী: Andrusenko, Andrei, অন্যান্য
প্রকাশিত: (2026)

Self-Supervised Learning for Multi-Channel Neural Transducer
অনুযায়ী: Kojima, Atsushi
প্রকাশিত: (2024)

CL-UZH submission to the NIST SRE 2024 Speaker Recognition Evaluation
অনুযায়ী: Farhadipour, Aref, অন্যান্য
প্রকাশিত: (2025)

Alignment-Free Training for Transducer-based Multi-Talker ASR
অনুযায়ী: Moriya, Takafumi, অন্যান্য
প্রকাশিত: (2024)

XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection
অনুযায়ী: Dat, Phuong Tuan, অন্যান্য
প্রকাশিত: (2025)

Learning When to Trust Which Teacher for Weakly Supervised ASR
অনুযায়ী: Agrawal, Aakriti, অন্যান্য
প্রকাশিত: (2023)

A Unified Denoising and Adaptation Framework for Self-Supervised Bengali Dialectal ASR
অনুযায়ী: Biswas, Swadhin, অন্যান্য
প্রকাশিত: (2025)

Contextual Biasing for Streaming ASR via CTC-based Word Spotting
অনুযায়ী: Tsai, Kai-Chen, অন্যান্য
প্রকাশিত: (2026)

Leveraging ASR Pretrained Conformers for Speaker Verification through Transfer Learning and Knowledge Distillation
অনুযায়ী: Cai, Danwei, অন্যান্য
প্রকাশিত: (2023)

TidyVoice 2026 Challenge Evaluation Plan
অনুযায়ী: Farhadipour, Aref, অন্যান্য
প্রকাশিত: (2026)

Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition
অনুযায়ী: Lee, Hyeonseung, অন্যান্য
প্রকাশিত: (2024)

Scaling Multi-Talker ASR with Speaker-Agnostic Activity Streams
অনুযায়ী: He, Xiluo, অন্যান্য
প্রকাশিত: (2025)

Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models
অনুযায়ী: Fan, Ruchao, অন্যান্য
প্রকাশিত: (2024)

Efficient and Generalizable Speaker Diarization via Structured Pruning of Self-Supervised Models
অনুযায়ী: Han, Jiangyu, অন্যান্য
প্রকাশিত: (2025)

Lightweight Target-Speaker-Based Overlap Transcription for Practical Streaming ASR
অনুযায়ী: Pražák, Aleš, অন্যান্য
প্রকাশিত: (2025)