:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Ryu, Myeonghoon, Oh, Hongseok, Lee, Suji, Park, Han
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Sound Machine Learning Multimedia Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2410.18322
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Microphone Conversion: Mitigating Device Variability in Sound Event Classification
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)

Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2025)

A Unified Framework for Modality-Agnostic Deepfakes Detection
di: Yu, Cai, et al.
Pubblicazione: (2023)

CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
di: Oh, Hyunwoo, et al.
Pubblicazione: (2025)

Conformer-based Ultrasound-to-Speech Conversion
di: Ibrahimov, Ibrahim, et al.
Pubblicazione: (2025)

Flexible Control in Symbolic Music Generation via Musical Metadata
di: Han, Sangjun, et al.
Pubblicazione: (2024)

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
di: Yu, Jun, et al.
Pubblicazione: (2024)

HybridVC: Efficient Voice Style Conversion with Text and Audio Prompts
di: Niu, Xinlei, et al.
Pubblicazione: (2024)

FastTalker: Jointly Generating Speech and Conversational Gestures from Text
di: Guo, Zixin, et al.
Pubblicazione: (2024)

Optimizing Feature Extraction for Symbolic Music
di: Simonetta, Federico, et al.
Pubblicazione: (2023)

REWIND: Speech Time Reversal for Enhancing Speaker Representations in Diffusion-based Voice Conversion
di: Biyani, Ishan D., et al.
Pubblicazione: (2025)

M$^{3}$V: A multi-modal multi-view approach for Device-Directed Speech Detection
di: Wang, Anna, et al.
Pubblicazione: (2024)

Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection
di: Huang, Lian, et al.
Pubblicazione: (2024)

Attentive-based Multi-level Feature Fusion for Voice Disorder Diagnosis
di: Shen, Lipeng, et al.
Pubblicazione: (2024)

Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer
di: Li, Jizhen, et al.
Pubblicazione: (2024)

Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)

Efficient Adapter Tuning for Joint Singing Voice Beat and Downbeat Tracking with Self-supervised Learning Features
di: Deng, Jiajun, et al.
Pubblicazione: (2025)

Cross-Modal Watermarking for Authentic Audio Recovery and Tamper Localization in Synthesized Audiovisual Forgeries
di: Kim, Minyoung, et al.
Pubblicazione: (2025)

Dance2MIDI: Dance-driven multi-instruments music generation
di: Han, Bo, et al.
Pubblicazione: (2023)

A Traditional Approach to Symbolic Piano Continuation
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)

StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion
di: Li, Fengjin, et al.
Pubblicazione: (2025)

Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)

On the de-duplication of the Lakh MIDI dataset
di: Choi, Eunjin, et al.
Pubblicazione: (2025)

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)

Cinematic Audio Source Separation Using Visual Cues
di: Zhang, Kang, et al.
Pubblicazione: (2026)

Audio-Visual Speech Separation via Bottleneck Iterative Network
di: Zhang, Sidong, et al.
Pubblicazione: (2025)

Low-latency Speech Enhancement via Speech Token Generation
di: Xue, Huaying, et al.
Pubblicazione: (2023)

Efficient Speech Watermarking for Speech Synthesis via Progressive Knowledge Distillation
di: Cui, Yang, et al.
Pubblicazione: (2025)

MusFlow: Multimodal Music Generation via Conditional Flow Matching
di: Song, Jiahao, et al.
Pubblicazione: (2025)

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer
di: Lei, Ke, et al.
Pubblicazione: (2026)

Enhancing Expressiveness in Dance Generation via Integrating Frequency and Music Style Information
di: Huang, Qiaochu, et al.
Pubblicazione: (2024)

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling
di: Li, Xiaojie, et al.
Pubblicazione: (2025)

DualDub: Video-to-Soundtrack Generation via Joint Speech and Background Audio Synthesis
di: Tian, Wenjie, et al.
Pubblicazione: (2025)

Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization
di: He, Mao-Kui, et al.
Pubblicazione: (2024)

ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation
di: Shi, Jiatong, et al.
Pubblicazione: (2025)

MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models
di: Liu, Shansong, et al.
Pubblicazione: (2024)

Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model
di: Ren, Yong, et al.
Pubblicazione: (2025)

Dance-to-Music Generation with Encoder-based Textual Inversion
di: Li, Sifei, et al.
Pubblicazione: (2024)

AWARE: Audio Watermarking with Adversarial Resistance to Edits
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)