Salvato in:
| Autori principali: | Ryu, Myeonghoon, Oh, Hongseok, Lee, Suji, Park, Han |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2410.18322 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Microphone Conversion: Mitigating Device Variability in Sound Event Classification
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2025)
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2025)
A Unified Framework for Modality-Agnostic Deepfakes Detection
di: Yu, Cai, et al.
Pubblicazione: (2023)
di: Yu, Cai, et al.
Pubblicazione: (2023)
CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
di: Oh, Hyunwoo, et al.
Pubblicazione: (2025)
di: Oh, Hyunwoo, et al.
Pubblicazione: (2025)
Conformer-based Ultrasound-to-Speech Conversion
di: Ibrahimov, Ibrahim, et al.
Pubblicazione: (2025)
di: Ibrahimov, Ibrahim, et al.
Pubblicazione: (2025)
Flexible Control in Symbolic Music Generation via Musical Metadata
di: Han, Sangjun, et al.
Pubblicazione: (2024)
di: Han, Sangjun, et al.
Pubblicazione: (2024)
Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
di: Yu, Jun, et al.
Pubblicazione: (2024)
di: Yu, Jun, et al.
Pubblicazione: (2024)
HybridVC: Efficient Voice Style Conversion with Text and Audio Prompts
di: Niu, Xinlei, et al.
Pubblicazione: (2024)
di: Niu, Xinlei, et al.
Pubblicazione: (2024)
FastTalker: Jointly Generating Speech and Conversational Gestures from Text
di: Guo, Zixin, et al.
Pubblicazione: (2024)
di: Guo, Zixin, et al.
Pubblicazione: (2024)
Optimizing Feature Extraction for Symbolic Music
di: Simonetta, Federico, et al.
Pubblicazione: (2023)
di: Simonetta, Federico, et al.
Pubblicazione: (2023)
REWIND: Speech Time Reversal for Enhancing Speaker Representations in Diffusion-based Voice Conversion
di: Biyani, Ishan D., et al.
Pubblicazione: (2025)
di: Biyani, Ishan D., et al.
Pubblicazione: (2025)
M$^{3}$V: A multi-modal multi-view approach for Device-Directed Speech Detection
di: Wang, Anna, et al.
Pubblicazione: (2024)
di: Wang, Anna, et al.
Pubblicazione: (2024)
Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection
di: Huang, Lian, et al.
Pubblicazione: (2024)
di: Huang, Lian, et al.
Pubblicazione: (2024)
Attentive-based Multi-level Feature Fusion for Voice Disorder Diagnosis
di: Shen, Lipeng, et al.
Pubblicazione: (2024)
di: Shen, Lipeng, et al.
Pubblicazione: (2024)
Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer
di: Li, Jizhen, et al.
Pubblicazione: (2024)
di: Li, Jizhen, et al.
Pubblicazione: (2024)
Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)
Efficient Adapter Tuning for Joint Singing Voice Beat and Downbeat Tracking with Self-supervised Learning Features
di: Deng, Jiajun, et al.
Pubblicazione: (2025)
di: Deng, Jiajun, et al.
Pubblicazione: (2025)
Cross-Modal Watermarking for Authentic Audio Recovery and Tamper Localization in Synthesized Audiovisual Forgeries
di: Kim, Minyoung, et al.
Pubblicazione: (2025)
di: Kim, Minyoung, et al.
Pubblicazione: (2025)
Dance2MIDI: Dance-driven multi-instruments music generation
di: Han, Bo, et al.
Pubblicazione: (2023)
di: Han, Bo, et al.
Pubblicazione: (2023)
A Traditional Approach to Symbolic Piano Continuation
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)
StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion
di: Li, Fengjin, et al.
Pubblicazione: (2025)
di: Li, Fengjin, et al.
Pubblicazione: (2025)
Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)
On the de-duplication of the Lakh MIDI dataset
di: Choi, Eunjin, et al.
Pubblicazione: (2025)
di: Choi, Eunjin, et al.
Pubblicazione: (2025)
LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)
di: Kwak, Doyeop, et al.
Pubblicazione: (2026)
Cinematic Audio Source Separation Using Visual Cues
di: Zhang, Kang, et al.
Pubblicazione: (2026)
di: Zhang, Kang, et al.
Pubblicazione: (2026)
Audio-Visual Speech Separation via Bottleneck Iterative Network
di: Zhang, Sidong, et al.
Pubblicazione: (2025)
di: Zhang, Sidong, et al.
Pubblicazione: (2025)
Low-latency Speech Enhancement via Speech Token Generation
di: Xue, Huaying, et al.
Pubblicazione: (2023)
di: Xue, Huaying, et al.
Pubblicazione: (2023)
Efficient Speech Watermarking for Speech Synthesis via Progressive Knowledge Distillation
di: Cui, Yang, et al.
Pubblicazione: (2025)
di: Cui, Yang, et al.
Pubblicazione: (2025)
MusFlow: Multimodal Music Generation via Conditional Flow Matching
di: Song, Jiahao, et al.
Pubblicazione: (2025)
di: Song, Jiahao, et al.
Pubblicazione: (2025)
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer
di: Lei, Ke, et al.
Pubblicazione: (2026)
di: Lei, Ke, et al.
Pubblicazione: (2026)
Enhancing Expressiveness in Dance Generation via Integrating Frequency and Music Style Information
di: Huang, Qiaochu, et al.
Pubblicazione: (2024)
di: Huang, Qiaochu, et al.
Pubblicazione: (2024)
Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling
di: Li, Xiaojie, et al.
Pubblicazione: (2025)
di: Li, Xiaojie, et al.
Pubblicazione: (2025)
DualDub: Video-to-Soundtrack Generation via Joint Speech and Background Audio Synthesis
di: Tian, Wenjie, et al.
Pubblicazione: (2025)
di: Tian, Wenjie, et al.
Pubblicazione: (2025)
Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization
di: He, Mao-Kui, et al.
Pubblicazione: (2024)
di: He, Mao-Kui, et al.
Pubblicazione: (2024)
ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation
di: Shi, Jiatong, et al.
Pubblicazione: (2025)
di: Shi, Jiatong, et al.
Pubblicazione: (2025)
MuMu-LLaMA: Multi-modal Music Understanding and Generation via Large Language Models
di: Liu, Shansong, et al.
Pubblicazione: (2024)
di: Liu, Shansong, et al.
Pubblicazione: (2024)
Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model
di: Ren, Yong, et al.
Pubblicazione: (2025)
di: Ren, Yong, et al.
Pubblicazione: (2025)
Dance-to-Music Generation with Encoder-based Textual Inversion
di: Li, Sifei, et al.
Pubblicazione: (2024)
di: Li, Sifei, et al.
Pubblicazione: (2024)
AWARE: Audio Watermarking with Adversarial Resistance to Edits
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Microphone Conversion: Mitigating Device Variability in Sound Event Classification
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024) -
Noise-Agnostic Multitask Whisper Training for Reducing False Alarm Errors in Call-for-Help Detection
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2025) -
A Unified Framework for Modality-Agnostic Deepfakes Detection
di: Yu, Cai, et al.
Pubblicazione: (2023) -
CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
di: Oh, Hyunwoo, et al.
Pubblicazione: (2025) -
Conformer-based Ultrasound-to-Speech Conversion
di: Ibrahimov, Ibrahim, et al.
Pubblicazione: (2025)