Salvato in:
| Autori principali: | Ma, Xiaoyu, Chen, Hao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2510.14411 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)
Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion
di: Chen, Yukun, et al.
Pubblicazione: (2025)
di: Chen, Yukun, et al.
Pubblicazione: (2025)
BERT-like Pre-training for Symbolic Piano Music Classification Tasks
di: Chou, Yi-Hui, et al.
Pubblicazione: (2021)
di: Chou, Yi-Hui, et al.
Pubblicazione: (2021)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)
Sequence-to-Sequence Multi-Modal Speech In-Painting
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
AWARE: Audio Watermarking with Adversarial Resistance to Edits
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)
Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)
Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)
MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
di: Pasquier, Philippe, et al.
Pubblicazione: (2025)
di: Pasquier, Philippe, et al.
Pubblicazione: (2025)
Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
di: Wang, Juncheng, et al.
Pubblicazione: (2025)
di: Wang, Juncheng, et al.
Pubblicazione: (2025)
A Traditional Approach to Symbolic Piano Continuation
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
di: Kim, Sungnyun, et al.
Pubblicazione: (2025)
di: Kim, Sungnyun, et al.
Pubblicazione: (2025)
IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
di: Song, Zeyang, et al.
Pubblicazione: (2025)
di: Song, Zeyang, et al.
Pubblicazione: (2025)
Improving BERT for Symbolic Music Understanding Using Token Denoising and Pianoroll Prediction
di: Wang, Jun-You, et al.
Pubblicazione: (2025)
di: Wang, Jun-You, et al.
Pubblicazione: (2025)
Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement
di: Bandyopadhyay, Tathagata
Pubblicazione: (2024)
di: Bandyopadhyay, Tathagata
Pubblicazione: (2024)
Siamese Residual Neural Network for Musical Shape Evaluation in Piano Performance Assessment
di: Li, Xiaoquan, et al.
Pubblicazione: (2024)
di: Li, Xiaoquan, et al.
Pubblicazione: (2024)
Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
di: Yu, Jun, et al.
Pubblicazione: (2024)
di: Yu, Jun, et al.
Pubblicazione: (2024)
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation
di: Bai, Yatong, et al.
Pubblicazione: (2023)
di: Bai, Yatong, et al.
Pubblicazione: (2023)
Compression of Higher Order Ambisonics with Multichannel RVQGAN
di: Hirvonen, Toni, et al.
Pubblicazione: (2024)
di: Hirvonen, Toni, et al.
Pubblicazione: (2024)
A Recurrent Neural Network Approach to the Answering Machine Detection Problem
di: Altwlkany, Kemal, et al.
Pubblicazione: (2024)
di: Altwlkany, Kemal, et al.
Pubblicazione: (2024)
Multimodal Speech Enhancement Using Burst Propagation
di: Raza, Mohsin, et al.
Pubblicazione: (2022)
di: Raza, Mohsin, et al.
Pubblicazione: (2022)
Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder
di: Berti, Leonardo
Pubblicazione: (2024)
di: Berti, Leonardo
Pubblicazione: (2024)
CHORDONOMICON: A Dataset of 666,000 Songs and their Chord Progressions
di: Kantarelis, Spyridon, et al.
Pubblicazione: (2024)
di: Kantarelis, Spyridon, et al.
Pubblicazione: (2024)
Audiopedia: Audio QA with Knowledge
di: Penamakuri, Abhirama Subramanyam, et al.
Pubblicazione: (2024)
di: Penamakuri, Abhirama Subramanyam, et al.
Pubblicazione: (2024)
Leveraging LLM Embeddings for Cross Dataset Label Alignment and Zero Shot Music Emotion Prediction
di: Liu, Renhang, et al.
Pubblicazione: (2024)
di: Liu, Renhang, et al.
Pubblicazione: (2024)
LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement
di: Jain, Arnav, et al.
Pubblicazione: (2024)
di: Jain, Arnav, et al.
Pubblicazione: (2024)
Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
Versatile audio-visual learning for emotion recognition
di: Goncalves, Lucas, et al.
Pubblicazione: (2023)
di: Goncalves, Lucas, et al.
Pubblicazione: (2023)
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
di: Ishii, Masato, et al.
Pubblicazione: (2024)
di: Ishii, Masato, et al.
Pubblicazione: (2024)
MidiCaps: A large-scale MIDI dataset with text captions
di: Melechovsky, Jan, et al.
Pubblicazione: (2024)
di: Melechovsky, Jan, et al.
Pubblicazione: (2024)
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
di: Sadok, Samir, et al.
Pubblicazione: (2023)
di: Sadok, Samir, et al.
Pubblicazione: (2023)
Microphone Conversion: Mitigating Device Variability in Sound Event Classification
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)
A vector quantized masked autoencoder for audiovisual speech emotion recognition
di: Sadok, Samir, et al.
Pubblicazione: (2023)
di: Sadok, Samir, et al.
Pubblicazione: (2023)
Just Label the Repeats for In-The-Wild Audio-to-Score Alignment
di: Bukey, Irmak, et al.
Pubblicazione: (2024)
di: Bukey, Irmak, et al.
Pubblicazione: (2024)
Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment
di: Luo, Weiliang
Pubblicazione: (2024)
di: Luo, Weiliang
Pubblicazione: (2024)
Network Bending of Diffusion Models for Audio-Visual Generation
di: Dzwonczyk, Luke, et al.
Pubblicazione: (2024)
di: Dzwonczyk, Luke, et al.
Pubblicazione: (2024)
Speech Separation with Pretrained Frontend to Minimize Domain Mismatch
di: Wang, Wupeng, et al.
Pubblicazione: (2024)
di: Wang, Wupeng, et al.
Pubblicazione: (2024)
Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences
di: Spanio, Matteo, et al.
Pubblicazione: (2026)
di: Spanio, Matteo, et al.
Pubblicazione: (2026)
Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)
Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
di: Wang, Junyu, et al.
Pubblicazione: (2025)
di: Wang, Junyu, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025) -
Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion
di: Chen, Yukun, et al.
Pubblicazione: (2025) -
BERT-like Pre-training for Symbolic Piano Music Classification Tasks
di: Chou, Yi-Hui, et al.
Pubblicazione: (2021) -
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction
di: Wu, Wenxuan, et al.
Pubblicazione: (2025) -
Sequence-to-Sequence Multi-Modal Speech In-Painting
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)