:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Ma, Xiaoyu, Chen, Hao
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Machine Learning Multimedia Sound Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2510.14411
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement
di: Lin, Meng-Ping, et al.
Pubblicazione: (2025)

Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion
di: Chen, Yukun, et al.
Pubblicazione: (2025)

BERT-like Pre-training for Symbolic Piano Music Classification Tasks
di: Chou, Yi-Hui, et al.
Pubblicazione: (2021)

$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)

Sequence-to-Sequence Multi-Modal Speech In-Painting
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)

AWARE: Audio Watermarking with Adversarial Resistance to Edits
di: Pavlović, Kosta, et al.
Pubblicazione: (2025)

Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
di: Herbuela, Von Ralph Dane Marquez, et al.
Pubblicazione: (2025)

Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction
di: Wu, Wenxuan, et al.
Pubblicazione: (2025)

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
di: Pasquier, Philippe, et al.
Pubblicazione: (2025)

Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
di: Wang, Juncheng, et al.
Pubblicazione: (2025)

A Traditional Approach to Symbolic Piano Continuation
di: Zhou-Zheng, Christian, et al.
Pubblicazione: (2025)

Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
di: Kim, Sungnyun, et al.
Pubblicazione: (2025)

IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
di: Song, Zeyang, et al.
Pubblicazione: (2025)

Improving BERT for Symbolic Music Understanding Using Token Denoising and Pianoroll Prediction
di: Wang, Jun-You, et al.
Pubblicazione: (2025)

Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement
di: Bandyopadhyay, Tathagata
Pubblicazione: (2024)

Siamese Residual Neural Network for Musical Shape Evaluation in Piano Performance Assessment
di: Li, Xiaoquan, et al.
Pubblicazione: (2024)

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation
di: Yu, Jun, et al.
Pubblicazione: (2024)

ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation
di: Bai, Yatong, et al.
Pubblicazione: (2023)

Compression of Higher Order Ambisonics with Multichannel RVQGAN
di: Hirvonen, Toni, et al.
Pubblicazione: (2024)

A Recurrent Neural Network Approach to the Answering Machine Detection Problem
di: Altwlkany, Kemal, et al.
Pubblicazione: (2024)

Multimodal Speech Enhancement Using Burst Propagation
di: Raza, Mohsin, et al.
Pubblicazione: (2022)

Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder
di: Berti, Leonardo
Pubblicazione: (2024)

CHORDONOMICON: A Dataset of 666,000 Songs and their Chord Progressions
di: Kantarelis, Spyridon, et al.
Pubblicazione: (2024)

Audiopedia: Audio QA with Knowledge
di: Penamakuri, Abhirama Subramanyam, et al.
Pubblicazione: (2024)

Leveraging LLM Embeddings for Cross Dataset Label Alignment and Zero Shot Music Emotion Prediction
di: Liu, Renhang, et al.
Pubblicazione: (2024)

LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement
di: Jain, Arnav, et al.
Pubblicazione: (2024)

Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)

Versatile audio-visual learning for emotion recognition
di: Goncalves, Lucas, et al.
Pubblicazione: (2023)

A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
di: Ishii, Masato, et al.
Pubblicazione: (2024)

MidiCaps: A large-scale MIDI dataset with text captions
di: Melechovsky, Jan, et al.
Pubblicazione: (2024)

A multimodal dynamical variational autoencoder for audiovisual speech representation learning
di: Sadok, Samir, et al.
Pubblicazione: (2023)

Microphone Conversion: Mitigating Device Variability in Sound Event Classification
di: Ryu, Myeonghoon, et al.
Pubblicazione: (2024)

A vector quantized masked autoencoder for audiovisual speech emotion recognition
di: Sadok, Samir, et al.
Pubblicazione: (2023)

Just Label the Repeats for In-The-Wild Audio-to-Score Alignment
di: Bukey, Irmak, et al.
Pubblicazione: (2024)

Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment
di: Luo, Weiliang
Pubblicazione: (2024)

Network Bending of Diffusion Models for Audio-Visual Generation
di: Dzwonczyk, Luke, et al.
Pubblicazione: (2024)

Speech Separation with Pretrained Frontend to Minimize Domain Mismatch
di: Wang, Wupeng, et al.
Pubblicazione: (2024)

Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences
di: Spanio, Matteo, et al.
Pubblicazione: (2026)

Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach
di: Elyaderani, Mahsa Kadkhodaei, et al.
Pubblicazione: (2024)

Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
di: Wang, Junyu, et al.
Pubblicazione: (2025)