:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Benavent-Lledo, Manuel, Mulero-Pérez, David, Ortiz-Perez, David, Garcia-Rodriguez, Jose
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2501.13518
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2024)

Detecting Facial Image Manipulations with Multi-Layer CNN Models
di: Montejano, Alejandro Marco, et al.
Pubblicazione: (2024)

Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos
di: Rodriguez-Juan, Javier, et al.
Pubblicazione: (2025)

Understanding Multimodal Complementarity for Single-Frame Action Anticipation
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2026)

Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video?
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2025)

Information Elevation Network for Fast Online Action Detection
di: Min, Sunah, et al.
Pubblicazione: (2021)

Context-Enhanced Memory-Refined Transformer for Online Action Detection
di: Pang, Zhanzhong, et al.
Pubblicazione: (2025)

Online Action Representation using Change Detection and Symbolic Programming
di: Nair, Vishnu S, et al.
Pubblicazione: (2024)

MALT: Multi-scale Action Learning Transformer for Online Action Detection
di: Yang, Zhipeng, et al.
Pubblicazione: (2024)

Object Aware Egocentric Online Action Detection
di: An, Joungbin, et al.
Pubblicazione: (2024)

OnlineTAS: An Online Baseline for Temporal Action Segmentation
di: Zhong, Qing, et al.
Pubblicazione: (2024)

Probabilistic Temporal Masked Attention for Cross-view Online Action Detection
di: Xie, Liping, et al.
Pubblicazione: (2025)

CogniAlign: Word-Level Multimodal Speech Alignment with Gated Cross-Attention for Alzheimer's Detection
di: Ortiz-Perez, David, et al.
Pubblicazione: (2025)

Benchmarking the Sim-to-Real Gap in Cloth Manipulation
di: Blanco-Mulero, David, et al.
Pubblicazione: (2023)

Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms
di: Pérez, Santiago, et al.
Pubblicazione: (2024)

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
di: Yang, Xinyu, et al.
Pubblicazione: (2025)

Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
di: Wang, Lan, et al.
Pubblicazione: (2024)

CHaRM: Conditioned Heatmap Regression Methodology for Accurate and Fast Dental Landmark Localization
di: Rodríguez-Ortega, José, et al.
Pubblicazione: (2025)

Towards Universal Text-driven CT Image Segmentation
di: Li, Yuheng, et al.
Pubblicazione: (2025)

GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
di: Han, Ning, et al.
Pubblicazione: (2025)

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities
di: Santos-Villafranca, Maria, et al.
Pubblicazione: (2025)

Online Temporal Action Localization with Memory-Augmented Transformer
di: Song, Youngkil, et al.
Pubblicazione: (2024)

TSalV360: A Method and Dataset for Text-driven Saliency Detection in 360-Degrees Videos
di: Kontostathis, Ioannis, et al.
Pubblicazione: (2025)

Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging
di: Ruffini, Filippo, et al.
Pubblicazione: (2025)

OZ-TAL: Online Zero-Shot Temporal Action Localization
di: Han, Chaolei, et al.
Pubblicazione: (2026)

Efficient Malicious UAV Detection Using Autoencoder-TSMamba Integration
di: Akhtarshenas, Azim, et al.
Pubblicazione: (2025)

InstructEngine: Instruction-driven Text-to-Image Alignment
di: Lu, Xingyu, et al.
Pubblicazione: (2025)

Text-driven Motion Generation: Overview, Challenges and Directions
di: Sahili, Ali Rida, et al.
Pubblicazione: (2025)

Scene-Action Prompt Fusion for Coherent Text-to-Video Storytelling
di: Kang, Taewon, et al.
Pubblicazione: (2025)

Marrying Text-to-Motion Generation with Skeleton-Based Action Recognition
di: Kuang, Jidong, et al.
Pubblicazione: (2026)

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
di: Huang, Siteng, et al.
Pubblicazione: (2023)

ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos
di: Kang, Hyolim, et al.
Pubblicazione: (2024)

EdgeOAR: Real-time Online Action Recognition On Edge Devices
di: Luo, Wei, et al.
Pubblicazione: (2024)

HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization
di: Reza, Sakib, et al.
Pubblicazione: (2024)

Language-driven Grasp Detection
di: Vuong, An Dinh, et al.
Pubblicazione: (2024)

Aggregated Text Transformer for Scene Text Detection
di: Zhou, Zhao, et al.
Pubblicazione: (2022)

Scaling Open-Vocabulary Action Detection
di: Sia, Zhen Hao, et al.
Pubblicazione: (2025)

Multi-Granularity Hand Action Detection
di: Zhe, Ting, et al.
Pubblicazione: (2023)

Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition
di: Hu, Xiaodan, et al.
Pubblicazione: (2025)

One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
di: Rahary, Adrien Ramanana, et al.
Pubblicazione: (2026)