Salvato in:
| Autori principali: | Benavent-Lledo, Manuel, Mulero-Pérez, David, Ortiz-Perez, David, Garcia-Rodriguez, Jose |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2501.13518 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2024)
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2024)
Detecting Facial Image Manipulations with Multi-Layer CNN Models
di: Montejano, Alejandro Marco, et al.
Pubblicazione: (2024)
di: Montejano, Alejandro Marco, et al.
Pubblicazione: (2024)
Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos
di: Rodriguez-Juan, Javier, et al.
Pubblicazione: (2025)
di: Rodriguez-Juan, Javier, et al.
Pubblicazione: (2025)
Understanding Multimodal Complementarity for Single-Frame Action Anticipation
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2026)
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2026)
Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video?
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2025)
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2025)
Information Elevation Network for Fast Online Action Detection
di: Min, Sunah, et al.
Pubblicazione: (2021)
di: Min, Sunah, et al.
Pubblicazione: (2021)
Context-Enhanced Memory-Refined Transformer for Online Action Detection
di: Pang, Zhanzhong, et al.
Pubblicazione: (2025)
di: Pang, Zhanzhong, et al.
Pubblicazione: (2025)
Online Action Representation using Change Detection and Symbolic Programming
di: Nair, Vishnu S, et al.
Pubblicazione: (2024)
di: Nair, Vishnu S, et al.
Pubblicazione: (2024)
MALT: Multi-scale Action Learning Transformer for Online Action Detection
di: Yang, Zhipeng, et al.
Pubblicazione: (2024)
di: Yang, Zhipeng, et al.
Pubblicazione: (2024)
Object Aware Egocentric Online Action Detection
di: An, Joungbin, et al.
Pubblicazione: (2024)
di: An, Joungbin, et al.
Pubblicazione: (2024)
OnlineTAS: An Online Baseline for Temporal Action Segmentation
di: Zhong, Qing, et al.
Pubblicazione: (2024)
di: Zhong, Qing, et al.
Pubblicazione: (2024)
Probabilistic Temporal Masked Attention for Cross-view Online Action Detection
di: Xie, Liping, et al.
Pubblicazione: (2025)
di: Xie, Liping, et al.
Pubblicazione: (2025)
CogniAlign: Word-Level Multimodal Speech Alignment with Gated Cross-Attention for Alzheimer's Detection
di: Ortiz-Perez, David, et al.
Pubblicazione: (2025)
di: Ortiz-Perez, David, et al.
Pubblicazione: (2025)
Benchmarking the Sim-to-Real Gap in Cloth Manipulation
di: Blanco-Mulero, David, et al.
Pubblicazione: (2023)
di: Blanco-Mulero, David, et al.
Pubblicazione: (2023)
Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms
di: Pérez, Santiago, et al.
Pubblicazione: (2024)
di: Pérez, Santiago, et al.
Pubblicazione: (2024)
Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
di: Yang, Xinyu, et al.
Pubblicazione: (2025)
di: Yang, Xinyu, et al.
Pubblicazione: (2025)
Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions
di: Wang, Lan, et al.
Pubblicazione: (2024)
di: Wang, Lan, et al.
Pubblicazione: (2024)
CHaRM: Conditioned Heatmap Regression Methodology for Accurate and Fast Dental Landmark Localization
di: Rodríguez-Ortega, José, et al.
Pubblicazione: (2025)
di: Rodríguez-Ortega, José, et al.
Pubblicazione: (2025)
Towards Universal Text-driven CT Image Segmentation
di: Li, Yuheng, et al.
Pubblicazione: (2025)
di: Li, Yuheng, et al.
Pubblicazione: (2025)
GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
di: Han, Ning, et al.
Pubblicazione: (2025)
di: Han, Ning, et al.
Pubblicazione: (2025)
Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities
di: Santos-Villafranca, Maria, et al.
Pubblicazione: (2025)
di: Santos-Villafranca, Maria, et al.
Pubblicazione: (2025)
Online Temporal Action Localization with Memory-Augmented Transformer
di: Song, Youngkil, et al.
Pubblicazione: (2024)
di: Song, Youngkil, et al.
Pubblicazione: (2024)
TSalV360: A Method and Dataset for Text-driven Saliency Detection in 360-Degrees Videos
di: Kontostathis, Ioannis, et al.
Pubblicazione: (2025)
di: Kontostathis, Ioannis, et al.
Pubblicazione: (2025)
Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging
di: Ruffini, Filippo, et al.
Pubblicazione: (2025)
di: Ruffini, Filippo, et al.
Pubblicazione: (2025)
OZ-TAL: Online Zero-Shot Temporal Action Localization
di: Han, Chaolei, et al.
Pubblicazione: (2026)
di: Han, Chaolei, et al.
Pubblicazione: (2026)
Efficient Malicious UAV Detection Using Autoencoder-TSMamba Integration
di: Akhtarshenas, Azim, et al.
Pubblicazione: (2025)
di: Akhtarshenas, Azim, et al.
Pubblicazione: (2025)
InstructEngine: Instruction-driven Text-to-Image Alignment
di: Lu, Xingyu, et al.
Pubblicazione: (2025)
di: Lu, Xingyu, et al.
Pubblicazione: (2025)
Text-driven Motion Generation: Overview, Challenges and Directions
di: Sahili, Ali Rida, et al.
Pubblicazione: (2025)
di: Sahili, Ali Rida, et al.
Pubblicazione: (2025)
Scene-Action Prompt Fusion for Coherent Text-to-Video Storytelling
di: Kang, Taewon, et al.
Pubblicazione: (2025)
di: Kang, Taewon, et al.
Pubblicazione: (2025)
Marrying Text-to-Motion Generation with Skeleton-Based Action Recognition
di: Kuang, Jidong, et al.
Pubblicazione: (2026)
di: Kuang, Jidong, et al.
Pubblicazione: (2026)
Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
di: Huang, Siteng, et al.
Pubblicazione: (2023)
di: Huang, Siteng, et al.
Pubblicazione: (2023)
ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos
di: Kang, Hyolim, et al.
Pubblicazione: (2024)
di: Kang, Hyolim, et al.
Pubblicazione: (2024)
EdgeOAR: Real-time Online Action Recognition On Edge Devices
di: Luo, Wei, et al.
Pubblicazione: (2024)
di: Luo, Wei, et al.
Pubblicazione: (2024)
HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization
di: Reza, Sakib, et al.
Pubblicazione: (2024)
di: Reza, Sakib, et al.
Pubblicazione: (2024)
Language-driven Grasp Detection
di: Vuong, An Dinh, et al.
Pubblicazione: (2024)
di: Vuong, An Dinh, et al.
Pubblicazione: (2024)
Aggregated Text Transformer for Scene Text Detection
di: Zhou, Zhao, et al.
Pubblicazione: (2022)
di: Zhou, Zhao, et al.
Pubblicazione: (2022)
Scaling Open-Vocabulary Action Detection
di: Sia, Zhen Hao, et al.
Pubblicazione: (2025)
di: Sia, Zhen Hao, et al.
Pubblicazione: (2025)
Multi-Granularity Hand Action Detection
di: Zhe, Ting, et al.
Pubblicazione: (2023)
di: Zhe, Ting, et al.
Pubblicazione: (2023)
Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition
di: Hu, Xiaodan, et al.
Pubblicazione: (2025)
di: Hu, Xiaodan, et al.
Pubblicazione: (2025)
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation
di: Rahary, Adrien Ramanana, et al.
Pubblicazione: (2026)
di: Rahary, Adrien Ramanana, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2024) -
Detecting Facial Image Manipulations with Multi-Layer CNN Models
di: Montejano, Alejandro Marco, et al.
Pubblicazione: (2024) -
Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos
di: Rodriguez-Juan, Javier, et al.
Pubblicazione: (2025) -
Understanding Multimodal Complementarity for Single-Frame Action Anticipation
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2026) -
Action Anticipation at a Glimpse: To What Extent Can Multimodal Cues Replace Video?
di: Benavent-Lledo, Manuel, et al.
Pubblicazione: (2025)