Salvato in:
| Autori principali: | Ng, Evonne, Zhang, Siwei, Chen, Zhang, Zollhoefer, Michael, Richard, Alexander |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2602.18432 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
di: Chatziagapi, Aggelina, et al.
Pubblicazione: (2025)
di: Chatziagapi, Aggelina, et al.
Pubblicazione: (2025)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
di: Ng, Evonne, et al.
Pubblicazione: (2024)
di: Ng, Evonne, et al.
Pubblicazione: (2024)
DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
di: Wang, Yufu, et al.
Pubblicazione: (2026)
di: Wang, Yufu, et al.
Pubblicazione: (2026)
Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset
di: McLean, Claire, et al.
Pubblicazione: (2025)
di: McLean, Claire, et al.
Pubblicazione: (2025)
Pose Priors from Language Models
di: Subramanian, Sanjay, et al.
Pubblicazione: (2024)
di: Subramanian, Sanjay, et al.
Pubblicazione: (2024)
Diffusion Forcing for Multi-Agent Interaction Sequence Modeling
di: Maluleke, Vongani H., et al.
Pubblicazione: (2025)
di: Maluleke, Vongani H., et al.
Pubblicazione: (2025)
RoHM: Robust Human Motion Reconstruction via Diffusion
di: Zhang, Siwei, et al.
Pubblicazione: (2024)
di: Zhang, Siwei, et al.
Pubblicazione: (2024)
3D Human Pose Estimation via Spatial Graph Order Attention and Temporal Body Aware Transformer
di: Aouaidjia, Kamel, et al.
Pubblicazione: (2025)
di: Aouaidjia, Kamel, et al.
Pubblicazione: (2025)
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion
di: Zhang, Xiaoli, et al.
Pubblicazione: (2024)
di: Zhang, Xiaoli, et al.
Pubblicazione: (2024)
Masked Modeling for Human Motion Recovery Under Occlusions
di: Qian, Zhiyin, et al.
Pubblicazione: (2026)
di: Qian, Zhiyin, et al.
Pubblicazione: (2026)
End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction
di: Zhang, Haoyu, et al.
Pubblicazione: (2026)
di: Zhang, Haoyu, et al.
Pubblicazione: (2026)
Spatial-Aware Self-Supervision for Medical 3D Imaging with Multi-Granularity Observable Tasks
di: Zhang, Yiqin, et al.
Pubblicazione: (2025)
di: Zhang, Yiqin, et al.
Pubblicazione: (2025)
PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM
di: Meng, Siwei, et al.
Pubblicazione: (2025)
di: Meng, Siwei, et al.
Pubblicazione: (2025)
Human Gaussian Splatting: Real-time Rendering of Animatable Avatars
di: Moreau, Arthur, et al.
Pubblicazione: (2023)
di: Moreau, Arthur, et al.
Pubblicazione: (2023)
SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field
di: Song, Zetian, et al.
Pubblicazione: (2024)
di: Song, Zetian, et al.
Pubblicazione: (2024)
VTAgent: Agentic Keyframe Anchoring for Evidence-Aware Video TextVQA
di: He, Haibin, et al.
Pubblicazione: (2026)
di: He, Haibin, et al.
Pubblicazione: (2026)
Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning
di: Zhang, Wenchuan, et al.
Pubblicazione: (2025)
di: Zhang, Wenchuan, et al.
Pubblicazione: (2025)
Real-time High-fidelity Gaussian Human Avatars with Position-based Interpolation of Spatially Distributed MLPs
di: Zhan, Youyi, et al.
Pubblicazione: (2025)
di: Zhan, Youyi, et al.
Pubblicazione: (2025)
Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models
di: Deng, Wei, et al.
Pubblicazione: (2026)
di: Deng, Wei, et al.
Pubblicazione: (2026)
Real-time Spatial-temporal Traversability Assessment via Feature-based Sparse Gaussian Process
di: Hou, Zhenyu, et al.
Pubblicazione: (2025)
di: Hou, Zhenyu, et al.
Pubblicazione: (2025)
MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling
di: Wang, Haoyu, et al.
Pubblicazione: (2025)
di: Wang, Haoyu, et al.
Pubblicazione: (2025)
Egocentric Visibility-Aware Human Pose Estimation
di: Dai, Peng, et al.
Pubblicazione: (2026)
di: Dai, Peng, et al.
Pubblicazione: (2026)
Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology
di: Han, Minghao, et al.
Pubblicazione: (2026)
di: Han, Minghao, et al.
Pubblicazione: (2026)
TACR-YOLO: A Real-time Detection Framework for Abnormal Human Behaviors Enhanced with Coordinate and Task-Aware Representations
di: Yin, Xinyi, et al.
Pubblicazione: (2025)
di: Yin, Xinyi, et al.
Pubblicazione: (2025)
LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation
di: Guo, Biao, et al.
Pubblicazione: (2025)
di: Guo, Biao, et al.
Pubblicazione: (2025)
EditRefiner: A Human-Aligned Agentic Framework for Image Editing Refinement
di: Xu, Zitong, et al.
Pubblicazione: (2026)
di: Xu, Zitong, et al.
Pubblicazione: (2026)
OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution
di: Zhao, Shijie, et al.
Pubblicazione: (2026)
di: Zhao, Shijie, et al.
Pubblicazione: (2026)
GaussianGAN: Real-Time Photorealistic controllable Human Avatars
di: Lakhal, Mohamed Ilyes, et al.
Pubblicazione: (2025)
di: Lakhal, Mohamed Ilyes, et al.
Pubblicazione: (2025)
PARSE: Part-Aware Relational Spatial Modeling
di: Bai, Yinuo, et al.
Pubblicazione: (2026)
di: Bai, Yinuo, et al.
Pubblicazione: (2026)
HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly
di: Liu, Chang, et al.
Pubblicazione: (2025)
di: Liu, Chang, et al.
Pubblicazione: (2025)
HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations
di: Dai, Peng, et al.
Pubblicazione: (2024)
di: Dai, Peng, et al.
Pubblicazione: (2024)
Real-time Monocular Depth Estimation on Embedded Systems
di: Feng, Cheng, et al.
Pubblicazione: (2023)
di: Feng, Cheng, et al.
Pubblicazione: (2023)
Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution
di: An, Hongyu, et al.
Pubblicazione: (2025)
di: An, Hongyu, et al.
Pubblicazione: (2025)
SPAD : Spatially Aware Multiview Diffusers
di: Kant, Yash, et al.
Pubblicazione: (2024)
di: Kant, Yash, et al.
Pubblicazione: (2024)
A Spatial-Frequency Aware Multi-Scale Fusion Network for Real-Time Deepfake Detection
di: Lv, Libo, et al.
Pubblicazione: (2025)
di: Lv, Libo, et al.
Pubblicazione: (2025)
TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding
di: Yang, Fan, et al.
Pubblicazione: (2026)
di: Yang, Fan, et al.
Pubblicazione: (2026)
GenSpace: Benchmarking Spatially-Aware Image Generation
di: Wang, Zehan, et al.
Pubblicazione: (2025)
di: Wang, Zehan, et al.
Pubblicazione: (2025)
Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting
di: Zhang, Da, et al.
Pubblicazione: (2026)
di: Zhang, Da, et al.
Pubblicazione: (2026)
Refining CLIP's Spatial Awareness: A Visual-Centric Perspective
di: Qiu, Congpei, et al.
Pubblicazione: (2025)
di: Qiu, Congpei, et al.
Pubblicazione: (2025)
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
di: Xie, Rui, et al.
Pubblicazione: (2025)
di: Xie, Rui, et al.
Pubblicazione: (2025)
Documenti analoghi
-
AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
di: Chatziagapi, Aggelina, et al.
Pubblicazione: (2025) -
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
di: Ng, Evonne, et al.
Pubblicazione: (2024) -
DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
di: Wang, Yufu, et al.
Pubblicazione: (2026) -
Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset
di: McLean, Claire, et al.
Pubblicazione: (2025) -
Pose Priors from Language Models
di: Subramanian, Sanjay, et al.
Pubblicazione: (2024)