Salvato in:
| Autori principali: | Chen, Shuai, Chen, Hao, Bei, Yuanchen, Zhao, Tianyang, Zhou, Zhibo, Huang, Feiran |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2601.08876 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Embody4D: A Generalist 4D World Model for Embodied AI
di: Tu, Peiyan, et al.
Pubblicazione: (2026)
di: Tu, Peiyan, et al.
Pubblicazione: (2026)
SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space
di: Kang, Zejian, et al.
Pubblicazione: (2026)
di: Kang, Zejian, et al.
Pubblicazione: (2026)
Multimodal Data Storage and Retrieval for Embodied AI: A Survey
di: Lu, Yihao, et al.
Pubblicazione: (2025)
di: Lu, Yihao, et al.
Pubblicazione: (2025)
Improving Human Image Animation via Semantic Representation Alignment
di: Liu, Chang, et al.
Pubblicazione: (2026)
di: Liu, Chang, et al.
Pubblicazione: (2026)
KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes
di: Wu, Jingchao, et al.
Pubblicazione: (2025)
di: Wu, Jingchao, et al.
Pubblicazione: (2025)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning
di: Zhao, Baining, et al.
Pubblicazione: (2025)
di: Zhao, Baining, et al.
Pubblicazione: (2025)
MiMo-Embodied: X-Embodied Foundation Model Technical Report
di: Hao, Xiaoshuai, et al.
Pubblicazione: (2025)
di: Hao, Xiaoshuai, et al.
Pubblicazione: (2025)
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
di: X, Tencent Robotics, et al.
Pubblicazione: (2026)
di: X, Tencent Robotics, et al.
Pubblicazione: (2026)
Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning
di: Gao, Minghe, et al.
Pubblicazione: (2025)
di: Gao, Minghe, et al.
Pubblicazione: (2025)
Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation
di: Huang, Kaiwen, et al.
Pubblicazione: (2026)
di: Huang, Kaiwen, et al.
Pubblicazione: (2026)
Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
di: Zhong, Fangwei, et al.
Pubblicazione: (2024)
di: Zhong, Fangwei, et al.
Pubblicazione: (2024)
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
di: Zhao, Yaqi, et al.
Pubblicazione: (2026)
di: Zhao, Yaqi, et al.
Pubblicazione: (2026)
Unified Multi-Foundation-Model Slide Representation for Pan-Cancer Recognition and Text-Guided Tumor Localization
di: Wang, Tianyang, et al.
Pubblicazione: (2026)
di: Wang, Tianyang, et al.
Pubblicazione: (2026)
Decoupling Semantics and Fingerprints: A Universal Representation for AI-Generated Image Detection
di: Wang, Zhiyuan, et al.
Pubblicazione: (2026)
di: Wang, Zhiyuan, et al.
Pubblicazione: (2026)
Selective Visual Representations Improve Convergence and Generalization for Embodied AI
di: Eftekhar, Ainaz, et al.
Pubblicazione: (2023)
di: Eftekhar, Ainaz, et al.
Pubblicazione: (2023)
Enhancing Representation in Medical Vision-Language Foundation Models via Multi-Scale Information Extraction Techniques
di: Huang, Weijian, et al.
Pubblicazione: (2024)
di: Huang, Weijian, et al.
Pubblicazione: (2024)
Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
di: Zhu, Yongshuo, et al.
Pubblicazione: (2024)
di: Zhu, Yongshuo, et al.
Pubblicazione: (2024)
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
di: Fang, Zhen, et al.
Pubblicazione: (2025)
di: Fang, Zhen, et al.
Pubblicazione: (2025)
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
di: Ju, Yuanchen, et al.
Pubblicazione: (2025)
di: Ju, Yuanchen, et al.
Pubblicazione: (2025)
XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
di: Qian, Kangan, et al.
Pubblicazione: (2026)
di: Qian, Kangan, et al.
Pubblicazione: (2026)
Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation
di: Ju, Yuanchen, et al.
Pubblicazione: (2024)
di: Ju, Yuanchen, et al.
Pubblicazione: (2024)
Training-free Camera Control for Video Generation
di: Hou, Chen, et al.
Pubblicazione: (2024)
di: Hou, Chen, et al.
Pubblicazione: (2024)
Deformable One-shot Face Stylization via DINO Semantic Guidance
di: Zhou, Yang, et al.
Pubblicazione: (2024)
di: Zhou, Yang, et al.
Pubblicazione: (2024)
Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
di: Wu, Yuanchen, et al.
Pubblicazione: (2025)
di: Wu, Yuanchen, et al.
Pubblicazione: (2025)
Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction
di: Li, Yuanbo, et al.
Pubblicazione: (2026)
di: Li, Yuanbo, et al.
Pubblicazione: (2026)
AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models
di: Zhou, Ziyin, et al.
Pubblicazione: (2025)
di: Zhou, Ziyin, et al.
Pubblicazione: (2025)
Locate n' Rotate: Two-stage Openable Part Detection with Foundation Model Priors
di: Li, Siqi, et al.
Pubblicazione: (2024)
di: Li, Siqi, et al.
Pubblicazione: (2024)
DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation
di: Wu, Yuanchen, et al.
Pubblicazione: (2024)
di: Wu, Yuanchen, et al.
Pubblicazione: (2024)
Semantic Image Synthesis via Diffusion Models
di: Zhou, Wengang, et al.
Pubblicazione: (2022)
di: Zhou, Wengang, et al.
Pubblicazione: (2022)
EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition
di: Liu, Bingxi, et al.
Pubblicazione: (2025)
di: Liu, Bingxi, et al.
Pubblicazione: (2025)
Learning Additively Compositional Latent Actions for Embodied AI
di: Wei, Hangxing, et al.
Pubblicazione: (2026)
di: Wei, Hangxing, et al.
Pubblicazione: (2026)
Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
di: Zhu, Zhiyu, et al.
Pubblicazione: (2025)
di: Zhu, Zhiyu, et al.
Pubblicazione: (2025)
Light Field Compression Based on Implicit Neural Representation
di: Wang, Henan, et al.
Pubblicazione: (2024)
di: Wang, Henan, et al.
Pubblicazione: (2024)
Hierarchical Neural Semantic Representation for 3D Semantic Correspondence
di: Du, Keyu, et al.
Pubblicazione: (2025)
di: Du, Keyu, et al.
Pubblicazione: (2025)
Rein++: Efficient Generalization and Adaptation for Semantic Segmentation with Vision Foundation Models
di: Wei, Zhixiang, et al.
Pubblicazione: (2025)
di: Wei, Zhixiang, et al.
Pubblicazione: (2025)
Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation
di: Prasanna, Sai, et al.
Pubblicazione: (2024)
di: Prasanna, Sai, et al.
Pubblicazione: (2024)
Semantically Structured Image Compression via Irregular Group-Based Decoupling
di: Feng, Ruoyu, et al.
Pubblicazione: (2023)
di: Feng, Ruoyu, et al.
Pubblicazione: (2023)
Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models
di: Chen, Zhaozheng, et al.
Pubblicazione: (2023)
di: Chen, Zhaozheng, et al.
Pubblicazione: (2023)
GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs
di: Wang, Xingrui, et al.
Pubblicazione: (2024)
di: Wang, Xingrui, et al.
Pubblicazione: (2024)
LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s
di: Wang, Xijun, et al.
Pubblicazione: (2025)
di: Wang, Xijun, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Embody4D: A Generalist 4D World Model for Embodied AI
di: Tu, Peiyan, et al.
Pubblicazione: (2026) -
SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space
di: Kang, Zejian, et al.
Pubblicazione: (2026) -
Multimodal Data Storage and Retrieval for Embodied AI: A Survey
di: Lu, Yihao, et al.
Pubblicazione: (2025) -
Improving Human Image Animation via Semantic Representation Alignment
di: Liu, Chang, et al.
Pubblicazione: (2026) -
KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes
di: Wu, Jingchao, et al.
Pubblicazione: (2025)