:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Chen, Shuai, Chen, Hao, Bei, Yuanchen, Zhao, Tianyang, Zhou, Zhibo, Huang, Feiran
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2601.08876
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Embody4D: A Generalist 4D World Model for Embodied AI
di: Tu, Peiyan, et al.
Pubblicazione: (2026)

SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space
di: Kang, Zejian, et al.
Pubblicazione: (2026)

Multimodal Data Storage and Retrieval for Embodied AI: A Survey
di: Lu, Yihao, et al.
Pubblicazione: (2025)

Improving Human Image Animation via Semantic Representation Alignment
di: Liu, Chang, et al.
Pubblicazione: (2026)

KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes
di: Wu, Jingchao, et al.
Pubblicazione: (2025)

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning
di: Zhao, Baining, et al.
Pubblicazione: (2025)

MiMo-Embodied: X-Embodied Foundation Model Technical Report
di: Hao, Xiaoshuai, et al.
Pubblicazione: (2025)

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
di: X, Tencent Robotics, et al.
Pubblicazione: (2026)

Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning
di: Gao, Minghe, et al.
Pubblicazione: (2025)

Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation
di: Huang, Kaiwen, et al.
Pubblicazione: (2026)

Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
di: Zhong, Fangwei, et al.
Pubblicazione: (2024)

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
di: Zhao, Yaqi, et al.
Pubblicazione: (2026)

Unified Multi-Foundation-Model Slide Representation for Pan-Cancer Recognition and Text-Guided Tumor Localization
di: Wang, Tianyang, et al.
Pubblicazione: (2026)

Decoupling Semantics and Fingerprints: A Universal Representation for AI-Generated Image Detection
di: Wang, Zhiyuan, et al.
Pubblicazione: (2026)

Selective Visual Representations Improve Convergence and Generalization for Embodied AI
di: Eftekhar, Ainaz, et al.
Pubblicazione: (2023)

Enhancing Representation in Medical Vision-Language Foundation Models via Multi-Scale Information Extraction Techniques
di: Huang, Weijian, et al.
Pubblicazione: (2024)

Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
di: Zhu, Yongshuo, et al.
Pubblicazione: (2024)

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
di: Fang, Zhen, et al.
Pubblicazione: (2025)

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
di: Ju, Yuanchen, et al.
Pubblicazione: (2025)

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
di: Qian, Kangan, et al.
Pubblicazione: (2026)

Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation
di: Ju, Yuanchen, et al.
Pubblicazione: (2024)

Training-free Camera Control for Video Generation
di: Hou, Chen, et al.
Pubblicazione: (2024)

Deformable One-shot Face Stylization via DINO Semantic Guidance
di: Zhou, Yang, et al.
Pubblicazione: (2024)

Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
di: Wu, Yuanchen, et al.
Pubblicazione: (2025)

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction
di: Li, Yuanbo, et al.
Pubblicazione: (2026)

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models
di: Zhou, Ziyin, et al.
Pubblicazione: (2025)

Locate n' Rotate: Two-stage Openable Part Detection with Foundation Model Priors
di: Li, Siqi, et al.
Pubblicazione: (2024)

DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation
di: Wu, Yuanchen, et al.
Pubblicazione: (2024)

Semantic Image Synthesis via Diffusion Models
di: Zhou, Wengang, et al.
Pubblicazione: (2022)

EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition
di: Liu, Bingxi, et al.
Pubblicazione: (2025)

Learning Additively Compositional Latent Actions for Embodied AI
di: Wei, Hangxing, et al.
Pubblicazione: (2026)

Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
di: Zhu, Zhiyu, et al.
Pubblicazione: (2025)

Light Field Compression Based on Implicit Neural Representation
di: Wang, Henan, et al.
Pubblicazione: (2024)

Hierarchical Neural Semantic Representation for 3D Semantic Correspondence
di: Du, Keyu, et al.
Pubblicazione: (2025)

Rein++: Efficient Generalization and Adaptation for Semantic Segmentation with Vision Foundation Models
di: Wei, Zhixiang, et al.
Pubblicazione: (2025)

Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation
di: Prasanna, Sai, et al.
Pubblicazione: (2024)

Semantically Structured Image Compression via Irregular Group-Based Decoupling
di: Feng, Ruoyu, et al.
Pubblicazione: (2023)

Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models
di: Chen, Zhaozheng, et al.
Pubblicazione: (2023)

GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs
di: Wang, Xingrui, et al.
Pubblicazione: (2024)

LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s
di: Wang, Xijun, et al.
Pubblicazione: (2025)