Gespeichert in:
| Hauptverfasser: | Sheung, Eddie Pokming, Liu, Qihao, Ma, Wufei, Kaushik, Prakhar, Xie, Jianwen, Yuille, Alan |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2511.16662 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning
von: Ma, Wufei, et al.
Veröffentlicht: (2025)
von: Ma, Wufei, et al.
Veröffentlicht: (2025)
Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate
von: Paul, Soumava, et al.
Veröffentlicht: (2026)
von: Paul, Soumava, et al.
Veröffentlicht: (2026)
Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors
von: Paul, Soumava, et al.
Veröffentlicht: (2024)
von: Paul, Soumava, et al.
Veröffentlicht: (2024)
Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
4D-Animal: Freely Reconstructing Animatable 3D Animals from Videos
von: Zhong, Shanshan, et al.
Veröffentlicht: (2025)
von: Zhong, Shanshan, et al.
Veröffentlicht: (2025)
ImageNet3D: Towards General-Purpose Object-Level 3D Understanding
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
A Bayesian Approach to OOD Robustness in Image Classification
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2024)
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2024)
DINeMo: Learning Neural Mesh Models with no 3D Annotations
von: Guo, Weijie, et al.
Veröffentlicht: (2025)
von: Guo, Weijie, et al.
Veröffentlicht: (2025)
Name That Part: 3D Part Segmentation and Naming
von: Paul, Soumava, et al.
Veröffentlicht: (2025)
von: Paul, Soumava, et al.
Veröffentlicht: (2025)
Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering
von: Wang, Xingrui, et al.
Veröffentlicht: (2024)
von: Wang, Xingrui, et al.
Veröffentlicht: (2024)
ReVision: Refining Video Diffusion with Explicit 3D Motion Modeling
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
EigenLoRAx: Recycling Adapters to Find Principal Subspaces for Resource-Efficient Adaptation and Inference
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2025)
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2025)
Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2024)
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2024)
Generating Images with 3D Annotations Using Diffusion Models
von: Ma, Wufei, et al.
Veröffentlicht: (2023)
von: Ma, Wufei, et al.
Veröffentlicht: (2023)
PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views
von: Shi, Jiaxin, et al.
Veröffentlicht: (2026)
von: Shi, Jiaxin, et al.
Veröffentlicht: (2026)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data
von: Liu, Qihao, et al.
Veröffentlicht: (2024)
von: Liu, Qihao, et al.
Veröffentlicht: (2024)
SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models
von: Ma, Wufei, et al.
Veröffentlicht: (2025)
von: Ma, Wufei, et al.
Veröffentlicht: (2025)
Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape
von: Xu, Jiacong, et al.
Veröffentlicht: (2023)
von: Xu, Jiacong, et al.
Veröffentlicht: (2023)
Shared LoRA Subspaces for almost Strict Continual Learning
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2026)
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2026)
The Universal Weight Subspace Hypothesis
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2025)
von: Kaushik, Prakhar, et al.
Veröffentlicht: (2025)
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
DirectTriGS: Triplane-based Gaussian Splatting Field Representation for 3D Generation
von: Ju, Xiaoliang, et al.
Veröffentlicht: (2025)
von: Ju, Xiaoliang, et al.
Veröffentlicht: (2025)
Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models
von: Wang, Xingrui, et al.
Veröffentlicht: (2025)
von: Wang, Xingrui, et al.
Veröffentlicht: (2025)
TPA3D: Triplane Attention for Fast Text-to-3D Generation
von: Wu, Bin-Shih, et al.
Veröffentlicht: (2023)
von: Wu, Bin-Shih, et al.
Veröffentlicht: (2023)
Perceptual Taxonomy: Evaluating and Guiding Hierarchical Scene Reasoning in Vision-Language Models
von: Lee, Jonathan, et al.
Veröffentlicht: (2025)
von: Lee, Jonathan, et al.
Veröffentlicht: (2025)
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
von: Ma, Wufei, et al.
Veröffentlicht: (2024)
CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion Model
von: Yuan, Xiaoding, et al.
Veröffentlicht: (2024)
von: Yuan, Xiaoding, et al.
Veröffentlicht: (2024)
LychSim: A Controllable and Interactive Simulation Framework for Vision Research
von: Ma, Wufei, et al.
Veröffentlicht: (2026)
von: Ma, Wufei, et al.
Veröffentlicht: (2026)
NOVUM: Neural Object Volumes for Robust Object Classification
von: Jesslen, Artur, et al.
Veröffentlicht: (2023)
von: Jesslen, Artur, et al.
Veröffentlicht: (2023)
4D-RaDiff: Latent Diffusion for 4D Radar Point Cloud Generation
von: Kwok, Jimmie, et al.
Veröffentlicht: (2025)
von: Kwok, Jimmie, et al.
Veröffentlicht: (2025)
Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation
von: Kim, Kihong, et al.
Veröffentlicht: (2024)
von: Kim, Kihong, et al.
Veröffentlicht: (2024)
SemCity: Semantic Scene Generation with Triplane Diffusion
von: Lee, Jumin, et al.
Veröffentlicht: (2024)
von: Lee, Jumin, et al.
Veröffentlicht: (2024)
TriNeRFLet: A Wavelet Based Triplane NeRF Representation
von: Khatib, Rajaei, et al.
Veröffentlicht: (2024)
von: Khatib, Rajaei, et al.
Veröffentlicht: (2024)
Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
von: Liu, Qihao, et al.
Veröffentlicht: (2024)
von: Liu, Qihao, et al.
Veröffentlicht: (2024)
iNeMo: Incremental Neural Mesh Models for Robust Class-Incremental Learning
von: Fischer, Tom, et al.
Veröffentlicht: (2024)
von: Fischer, Tom, et al.
Veröffentlicht: (2024)
GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction
von: Xu, Chao, et al.
Veröffentlicht: (2026)
von: Xu, Chao, et al.
Veröffentlicht: (2026)
D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On
von: Yang, Zhaotong, et al.
Veröffentlicht: (2024)
von: Yang, Zhaotong, et al.
Veröffentlicht: (2024)
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
von: Liu, Qihao, et al.
Veröffentlicht: (2025)
How Well Do Supervised 3D Models Transfer to Medical Imaging Tasks?
von: Li, Wenxuan, et al.
Veröffentlicht: (2025)
von: Li, Wenxuan, et al.
Veröffentlicht: (2025)
C3DAG: Controlled 3D Animal Generation using 3D pose guidance
von: Mishra, Sandeep, et al.
Veröffentlicht: (2024)
von: Mishra, Sandeep, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning
von: Ma, Wufei, et al.
Veröffentlicht: (2025) -
Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate
von: Paul, Soumava, et al.
Veröffentlicht: (2026) -
Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors
von: Paul, Soumava, et al.
Veröffentlicht: (2024) -
Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning
von: Liu, Qihao, et al.
Veröffentlicht: (2025) -
4D-Animal: Freely Reconstructing Animatable 3D Animals from Videos
von: Zhong, Shanshan, et al.
Veröffentlicht: (2025)