:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Fan, Zhiwen, Zhang, Jian, Li, Renjie, Zhang, Junge, Chen, Runjin, Hu, Hezhen, Wang, Kevin, Qu, Huaizhi, Zhou, Shijie, Wang, Dilin, Yan, Zhicheng, Xu, Hongyu, Theiss, Justin, Chen, Tianlong, Li, Jiachen, Tu, Zhengzhong, Wang, Zhangyang, Ranjan, Rakesh
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition Computation and Language
Online-Zugang:	https://arxiv.org/abs/2505.20279
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds
von: Tang, Zhenggang, et al.
Veröffentlicht: (2024)

MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding
von: Li, Renjie, et al.
Veröffentlicht: (2025)

LLMs Can Get "Brain Rot": A Pilot Study on Twitter/X
von: Xing, Shuo, et al.
Veröffentlicht: (2025)

Taming Mode Collapse in Score Distillation for Text-to-3D Generation
von: Wang, Peihao, et al.
Veröffentlicht: (2023)

SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity
von: Wang, Peihao, et al.
Veröffentlicht: (2023)

Steepest Descent Density Control for Compact 3D Gaussian Splatting
von: Wang, Peihao, et al.
Veröffentlicht: (2025)

4K4DGen: Panoramic 4D Generation at 4K Resolution
von: Li, Renjie, et al.
Veröffentlicht: (2024)

Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion
von: Tang, Zhenggang, et al.
Veröffentlicht: (2026)

GEM: 3D Gaussian Splatting for Efficient and Accurate Cryo-EM Reconstruction
von: Qu, Huaizhi, et al.
Veröffentlicht: (2025)

SEAL: Steerable Reasoning Calibration of Large Language Models for Free
von: Chen, Runjin, et al.
Veröffentlicht: (2025)

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
von: Wang, Yifan, et al.
Veröffentlicht: (2025)

STAMP: Scalable Task And Model-agnostic Collaborative Perception
von: Gao, Xiangbo, et al.
Veröffentlicht: (2025)

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
von: Wen, Kairun, et al.
Veröffentlicht: (2025)

HeadsUp! High-Fidelity Portrait Image Super-Resolution
von: Li, Renjie, et al.
Veröffentlicht: (2025)

PANDORA: Diffusion Policy Learning for Dexterous Robotic Piano Playing
von: Huang, Yanjia, et al.
Veröffentlicht: (2025)

LLaGA: Large Language and Graph Assistant
von: Chen, Runjin, et al.
Veröffentlicht: (2024)

Expressive Gaussian Human Avatars from Monocular RGB Video
von: Hu, Hezhen, et al.
Veröffentlicht: (2024)

AutoPartGen: Autogressive 3D Part Generation and Discovery
von: Chen, Minghao, et al.
Veröffentlicht: (2025)

HumanNOVA: Photorealistic, Universal and Rapid 3D Human Avatar Modeling from a Single Image
von: Hu, Hezhen, et al.
Veröffentlicht: (2026)

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
von: Tang, Shitao, et al.
Veröffentlicht: (2024)

3D Mesh Editing using Masked LRMs
von: Gao, Will, et al.
Veröffentlicht: (2024)

Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors
von: Guo, Lanqing, et al.
Veröffentlicht: (2025)

Large Spatial Model: End-to-end Unposed Images to Semantic 3D
von: Fan, Zhiwen, et al.
Veröffentlicht: (2024)

SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning
von: Zhang, Jian, et al.
Veröffentlicht: (2026)

LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning
von: Perin, Gabriel J., et al.
Veröffentlicht: (2025)

Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
von: Hu, Tianyu, et al.
Veröffentlicht: (2025)

VISTA: Generative Visual Imagination for Vision-and-Language Navigation
von: Huang, Yanjia, et al.
Veröffentlicht: (2025)

Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding
von: Zhang, Zhenyu, et al.
Veröffentlicht: (2024)

DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation
von: Li, Pingzhi, et al.
Veröffentlicht: (2025)

EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection
von: Qu, Huaizhi, et al.
Veröffentlicht: (2025)

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model
von: Zhang, Mohan, et al.
Veröffentlicht: (2025)

Rethinking PGD Attack: Is Sign Function Necessary?
von: Yang, Junjie, et al.
Veröffentlicht: (2023)

CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation
von: Taghavi, Pardis, et al.
Veröffentlicht: (2025)

Training a Student Expert via Semi-Supervised Foundation Model Distillation
von: Taghavi, Pardis, et al.
Veröffentlicht: (2026)

Demystifying the Visual Quality Paradox in Multimodal Large Language Models
von: Xing, Shuo, et al.
Veröffentlicht: (2025)

DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer
von: Hong, Junyuan, et al.
Veröffentlicht: (2023)

Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D
von: T, Mukund Varma, et al.
Veröffentlicht: (2024)

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models
von: Cong, Wenyan, et al.
Veröffentlicht: (2025)

NavTrust: Benchmarking Trustworthiness for Embodied Navigation
von: Jiang, Huaide, et al.
Veröffentlicht: (2026)

Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
von: Xing, Shuo, et al.
Veröffentlicht: (2025)