:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Han, Yuexing, Li, Ruijie, Wan, Guanxin, Hu, Gan, Liu, Yi, Wang, Bing
Format:	Preprint
Published:	2024
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2404.09515
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

FAGC:Feature Augmentation on Geodesic Curve in the Pre-Shape Space
by: Han, Yuexing, et al.
Published: (2023)

FAAGC: Feature Augmentation on Adaptive Geodesic Curve Based on the shape space theory
by: Han, Yuexing, et al.
Published: (2025)

FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer
by: Han, Yuexing, et al.
Published: (2024)

Few-shot Image Generation via Information Transfer from the Built Geodesic Surface
by: Han, Yuexing, et al.
Published: (2024)

WaveRNet: Wavelet-Guided Frequency Learning for Multi-Source Domain-Generalized Retinal Vessel Segmentation
by: Wang, Chanchan, et al.
Published: (2026)

Deep Learning-Driven Microstructure Characterization and Vickers Hardness Prediction of Mg-Gd Alloys
by: Wang, Lu, et al.
Published: (2024)

Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation
by: Chi, Ruting, et al.
Published: (2024)

Superpoint Gaussian Splatting for Real-Time High-Fidelity Dynamic Scene Reconstruction
by: Wan, Diwen, et al.
Published: (2024)

Template-free Articulated Gaussian Splatting for Real-time Reposable Dynamic View Synthesis
by: Wan, Diwen, et al.
Published: (2024)

Intensity-Spatial Dual Masked Autoencoder for Multi-Scale Feature Learning in Chest CT Segmentation
by: Ding, Yuexing, et al.
Published: (2024)

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
by: Cai, Han, et al.
Published: (2022)

MRIFE: A Mask-Recovering and Interactive-Feature-Enhancing Semantic Segmentation Network For Relic Landslide Detection
by: He, Juefei, et al.
Published: (2024)

A Multi-Source Data Fusion-based Semantic Segmentation Model for Relic Landslide Detection
by: Zhou, Yiming, et al.
Published: (2023)

Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity
by: Quan, Ruijie, et al.
Published: (2024)

Multimodal Instruction Tuning with Hybrid State Space Models
by: Zhou, Jianing, et al.
Published: (2024)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model
by: Zhao, Shuai, et al.
Published: (2023)

Conditional Polarization Guidance for Camouflaged Object Detection
by: Zhang, QIfan, et al.
Published: (2026)

General and Task-Oriented Video Segmentation
by: Chen, Mu, et al.
Published: (2024)

Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data
by: Feng, Tuo, et al.
Published: (2024)

Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction
by: Zhang, Xu, et al.
Published: (2025)

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding
by: Xiao, Han, et al.
Published: (2025)

Leveraging Predicate and Triplet Learning for Scene Graph Generation
by: Li, Jiankai, et al.
Published: (2024)

ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
by: Zhu, Ruijie, et al.
Published: (2024)

DreamArt: Generating Interactable Articulated Objects from a Single Image
by: Lu, Ruijie, et al.
Published: (2025)

Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion
by: Miao, Honglei, et al.
Published: (2024)

AudioScenic: Audio-Driven Video Scene Editing
by: Shen, Kaixin, et al.
Published: (2024)

UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models
by: Jiang, Hong, et al.
Published: (2026)

Adversarial-Guided Diffusion for Multimodal LLM Attacks
by: Xia, Chengwei, et al.
Published: (2025)

BrainGuard: Privacy-Preserving Multisubject Image Reconstructions from Brain Activities
by: Tian, Zhibo, et al.
Published: (2025)

Insert Anything: Image Insertion via In-Context Editing in DiT
by: Song, Wensong, et al.
Published: (2025)

CapTalk: Text-Guided Stylization and Speech-Driven 3D Head Animation
by: Chu, Xuangeng, et al.
Published: (2026)

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes
by: Lu, Ruijie, et al.
Published: (2024)

MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation
by: Liu, Ruiyao, et al.
Published: (2026)

TACO: Taming Diffusion for in-the-wild Video Amodal Completion
by: Lu, Ruijie, et al.
Published: (2025)

Thinking in Structures: Evaluating Spatial Intelligence in Constraint-Governed Spaces
by: Yang, Chen, et al.
Published: (2026)

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
by: Lu, Xudong, et al.
Published: (2024)

BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream
by: Li, Wenpu, et al.
Published: (2024)

DetVPCC: RoI-based Point Cloud Sequence Compression for 3D Object Detection
by: Yan, Mingxuan, et al.
Published: (2025)

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation
by: Wang, Xudong, et al.
Published: (2026)

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection
by: Bai, Xuecheng, et al.
Published: (2026)