:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Lei, Xing, Liu, Longjun, Zhou, Zhiheng, Sun, Hongbin, Zheng, Nanning
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2403.06352
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation
von: Gao, Ning, et al.
Veröffentlicht: (2024)

Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D Object Detection
von: Huang, Yuhao, et al.
Veröffentlicht: (2023)

Exploring Architectures for CNN-Based Word Spotting
von: Rusakov, Eugen, et al.
Veröffentlicht: (2018)

FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers
von: Su, Haisheng, et al.
Veröffentlicht: (2025)

Leveraging Anchor-based LiDAR 3D Object Detection via Point Assisted Sample Selection
von: Chen, Shitao, et al.
Veröffentlicht: (2024)

Learning to Infer Unseen Single-/Multi-Attribute-Object Compositions with Graph Networks
von: Chen, Hui, et al.
Veröffentlicht: (2020)

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection
von: Ding, Rui, et al.
Veröffentlicht: (2026)

Beyond the Embedding Bottleneck: Adaptive Retrieval-Augmented 3D CT Report Generation
von: Liang, Renjie, et al.
Veröffentlicht: (2026)

Sketch-to-Architecture: Generative AI-aided Architectural Design
von: Li, Pengzhi, et al.
Veröffentlicht: (2024)

EVA: Mixture-of-Experts Semantic Variant Alignment for Compositional Zero-Shot Learning
von: Zhang, Xiao, et al.
Veröffentlicht: (2025)

HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image Segmentation
von: Xing, Zhaohu, et al.
Veröffentlicht: (2023)

Robust Noisy Label Learning via Two-Stream Sample Distillation
von: Bai, Sihan, et al.
Veröffentlicht: (2024)

Hardware-Friendly Static Quantization Method for Video Diffusion Transformers
von: Yi, Sanghyun, et al.
Veröffentlicht: (2025)

CNN-JEPA: Self-Supervised Pretraining Convolutional Neural Networks Using Joint Embedding Predictive Architecture
von: Kalapos, András, et al.
Veröffentlicht: (2024)

DAMap: Distance-aware MapNet for High Quality HD Map Construction
von: Dong, Jinpeng, et al.
Veröffentlicht: (2025)

StructVPR++: Distill Structural and Semantic Knowledge with Weighting Samples for Visual Place Recognition
von: Shen, Yanqing, et al.
Veröffentlicht: (2025)

SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud Tracking
von: Lin, Yu, et al.
Veröffentlicht: (2024)

Cross-Task Benchmarking of CNN Architectures
von: Sherawat, Kamal, et al.
Veröffentlicht: (2026)

A Compact Hybrid Convolution--Frequency State Space Network for Learned Image Compression
von: Pan, Haodong, et al.
Veröffentlicht: (2025)

GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance
von: Pan, Yueming, et al.
Veröffentlicht: (2026)

GIC-DLC: Differentiable Logic Circuits for Hardware-Friendly Grayscale Image Compression
von: Aczel, Till, et al.
Veröffentlicht: (2026)

See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI
von: Liu, Yulong, et al.
Veröffentlicht: (2024)

Unsupervised Domain Adaption Harnessing Vision-Language Pre-training
von: Zhou, Wenlve, et al.
Veröffentlicht: (2024)

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers
von: Pham, Trung X., et al.
Veröffentlicht: (2026)

VFM-VAE: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models
von: Bi, Tianci, et al.
Veröffentlicht: (2025)

UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space
von: Yang, Panqi, et al.
Veröffentlicht: (2025)

FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training
von: Cao, Anjia, et al.
Veröffentlicht: (2024)

LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake Extraction from Remote Sensing Imagery
von: Chen, Ben, et al.
Veröffentlicht: (2023)

Iterative Filter Pruning for Concatenation-based CNN Architectures
von: Pavlitska, Svetlana, et al.
Veröffentlicht: (2024)

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images
von: Shen, Yanqing, et al.
Veröffentlicht: (2025)

Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
von: Li, Huan, et al.
Veröffentlicht: (2025)

Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation
von: Zhang, Hao, et al.
Veröffentlicht: (2024)

A Comparative Study of Adversarial Robustness in CNN and CNN-ANFIS Architectures
von: Shankar, Kaaustaaub, et al.
Veröffentlicht: (2026)

Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation
von: Narayan, Ishan
Veröffentlicht: (2026)

Information Bottleneck Approach to Spatial Attention Learning
von: Lai, Qiuxia, et al.
Veröffentlicht: (2021)

Editable Concept Bottleneck Models
von: Hu, Lijie, et al.
Veröffentlicht: (2024)

Cascaded Robust Rectification for Arbitrary Document Images
von: Wang, Chaoyun, et al.
Veröffentlicht: (2025)

Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
von: Endo, Mark, et al.
Veröffentlicht: (2025)

MambaVesselNet++: A Hybrid CNN-Mamba Architecture for Medical Image Segmentation
von: Xu, Qing, et al.
Veröffentlicht: (2025)

One-Shot Multilingual Font Generation Via ViT
von: Wang, Zhiheng, et al.
Veröffentlicht: (2024)