:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Lan, Libin, Jiang, Lu, Yu, Tianshu, Liu, Xiaojuan, He, Zhongshi
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2501.00882
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation
von: Lan, Libin, et al.
Veröffentlicht: (2024)

Pubic Symphysis-Fetal Head Segmentation Network Using BiFormer Attention Mechanism and Multipath Dilated Convolution
von: Cai, Pengzhou, et al.
Veröffentlicht: (2024)

MSLAU-Net: A Hybrid CNN-Transformer Network for Medical Image Segmentation
von: Lan, Libin, et al.
Veröffentlicht: (2025)

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation
von: Li, Yanxin, et al.
Veröffentlicht: (2026)

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
von: Ju, Xuan, et al.
Veröffentlicht: (2025)

Pubic Symphysis-Fetal Head Segmentation Using Pure Transformer with Bi-level Routing Attention
von: Cai, Pengzhou, et al.
Veröffentlicht: (2023)

Latent Dynamics for Full Body Avatar Animation
von: Peng, Shichong, et al.
Veröffentlicht: (2026)

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
von: Wang, Huihan, et al.
Veröffentlicht: (2025)

TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
von: Xia, Zunhui, et al.
Veröffentlicht: (2025)

MedFormer: Hierarchical Medical Vision Transformer with Content-Aware Dual Sparse Selection Attention
von: Xia, Zunhui, et al.
Veröffentlicht: (2025)

FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers
von: He, Xuanhua, et al.
Veröffentlicht: (2025)

YOLO-PRO: Enhancing Instance-Specific Object Detection with Full-Channel Global Self-Attention
von: Huang, Lin, et al.
Veröffentlicht: (2025)

DSSAU-Net:U-Shaped Hybrid Network for Pubic Symphysis and Fetal Head Segmentation
von: Xia, Zunhui, et al.
Veröffentlicht: (2025)

HierSum: A Global and Local Attention Mechanism for Video Summarization
von: Beedu, Apoorva, et al.
Veröffentlicht: (2025)

Towards Scale-Aware Full Surround Monodepth with Transformers
von: Yang, Yuchen, et al.
Veröffentlicht: (2024)

Native 3D Editing with Full Attention
von: Cai, Weiwei, et al.
Veröffentlicht: (2025)

DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation
von: Lan, Libin, et al.
Veröffentlicht: (2025)

Global-Local Medical SAM Adaptor Based on Full Adaption
von: Wang, Meng, et al.
Veröffentlicht: (2024)

TransLocNet: Cross-Modal Attention for Aerial-Ground Vehicle Localization with Contrastive Learning
von: Pham, Phu, et al.
Veröffentlicht: (2025)

Full-Duplex Strategy for Video Object Segmentation
von: Ji, Ge-Peng, et al.
Veröffentlicht: (2021)

Veda: Scalable Video Diffusion via Distilled Sparse Attention
von: Han, Shihao, et al.
Veröffentlicht: (2026)

CSTA: CNN-based Spatiotemporal Attention for Video Summarization
von: Son, Jaewon, et al.
Veröffentlicht: (2024)

CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion
von: Guo, Yaowei, et al.
Veröffentlicht: (2025)

Towards Polyp Counting In Full-Procedure Colonoscopy Videos
von: Parolari, Luca, et al.
Veröffentlicht: (2025)

High-Speed FHD Full-Color Video Computer-Generated Holography
von: Zhang, Haomiao, et al.
Veröffentlicht: (2025)

Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data
von: Ma, Wufei, et al.
Veröffentlicht: (2024)

iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation
von: Wang, Hanxiao, et al.
Veröffentlicht: (2025)

Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics
von: Cho, Woojin, et al.
Veröffentlicht: (2024)

Harnessing Meta-Learning for Controllable Full-Frame Video Stabilization
von: Ali, Muhammad Kashif, et al.
Veröffentlicht: (2025)

Harnessing Meta-Learning for Improving Full-Frame Video Stabilization
von: Ali, Muhammad Kashif, et al.
Veröffentlicht: (2024)

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis
von: Wan, Hui, et al.
Veröffentlicht: (2026)

Local-Global Temporal Difference Learning for Satellite Video Super-Resolution
von: Xiao, Yi, et al.
Veröffentlicht: (2023)

Towards Imbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation
von: Yu, Tianshu, et al.
Veröffentlicht: (2023)

FrequencyBooster: Full-Frequency Modeling for High-Fidelity Pixel Diffusion
von: Ma, Lichen, et al.
Veröffentlicht: (2026)

TranStable: Towards Robust Pixel-level Online Video Stabilization by Jointing Transformer and CNN
von: li, zhizhen, et al.
Veröffentlicht: (2025)

Global2Local: A Joint-Hierarchical Attention for Video Captioning
von: Dai, Chengpeng, et al.
Veröffentlicht: (2022)

FullPart: Generating each 3D Part at Full Resolution
von: Ding, Lihe, et al.
Veröffentlicht: (2025)

FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers
von: Yuan, Zheng, et al.
Veröffentlicht: (2024)

Lightweight Full-Convolutional Siamese Tracker
von: Li, Yunfeng, et al.
Veröffentlicht: (2023)

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer
von: Tang, Xiaoya, et al.
Veröffentlicht: (2025)