:: Library Catalog

Kansikuva

Tallennettuna:

Bibliografiset tiedot
Päätekijät:	Nekrasov, Alexey, Athar, Ali, de Geus, Daan, Hermans, Alexander, Leibe, Bastian
Aineistotyyppi:	Preprint
Julkaistu:	2025
Aiheet:	Computer Vision and Pattern Recognition
Linkit:	https://arxiv.org/abs/2509.19082
Tagit:	Lisää tagi Ei tageja, Lisää ensimmäinen tagi!

Samankaltaisia teoksia

How Important are Videos for Training Video LLMs?
Tekijä: Lydakis, George, et al.
Julkaistu: (2025)

DONUT: A Decoder-Only Model for Trajectory Prediction
Tekijä: Knoche, Markus, et al.
Julkaistu: (2025)

DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation
Tekijä: Knaebel, Karim, et al.
Julkaistu: (2025)

Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
Tekijä: Garcia, Gonzalo Martin, et al.
Julkaistu: (2024)

SaSaSaSa2VA: 2nd Place of the 5th PVUW MeViS-Text Track
Tekijä: Gong, Dengxian, et al.
Julkaistu: (2026)

OoDIS: Anomaly Instance Segmentation and Detection Benchmark
Tekijä: Nekrasov, Alexey, et al.
Julkaistu: (2024)

2nd of the 5th PVUW MeViS-Audio Track: ASR-SaSaSa2VA
Tekijä: Wang, Zhiyu, et al.
Julkaistu: (2026)

The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA
Tekijä: Niu, Quanzhu, et al.
Julkaistu: (2025)

Your ViT is Secretly an Image Segmentation Model
Tekijä: Kerssies, Tommie, et al.
Julkaistu: (2025)

Mask4Former: Mask Transformer for 4D Panoptic Segmentation
Tekijä: Yilmaz, Kadir, et al.
Julkaistu: (2023)

Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding
Tekijä: Yilmaz, Kadir, et al.
Julkaistu: (2026)

MaskTerial: A Foundation Model for Automated 2D Material Flake Detection
Tekijä: Uslu, Jan-Lucas, et al.
Julkaistu: (2024)

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Tekijä: Yuan, Haobo, et al.
Julkaistu: (2025)

Point2Vec for Self-Supervised Representation Learning on Point Clouds
Tekijä: Knaebel, Karim, et al.
Julkaistu: (2023)

SurGe: Improved Surface Geometry in Point Maps
Tekijä: Knaebel, Karim, et al.
Julkaistu: (2026)

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction
Tekijä: Heidrich, Severin, et al.
Julkaistu: (2025)

4th PVUW MeViS 3rd Place Report: Sa2VA
Tekijä: Yuan, Haobo, et al.
Julkaistu: (2025)

Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving
Tekijä: Nekrasov, Alexey, et al.
Julkaistu: (2025)

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
Tekijä: Norouzi, Narges, et al.
Julkaistu: (2026)

Query2Uncertainty: Robust Uncertainty Quantification and Calibration for 3D Object Detection under Distribution Shift
Tekijä: Beemelmanns, Till, et al.
Julkaistu: (2026)

Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track
Tekijä: Hong, Ran, et al.
Julkaistu: (2025)

Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part Representations
Tekijä: de Geus, Daan, et al.
Julkaistu: (2024)

OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting
Tekijä: Piekenbrinck, Jens, et al.
Julkaistu: (2025)

Panoptic-CUDAL: Rural Australia Point Cloud Dataset in Rainy Conditions
Tekijä: Tseng, Tzu-Yun, et al.
Julkaistu: (2025)

An Ordinal Regression Framework for a Deep Learning Based Severity Assessment for Chest Radiographs
Tekijä: Wienholt, Patrick, et al.
Julkaistu: (2024)

MoSa: Motion Generation with Scalable Autoregressive Modeling
Tekijä: Liu, Mengyuan, et al.
Julkaistu: (2025)

Look Gauss, No Pose: Novel View Synthesis using Gaussian Splatting without Accurate Pose Initialization
Tekijä: Schmidt, Christian, et al.
Julkaistu: (2024)

ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers
Tekijä: Norouzi, Narges, et al.
Julkaistu: (2024)

PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
Tekijä: Cavagnero, Niccolò, et al.
Julkaistu: (2026)

How to Benchmark Vision Foundation Models for Semantic Segmentation?
Tekijä: Kerssies, Tommie, et al.
Julkaistu: (2024)

First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation
Tekijä: Kerssies, Tommie, et al.
Julkaistu: (2024)

SaENeRF: Suppressing Artifacts in Event-based Neural Radiance Fields
Tekijä: Wang, Yuanjian, et al.
Julkaistu: (2025)

DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models
Tekijä: Talemi, Niloufar Alipour, et al.
Julkaistu: (2025)

SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer
Tekijä: Liu, Hongda, et al.
Julkaistu: (2025)

SaLF: Sparse Local Fields for Multi-Sensor Rendering in Real-Time
Tekijä: Chen, Yun, et al.
Julkaistu: (2025)

Point-VOS: Pointing Up Video Object Segmentation
Tekijä: Zulfikar, Idil Esen, et al.
Julkaistu: (2024)

DiSa: Saliency-Aware Foreground-Background Disentangled Framework for Open-Vocabulary Semantic Segmentation
Tekijä: Yao, Zhen, et al.
Julkaistu: (2026)

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
Tekijä: Li, Zhengqi, et al.
Julkaistu: (2024)

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation
Tekijä: Mao, Zhenjie, et al.
Julkaistu: (2025)

Exploring the Benefits of Vision Foundation Models for Unsupervised Domain Adaptation
Tekijä: Englert, Brunó B., et al.
Julkaistu: (2024)