Salvato in:
| Autori principali: | Gurbuz, A. Said, Hong, Sunghwan, Nassar, Ahmed, Pollefeys, Marc, Staar, Peter |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2602.14276 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models
di: Gröpl, Marcel, et al.
Pubblicazione: (2026)
di: Gröpl, Marcel, et al.
Pubblicazione: (2026)
TORA: Topological Representation Alignment for 3D Shape Assembly
di: Lee, Nahyuk, et al.
Pubblicazione: (2026)
di: Lee, Nahyuk, et al.
Pubblicazione: (2026)
Beyond Masks: The Case for Medical Image Parsing
di: Gupta, Siddharth, et al.
Pubblicazione: (2026)
di: Gupta, Siddharth, et al.
Pubblicazione: (2026)
ParseBench: A Document Parsing Benchmark for AI Agents
di: Zhang, Boyang, et al.
Pubblicazione: (2026)
di: Zhang, Boyang, et al.
Pubblicazione: (2026)
ParseCaps: An Interpretable Parsing Capsule Network for Medical Image Diagnosis
di: Geng, Xinyu, et al.
Pubblicazione: (2024)
di: Geng, Xinyu, et al.
Pubblicazione: (2024)
MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures
di: Strohmeyer, Tim, et al.
Pubblicazione: (2026)
di: Strohmeyer, Tim, et al.
Pubblicazione: (2026)
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
di: Nassar, Ahmed, et al.
Pubblicazione: (2025)
di: Nassar, Ahmed, et al.
Pubblicazione: (2025)
Guideline2Graph: Profile-Aware Multimodal Parsing for Executable Clinical Decision Graphs
di: Kilic, Onur Selim, et al.
Pubblicazione: (2026)
di: Kilic, Onur Selim, et al.
Pubblicazione: (2026)
Reinforced Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
di: Gao, Yongbiao, et al.
Pubblicazione: (2024)
di: Gao, Yongbiao, et al.
Pubblicazione: (2024)
Logics-Parsing Technical Report
di: Chen, Xiangyang, et al.
Pubblicazione: (2025)
di: Chen, Xiangyang, et al.
Pubblicazione: (2025)
Leveraging Multi-View Weak Supervision for Occlusion-Aware Multi-Human Parsing
di: Bragagnolo, Laura, et al.
Pubblicazione: (2025)
di: Bragagnolo, Laura, et al.
Pubblicazione: (2025)
MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures
di: Morin, Lucas, et al.
Pubblicazione: (2025)
di: Morin, Lucas, et al.
Pubblicazione: (2025)
UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
di: Zhang, Jiaxi, et al.
Pubblicazione: (2026)
di: Zhang, Jiaxi, et al.
Pubblicazione: (2026)
MolGrapher: Graph-based Visual Recognition of Chemical Structures
di: Morin, Lucas, et al.
Pubblicazione: (2023)
di: Morin, Lucas, et al.
Pubblicazione: (2023)
Intelligent Parsing: An Automated Parsing Framework for Extracting Design Semantics from E-commerce Creatives
di: Li, Guandong, et al.
Pubblicazione: (2023)
di: Li, Guandong, et al.
Pubblicazione: (2023)
Multimodal OCR: Parse Anything from Documents
di: Zheng, Handong, et al.
Pubblicazione: (2026)
di: Zheng, Handong, et al.
Pubblicazione: (2026)
PSGait: Gait Recognition using Parsing Skeleton
di: Xu, Hangrui, et al.
Pubblicazione: (2025)
di: Xu, Hangrui, et al.
Pubblicazione: (2025)
SCHNet: SAM Marries CLIP for Human Parsing
di: Liu, Kunliang, et al.
Pubblicazione: (2025)
di: Liu, Kunliang, et al.
Pubblicazione: (2025)
Explore Human Parsing Modality for Action Recognition
di: Liu, Jinfu, et al.
Pubblicazione: (2024)
di: Liu, Jinfu, et al.
Pubblicazione: (2024)
Learning AND-OR Templates for Professional Photograph Parsing and Guidance
di: Jin, Xin, et al.
Pubblicazione: (2024)
di: Jin, Xin, et al.
Pubblicazione: (2024)
DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization
di: Huang, Jianxin, et al.
Pubblicazione: (2025)
di: Huang, Jianxin, et al.
Pubblicazione: (2025)
EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing
di: Li, Huilai, et al.
Pubblicazione: (2026)
di: Li, Huilai, et al.
Pubblicazione: (2026)
Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing
di: Chen, Yaru, et al.
Pubblicazione: (2025)
di: Chen, Yaru, et al.
Pubblicazione: (2025)
Occlusion-Aware Deep Convolutional Neural Network via Homogeneous Tanh-transforms for Face Parsing
di: Qiua, Jianhua, et al.
Pubblicazione: (2023)
di: Qiua, Jianhua, et al.
Pubblicazione: (2023)
DisFaceRep: Representation Disentanglement for Co-occurring Facial Components in Weakly Supervised Face Parsing
di: Wang, Xiaoqin, et al.
Pubblicazione: (2025)
di: Wang, Xiaoqin, et al.
Pubblicazione: (2025)
Unsupervised Collaborative Domain Adaptation for Driving Scene Parsing
di: Fan, Jiahe, et al.
Pubblicazione: (2026)
di: Fan, Jiahe, et al.
Pubblicazione: (2026)
Synthetically Trained Icon Proposals for Parsing and Summarizing Infographics
di: Madan, Spandan, et al.
Pubblicazione: (2018)
di: Madan, Spandan, et al.
Pubblicazione: (2018)
Parsing Objects at a Finer Granularity: A Survey
di: Zhao, Yifan, et al.
Pubblicazione: (2022)
di: Zhao, Yifan, et al.
Pubblicazione: (2022)
EasyPortrait -- Face Parsing and Portrait Segmentation Dataset
di: Kvanchiani, Karina, et al.
Pubblicazione: (2023)
di: Kvanchiani, Karina, et al.
Pubblicazione: (2023)
Dictionary-based Framework for Interpretable and Consistent Object Parsing
di: Zhang, Tiezheng, et al.
Pubblicazione: (2025)
di: Zhang, Tiezheng, et al.
Pubblicazione: (2025)
Graph-Boosted Attentive Network for Semantic Body Parsing
di: Wang, Tinghuai, et al.
Pubblicazione: (2024)
di: Wang, Tinghuai, et al.
Pubblicazione: (2024)
CreatiParser: Generative Image Parsing of Raster Graphic Designs into Editable Layers
di: Chen, Weidong, et al.
Pubblicazione: (2026)
di: Chen, Weidong, et al.
Pubblicazione: (2026)
Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling
di: Zhou, Jinxing, et al.
Pubblicazione: (2024)
di: Zhou, Jinxing, et al.
Pubblicazione: (2024)
SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing
di: Jing, Hongyi, et al.
Pubblicazione: (2025)
di: Jing, Hongyi, et al.
Pubblicazione: (2025)
CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing
di: Sardari, Faegheh, et al.
Pubblicazione: (2024)
di: Sardari, Faegheh, et al.
Pubblicazione: (2024)
Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting
di: Feng, Hao, et al.
Pubblicazione: (2026)
di: Feng, Hao, et al.
Pubblicazione: (2026)
Efficient Document Parsing via Parallel Token Prediction
di: Li, Lei, et al.
Pubblicazione: (2026)
di: Li, Lei, et al.
Pubblicazione: (2026)
SceneParser: Hierarchical Scene Parsing for Visual Semantics Understanding
di: Xu, Pengxin, et al.
Pubblicazione: (2026)
di: Xu, Pengxin, et al.
Pubblicazione: (2026)
Deep Learning Technique for Human Parsing: A Survey and Outlook
di: Yang, Lu, et al.
Pubblicazione: (2023)
di: Yang, Lu, et al.
Pubblicazione: (2023)
Traffic Scene Parsing through the TSP6K Dataset
di: Jiang, Peng-Tao, et al.
Pubblicazione: (2023)
di: Jiang, Peng-Tao, et al.
Pubblicazione: (2023)
Documenti analoghi
-
Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models
di: Gröpl, Marcel, et al.
Pubblicazione: (2026) -
TORA: Topological Representation Alignment for 3D Shape Assembly
di: Lee, Nahyuk, et al.
Pubblicazione: (2026) -
Beyond Masks: The Case for Medical Image Parsing
di: Gupta, Siddharth, et al.
Pubblicazione: (2026) -
ParseBench: A Document Parsing Benchmark for AI Agents
di: Zhang, Boyang, et al.
Pubblicazione: (2026) -
ParseCaps: An Interpretable Parsing Capsule Network for Medical Image Diagnosis
di: Geng, Xinyu, et al.
Pubblicazione: (2024)