:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Hong, Jiacheng, Wu, Kunzhen, Yu, Mingrui, Gu, Yichao, Xue, Shengze, Xiao, Shuangjiu, Dong, Deli
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Multimedia
Accès en ligne:	https://arxiv.org/abs/2510.27148
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Real-Time Interactive Hybrid Ocean: Spectrum-Consistent Wave Particle-FFT Coupling
par: Xue, Shengze, et autres
Publié: (2025)

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation
par: Dong, Wenqi, et autres
Publié: (2025)

GTLR-GS: Geometry-Texture Aware LiDAR-Regularized 3D Gaussian Splatting for Realistic Scene Reconstruction
par: Fang, Yan, et autres
Publié: (2026)

Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
par: Zhou, Qianrui, et autres
Publié: (2026)

Traits Run Deep: Enhancing Personality Assessment via Psychology-Guided LLM Representations and Multimodal Apparent Behaviors
par: Li, Jia, et autres
Publié: (2025)

HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection
par: Jung, Juho, et autres
Publié: (2024)

Multi-modal and Metadata Capture Model for Micro Video Popularity Prediction
par: Lu, Jiacheng, et autres
Publié: (2025)

Automated Radiology Report Generation Based on Topic-Keyword Semantic Guidance
par: Xiao, Jing, et autres
Publié: (2025)

Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation
par: Zhang, Xuesong, et autres
Publié: (2024)

DiffCL: A Diffusion-Based Contrastive Learning Framework with Semantic Alignment for Multimodal Recommendations
par: Song, Qiya, et autres
Publié: (2025)

L3GS: Layered 3D Gaussian Splats for Efficient 3D Scene Delivery
par: Tsai, Yi-Zhen, et autres
Publié: (2025)

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding
par: Zhang, Zhenxing, et autres
Publié: (2024)

AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework
par: Zhang, Suoxiang, et autres
Publié: (2025)

Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions
par: Zhang, Rui, et autres
Publié: (2024)

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression
par: Xiong, Haoxuan, et autres
Publié: (2026)

Short-Form Video Viewing Behavior Analysis and Multi-Step Viewing Time Prediction
par: Yen, Vu Thi Hai, et autres
Publié: (2026)

CPSL: Representing Volumetric Video via Content-Promoted Scene Layers
par: Hu, Kaiyuan, et autres
Publié: (2025)

SRA: Semantic Relation-Aware Flowchart Question Answering
par: Li, Xinyu, et autres
Publié: (2026)

Voxel-GS: Quantized Scaffold Gaussian Splatting Compression with Run-Length Coding
par: Fu, Chunyang, et autres
Publié: (2025)

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving
par: Min, Chen, et autres
Publié: (2023)

HiGS: A Hierarchical Rendering Architecture for Real-Time 3D Gaussian Splatting
par: Pająk, Dawid, et autres
Publié: (2026)

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries
par: You, Qijie, et autres
Publié: (2026)

Robust Symbolic Reasoning for Visual Narratives via Hierarchical and Semantically Normalized Knowledge Graphs
par: Chen, Yi-Chun
Publié: (2025)

M3TR: Temporal Retrieval Enhanced Multi-Modal Micro-video Popularity Prediction
par: Lu, Jiacheng, et autres
Publié: (2024)

MViR: Multi-View Visual-Semantic Representation for Fake News Detection
par: Liang, Haochen, et autres
Publié: (2026)

CineAGI: Character-Consistent Movie Creation through LLM-Orchestrated Multi-Modal Generation and Cross-Scene Integration
par: Xie, Tianyidan, et autres
Publié: (2026)

Multi Agents Semantic Emotion Aligned Music to Image Generation with Music Derived Captions
par: Shi, Junchang, et autres
Publié: (2025)

ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models
par: Liu, Shuo, et autres
Publié: (2024)

GaussianForest: Hierarchical-Hybrid 3D Gaussian Splatting for Compressed Scene Modeling
par: Zhang, Fengyi, et autres
Publié: (2024)

ProMSC-MIS: Prompt-based Multimodal Semantic Communication for Multi-Spectral Image Segmentation
par: Zhang, Haoshuo, et autres
Publié: (2025)

SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions
par: Sbrolli, Cristian, et autres
Publié: (2025)

Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis
par: Dong, Guangyuan, et autres
Publié: (2026)

Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions
par: Zhang, Xiao, et autres
Publié: (2025)

Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
par: Li, Yanjun, et autres
Publié: (2025)

ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction of Dynamic Scenes
par: Fu, Jiaye, et autres
Publié: (2025)

SimLabel: Similarity-Weighted Iterative Framework for Multi-annotator Learning with Missing Annotations
par: Zhang, Liyun, et autres
Publié: (2025)

Step-Aware Residual-Guided Diffusion for EEG Spatial Super-Resolution
par: Liu, Hongjun, et autres
Publié: (2025)

Think before You Leap: Content-Aware Low-Cost Edge-Assisted Video Semantic Segmentation
par: Yan, Mingxuan, et autres
Publié: (2024)

STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment
par: Ren, Yong, et autres
Publié: (2024)

Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration
par: Xie, Siyi, et autres
Publié: (2025)