:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Dai, Yifan, Wu, Zhenhua, Zeng, Bohan, Hua, Daili, Liu, Jialing, Li, Bozhou, Wang, Yuran, Tong, Chengzhuo, Liang, Hao, Ma, Xiaochen, Niu, Junbo, Guo, Tianyu, Shi, Yang, Ding, Yue, Ji, Yiyan, Mei, Bingyin, Guan, Yushuo, Zhang, Yuanxing, Wan, Pengfei, Fu, Fangcheng, Zhang, Wentao
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computation and Language Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2605.22012
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
di: Ding, Yue, et al.
Pubblicazione: (2026)

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
di: Li, Bozhou, et al.
Pubblicazione: (2026)

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
di: Wang, Yuran, et al.
Pubblicazione: (2025)

OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
di: Henry, Felix, et al.
Pubblicazione: (2026)

Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
di: Zeng, Bohan, et al.
Pubblicazione: (2026)

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
di: Li, Bozhou, et al.
Pubblicazione: (2025)

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
di: Li, Caorui, et al.
Pubblicazione: (2025)

The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
di: Li, Bozhou, et al.
Pubblicazione: (2025)

OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
di: Peng, Haosong, et al.
Pubblicazione: (2025)

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search
di: Yu, Tao, et al.
Pubblicazione: (2026)

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
di: Zhang, Guohui, et al.
Pubblicazione: (2026)

VABench: A Comprehensive Benchmark for Audio-Video Generation
di: Hua, Daili, et al.
Pubblicazione: (2025)

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)

OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing
di: Bie, Fuqing, et al.
Pubblicazione: (2025)

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
di: Xie, Tianyu, et al.
Pubblicazione: (2026)

Omni-o3: Deep Nested Omnimodal Deduction for Deliberative Audio-Visual Reasoning
di: Zhang, Zhicheng, et al.
Pubblicazione: (2026)

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
di: Wei, Yujie, et al.
Pubblicazione: (2026)

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
di: Jin, Zhuoran, et al.
Pubblicazione: (2025)

UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities
di: Xu, Xuenan, et al.
Pubblicazione: (2025)

OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
di: Chen, Junzhe, et al.
Pubblicazione: (2025)

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
di: Cheng, Xize, et al.
Pubblicazione: (2024)

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
di: Jia, Yiduo, et al.
Pubblicazione: (2026)

OmniGAIA: Towards Native Omni-Modal AI Agents
di: Li, Xiaoxi, et al.
Pubblicazione: (2026)

OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning
di: Zhu, Boyu, et al.
Pubblicazione: (2025)

OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment
di: Xiao, Teng, et al.
Pubblicazione: (2025)

Is Extending Modality The Right Path Towards Omni-Modality?
di: Zhu, Tinghui, et al.
Pubblicazione: (2025)

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs
di: Tian, Wenjie, et al.
Pubblicazione: (2026)

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
di: Ye, Hanrong, et al.
Pubblicazione: (2025)

Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos
di: Tang, Yuqi, et al.
Pubblicazione: (2026)

Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction
di: He, Chaoqun, et al.
Pubblicazione: (2026)

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation
di: Chen, Yuheng, et al.
Pubblicazione: (2026)

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
di: Li, Bozhou, et al.
Pubblicazione: (2025)

OmniFysics: Towards Physical Intelligence Evolution via Omni-Modal Signal Processing and Network Optimization
di: Han, Minghao, et al.
Pubblicazione: (2026)

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
di: Hirose, Noriaki, et al.
Pubblicazione: (2025)

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
di: Yang, Qize, et al.
Pubblicazione: (2025)

Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
di: Xu, Ke, et al.
Pubblicazione: (2026)

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
di: Zhou, Ziwei, et al.
Pubblicazione: (2025)

VINO: A Unified Visual Generator with Interleaved OmniModal Context
di: Chen, Junyi, et al.
Pubblicazione: (2026)

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
di: Tao, Keda, et al.
Pubblicazione: (2025)

OmniSelect: Dynamic Modality-Aware Token Compression for Efficient Omni-modal Large Language Models
di: Yang, Morunliu, et al.
Pubblicazione: (2026)