Salvato in:
| Autori principali: | Dai, Yifan, Wu, Zhenhua, Zeng, Bohan, Hua, Daili, Liu, Jialing, Li, Bozhou, Wang, Yuran, Tong, Chengzhuo, Liang, Hao, Ma, Xiaochen, Niu, Junbo, Guo, Tianyu, Shi, Yang, Ding, Yue, Ji, Yiyan, Mei, Bingyin, Guan, Yushuo, Zhang, Yuanxing, Wan, Pengfei, Fu, Fangcheng, Zhang, Wentao |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2605.22012 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
di: Ding, Yue, et al.
Pubblicazione: (2026)
di: Ding, Yue, et al.
Pubblicazione: (2026)
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
di: Li, Bozhou, et al.
Pubblicazione: (2026)
di: Li, Bozhou, et al.
Pubblicazione: (2026)
Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
di: Wang, Yuran, et al.
Pubblicazione: (2025)
di: Wang, Yuran, et al.
Pubblicazione: (2025)
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
di: Henry, Felix, et al.
Pubblicazione: (2026)
di: Henry, Felix, et al.
Pubblicazione: (2026)
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
di: Zeng, Bohan, et al.
Pubblicazione: (2026)
di: Zeng, Bohan, et al.
Pubblicazione: (2026)
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
di: Li, Bozhou, et al.
Pubblicazione: (2025)
di: Li, Bozhou, et al.
Pubblicazione: (2025)
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
di: Li, Caorui, et al.
Pubblicazione: (2025)
di: Li, Caorui, et al.
Pubblicazione: (2025)
The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
di: Li, Bozhou, et al.
Pubblicazione: (2025)
di: Li, Bozhou, et al.
Pubblicazione: (2025)
OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
di: Peng, Haosong, et al.
Pubblicazione: (2025)
di: Peng, Haosong, et al.
Pubblicazione: (2025)
Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search
di: Yu, Tao, et al.
Pubblicazione: (2026)
di: Yu, Tao, et al.
Pubblicazione: (2026)
OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation
di: Zhang, Guohui, et al.
Pubblicazione: (2026)
di: Zhang, Guohui, et al.
Pubblicazione: (2026)
VABench: A Comprehensive Benchmark for Audio-Video Generation
di: Hua, Daili, et al.
Pubblicazione: (2025)
di: Hua, Daili, et al.
Pubblicazione: (2025)
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)
di: Tong, Chengzhuo, et al.
Pubblicazione: (2026)
OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing
di: Bie, Fuqing, et al.
Pubblicazione: (2025)
di: Bie, Fuqing, et al.
Pubblicazione: (2025)
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
di: Xie, Tianyu, et al.
Pubblicazione: (2026)
di: Xie, Tianyu, et al.
Pubblicazione: (2026)
Omni-o3: Deep Nested Omnimodal Deduction for Deliberative Audio-Visual Reasoning
di: Zhang, Zhicheng, et al.
Pubblicazione: (2026)
di: Zhang, Zhicheng, et al.
Pubblicazione: (2026)
DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
di: Wei, Yujie, et al.
Pubblicazione: (2026)
di: Wei, Yujie, et al.
Pubblicazione: (2026)
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
di: Jin, Zhuoran, et al.
Pubblicazione: (2025)
di: Jin, Zhuoran, et al.
Pubblicazione: (2025)
UniFlow-Audio: Unified Flow Matching for Audio Generation from Omni-Modalities
di: Xu, Xuenan, et al.
Pubblicazione: (2025)
di: Xu, Xuenan, et al.
Pubblicazione: (2025)
OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
di: Chen, Junzhe, et al.
Pubblicazione: (2025)
di: Chen, Junzhe, et al.
Pubblicazione: (2025)
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
di: Cheng, Xize, et al.
Pubblicazione: (2024)
di: Cheng, Xize, et al.
Pubblicazione: (2024)
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
di: Jia, Yiduo, et al.
Pubblicazione: (2026)
di: Jia, Yiduo, et al.
Pubblicazione: (2026)
OmniGAIA: Towards Native Omni-Modal AI Agents
di: Li, Xiaoxi, et al.
Pubblicazione: (2026)
di: Li, Xiaoxi, et al.
Pubblicazione: (2026)
OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning
di: Zhu, Boyu, et al.
Pubblicazione: (2025)
di: Zhu, Boyu, et al.
Pubblicazione: (2025)
OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment
di: Xiao, Teng, et al.
Pubblicazione: (2025)
di: Xiao, Teng, et al.
Pubblicazione: (2025)
Is Extending Modality The Right Path Towards Omni-Modality?
di: Zhu, Tinghui, et al.
Pubblicazione: (2025)
di: Zhu, Tinghui, et al.
Pubblicazione: (2025)
EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs
di: Tian, Wenjie, et al.
Pubblicazione: (2026)
di: Tian, Wenjie, et al.
Pubblicazione: (2026)
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
di: Ye, Hanrong, et al.
Pubblicazione: (2025)
di: Ye, Hanrong, et al.
Pubblicazione: (2025)
Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos
di: Tang, Yuqi, et al.
Pubblicazione: (2026)
di: Tang, Yuqi, et al.
Pubblicazione: (2026)
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction
di: He, Chaoqun, et al.
Pubblicazione: (2026)
di: He, Chaoqun, et al.
Pubblicazione: (2026)
Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation
di: Chen, Yuheng, et al.
Pubblicazione: (2026)
di: Chen, Yuheng, et al.
Pubblicazione: (2026)
ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
di: Li, Bozhou, et al.
Pubblicazione: (2025)
di: Li, Bozhou, et al.
Pubblicazione: (2025)
OmniFysics: Towards Physical Intelligence Evolution via Omni-Modal Signal Processing and Network Optimization
di: Han, Minghao, et al.
Pubblicazione: (2026)
di: Han, Minghao, et al.
Pubblicazione: (2026)
OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
di: Hirose, Noriaki, et al.
Pubblicazione: (2025)
di: Hirose, Noriaki, et al.
Pubblicazione: (2025)
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
di: Yang, Qize, et al.
Pubblicazione: (2025)
di: Yang, Qize, et al.
Pubblicazione: (2025)
Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
di: Xu, Ke, et al.
Pubblicazione: (2026)
di: Xu, Ke, et al.
Pubblicazione: (2026)
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
di: Zhou, Ziwei, et al.
Pubblicazione: (2025)
di: Zhou, Ziwei, et al.
Pubblicazione: (2025)
VINO: A Unified Visual Generator with Interleaved OmniModal Context
di: Chen, Junyi, et al.
Pubblicazione: (2026)
di: Chen, Junyi, et al.
Pubblicazione: (2026)
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
di: Tao, Keda, et al.
Pubblicazione: (2025)
di: Tao, Keda, et al.
Pubblicazione: (2025)
OmniSelect: Dynamic Modality-Aware Token Compression for Efficient Omni-modal Large Language Models
di: Yang, Morunliu, et al.
Pubblicazione: (2026)
di: Yang, Morunliu, et al.
Pubblicazione: (2026)
Documenti analoghi
-
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
di: Ding, Yue, et al.
Pubblicazione: (2026) -
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
di: Li, Bozhou, et al.
Pubblicazione: (2026) -
Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
di: Wang, Yuran, et al.
Pubblicazione: (2025) -
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
di: Henry, Felix, et al.
Pubblicazione: (2026) -
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
di: Zeng, Bohan, et al.
Pubblicazione: (2026)