Enregistré dans:
| Auteurs principaux: | Xiao, Liu, Zhiyuan, Li, Yueyu, Lin |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2504.14260 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
State Tuning: State-based Test-Time Scaling on RWKV-7
par: Xiao, Liu, et autres
Publié: (2025)
par: Xiao, Liu, et autres
Publié: (2025)
Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner
par: Xiao, Liu, et autres
Publié: (2025)
par: Xiao, Liu, et autres
Publié: (2025)
VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
par: Li, Zihang, et autres
Publié: (2024)
par: Li, Zihang, et autres
Publié: (2024)
VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
par: Hou, Haowen, et autres
Publié: (2024)
par: Hou, Haowen, et autres
Publié: (2024)
RWKV-PCSSC: Exploring RWKV Model for Point Cloud Semantic Scene Completion
par: He, Wenzhe, et autres
Publié: (2025)
par: He, Wenzhe, et autres
Publié: (2025)
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models
par: Fei, Zhengcong, et autres
Publié: (2024)
par: Fei, Zhengcong, et autres
Publié: (2024)
FS-RWKV: Leveraging Frequency Spatial-Aware RWKV for 3T-to-7T MRI Translation
par: Lei, Yingtie, et autres
Publié: (2025)
par: Lei, Yingtie, et autres
Publié: (2025)
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures
par: Duan, Yuchen, et autres
Publié: (2024)
par: Duan, Yuchen, et autres
Publié: (2024)
PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
par: He, Qingdong, et autres
Publié: (2024)
par: He, Qingdong, et autres
Publié: (2024)
WuNeng: Hybrid State with Attention
par: Xiao, Liu, et autres
Publié: (2025)
par: Xiao, Liu, et autres
Publié: (2025)
Video RWKV:Video Action Recognition Based RWKV
par: Yin, Zhuowen, et autres
Publié: (2024)
par: Yin, Zhuowen, et autres
Publié: (2024)
Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
par: Chen, Wei, et autres
Publié: (2024)
par: Chen, Wei, et autres
Publié: (2024)
Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing
par: Zheng, Lirong, et autres
Publié: (2025)
par: Zheng, Lirong, et autres
Publié: (2025)
StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture
par: Dai, Miaomiao, et autres
Publié: (2024)
par: Dai, Miaomiao, et autres
Publié: (2024)
Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV
par: Yang, Zhiwen, et autres
Publié: (2024)
par: Yang, Zhiwen, et autres
Publié: (2024)
VideoXum: Cross-modal Visual and Textural Summarization of Videos
par: Lin, Jingyang, et autres
Publié: (2023)
par: Lin, Jingyang, et autres
Publié: (2023)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
par: Wang, Yabing, et autres
Publié: (2024)
par: Wang, Yabing, et autres
Publié: (2024)
GLEAM: Learning to Match and Explain in Cross-View Geo-Localization
par: Lu, Xudong, et autres
Publié: (2025)
par: Lu, Xudong, et autres
Publié: (2025)
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
par: Qi, Ji, et autres
Publié: (2025)
par: Qi, Ji, et autres
Publié: (2025)
Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal
par: Wang, Yuhao, et autres
Publié: (2024)
par: Wang, Yuhao, et autres
Publié: (2024)
Cross-Modal Retrieval for Motion and Text via DropTriple Loss
par: Yan, Sheng, et autres
Publié: (2023)
par: Yan, Sheng, et autres
Publié: (2023)
MRT: Learning Compact Representations with Mixed RWKV-Transformer for Extreme Image Compression
par: Liu, Han, et autres
Publié: (2025)
par: Liu, Han, et autres
Publié: (2025)
VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
par: Sun, Yubo, et autres
Publié: (2025)
par: Sun, Yubo, et autres
Publié: (2025)
CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions
par: Huang, Yuchen, et autres
Publié: (2025)
par: Huang, Yuchen, et autres
Publié: (2025)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
par: Zhang, Yanghai, et autres
Publié: (2024)
par: Zhang, Yanghai, et autres
Publié: (2024)
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
par: Zhou, Li, et autres
Publié: (2025)
par: Zhou, Li, et autres
Publié: (2025)
RWKV-CLIP: A Robust Vision-Language Representation Learner
par: Gu, Tiancheng, et autres
Publié: (2024)
par: Gu, Tiancheng, et autres
Publié: (2024)
Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
par: Cheng, Hao, et autres
Publié: (2025)
par: Cheng, Hao, et autres
Publié: (2025)
FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval
par: Xie, Jingyou, et autres
Publié: (2024)
par: Xie, Jingyou, et autres
Publié: (2024)
Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
par: Cai, Rui, et autres
Publié: (2024)
par: Cai, Rui, et autres
Publié: (2024)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
par: Zhu, Tinghui, et autres
Publié: (2024)
par: Zhu, Tinghui, et autres
Publié: (2024)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
par: Huang, Qidong, et autres
Publié: (2024)
par: Huang, Qidong, et autres
Publié: (2024)
Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts
par: Chen, Yingfa, et autres
Publié: (2024)
par: Chen, Yingfa, et autres
Publié: (2024)
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers
par: Shi, Dachuan, et autres
Publié: (2023)
par: Shi, Dachuan, et autres
Publié: (2023)
Cross-modal Causal Relation Alignment for Video Question Grounding
par: Chen, Weixing, et autres
Publié: (2025)
par: Chen, Weixing, et autres
Publié: (2025)
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models
par: Zhu, Minjie, et autres
Publié: (2024)
par: Zhu, Minjie, et autres
Publié: (2024)
URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration
par: Xu, Rui, et autres
Publié: (2025)
par: Xu, Rui, et autres
Publié: (2025)
Beyond Quadratic: Linear-Time Change Detection with RWKV
par: Yang, Zhenyu, et autres
Publié: (2026)
par: Yang, Zhenyu, et autres
Publié: (2026)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
par: Hu, Jinyi, et autres
Publié: (2023)
par: Hu, Jinyi, et autres
Publié: (2023)
ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
par: Liu, Wenjie, et autres
Publié: (2026)
par: Liu, Wenjie, et autres
Publié: (2026)
Documents similaires
-
State Tuning: State-based Test-Time Scaling on RWKV-7
par: Xiao, Liu, et autres
Publié: (2025) -
Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner
par: Xiao, Liu, et autres
Publié: (2025) -
VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
par: Li, Zihang, et autres
Publié: (2024) -
VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
par: Hou, Haowen, et autres
Publié: (2024) -
RWKV-PCSSC: Exploring RWKV Model for Point Cloud Semantic Scene Completion
par: He, Wenzhe, et autres
Publié: (2025)