:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Xiao, Liu, Zhiyuan, Li, Yueyu, Lin
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Computation and Language
Accès en ligne:	https://arxiv.org/abs/2504.14260
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

State Tuning: State-based Test-Time Scaling on RWKV-7
par: Xiao, Liu, et autres
Publié: (2025)

Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner
par: Xiao, Liu, et autres
Publié: (2025)

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
par: Li, Zihang, et autres
Publié: (2024)

VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
par: Hou, Haowen, et autres
Publié: (2024)

RWKV-PCSSC: Exploring RWKV Model for Point Cloud Semantic Scene Completion
par: He, Wenzhe, et autres
Publié: (2025)

Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models
par: Fei, Zhengcong, et autres
Publié: (2024)

FS-RWKV: Leveraging Frequency Spatial-Aware RWKV for 3T-to-7T MRI Translation
par: Lei, Yingtie, et autres
Publié: (2025)

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures
par: Duan, Yuchen, et autres
Publié: (2024)

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
par: He, Qingdong, et autres
Publié: (2024)

WuNeng: Hybrid State with Attention
par: Xiao, Liu, et autres
Publié: (2025)

Video RWKV:Video Action Recognition Based RWKV
par: Yin, Zhuowen, et autres
Publié: (2024)

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
par: Chen, Wei, et autres
Publié: (2024)

Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing
par: Zheng, Lirong, et autres
Publié: (2025)

StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture
par: Dai, Miaomiao, et autres
Publié: (2024)

Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV
par: Yang, Zhiwen, et autres
Publié: (2024)

VideoXum: Cross-modal Visual and Textural Summarization of Videos
par: Lin, Jingyang, et autres
Publié: (2023)

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
par: Wang, Yabing, et autres
Publié: (2024)

GLEAM: Learning to Match and Explain in Cross-View Geo-Localization
par: Lu, Xudong, et autres
Publié: (2025)

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
par: Qi, Ji, et autres
Publié: (2025)

Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal
par: Wang, Yuhao, et autres
Publié: (2024)

Cross-Modal Retrieval for Motion and Text via DropTriple Loss
par: Yan, Sheng, et autres
Publié: (2023)

MRT: Learning Compact Representations with Mixed RWKV-Transformer for Extreme Image Compression
par: Liu, Han, et autres
Publié: (2025)

VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
par: Sun, Yubo, et autres
Publié: (2025)

CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions
par: Huang, Yuchen, et autres
Publié: (2025)

Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization
par: Zhang, Yanghai, et autres
Publié: (2024)

Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation
par: Zhou, Li, et autres
Publié: (2025)

RWKV-CLIP: A Robust Vision-Language Representation Learner
par: Gu, Tiancheng, et autres
Publié: (2024)

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
par: Cheng, Hao, et autres
Publié: (2025)

FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval
par: Xie, Jingyou, et autres
Publié: (2024)

Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
par: Cai, Rui, et autres
Publié: (2024)

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models
par: Zhu, Tinghui, et autres
Publié: (2024)

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
par: Huang, Qidong, et autres
Publié: (2024)

Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts
par: Chen, Yingfa, et autres
Publié: (2024)

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers
par: Shi, Dachuan, et autres
Publié: (2023)

Cross-modal Causal Relation Alignment for Video Question Grounding
par: Chen, Weixing, et autres
Publié: (2025)

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models
par: Zhu, Minjie, et autres
Publié: (2024)

URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration
par: Xu, Rui, et autres
Publié: (2025)

Beyond Quadratic: Linear-Time Change Detection with RWKV
par: Yang, Zhenyu, et autres
Publié: (2026)

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
par: Hu, Jinyi, et autres
Publié: (2023)

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
par: Liu, Wenjie, et autres
Publié: (2026)