:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Yu, Zifan, Tavakoli, Erfan Bank, Chen, Meida, You, Suya, Rao, Raghuveer, Agarwal, Sanjeev, Ren, Fengbo
Format:	Preprint
Published:	2023
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2311.02535
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
by: Li, Ruineng, et al.
Published: (2025)

Green Video Camouflaged Object Detection
by: Wang, Xinyu, et al.
Published: (2025)

Learnable Motion-Focused Tokenization for Effective and Efficient Video Unsupervised Domain Adaptation
by: Liu, Tzu Ling, et al.
Published: (2026)

Language-Guided Transformer Tokenizer for Human Motion Generation
by: Yan, Sheng, et al.
Published: (2026)

Motion Guided Token Compression for Efficient Masked Video Modeling
by: Feng, Yukun, et al.
Published: (2024)

GreenCOD: A Green Camouflaged Object Detection Method
by: Chen, Hong-Shuo, et al.
Published: (2024)

Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection
by: Yao, Siyuan, et al.
Published: (2024)

Explicit Motion Handling and Interactive Prompting for Video Camouflaged Object Detection
by: Zhang, Xin, et al.
Published: (2024)

Token-free Models for Sarcasm Detection
by: Mamtani, Sumit, et al.
Published: (2025)

Mamba-based Spatio-Frequency Motion Perception for Video Camouflaged Object Detection
by: Li, Xin, et al.
Published: (2025)

MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation
by: Wang, Miaowei, et al.
Published: (2026)

Efficient Visual Transformer by Learnable Token Merging
by: Wang, Yancheng, et al.
Published: (2024)

CATP: Confidence-Aware Token Pruning for Camouflaged Object Detection
by: Gao, Yuhan, et al.
Published: (2026)

STPLS3D: A Large-Scale Synthetic and Real Aerial Photogrammetry 3D Point Cloud Dataset
by: Chen, Meida, et al.
Published: (2022)

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers
by: Shi, Dachuan, et al.
Published: (2023)

TokenGS: Decoupling 3D Gaussian Prediction from Pixels with Learnable Tokens
by: Ren, Jiawei, et al.
Published: (2026)

FDCT: Frequency-Aware Decomposition and Cross-Modal Token-Alignment for Multi-Sensor Target Classification
by: Sami, Shoaib Meraj, et al.
Published: (2025)

Prototypical Transformer as Unified Motion Learners
by: Han, Cheng, et al.
Published: (2024)

Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
by: Zheng, Shuhong, et al.
Published: (2026)

Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions
by: Xue, Jintang, et al.
Published: (2025)

FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
by: Zhang, Yunzhu, et al.
Published: (2025)

CamoSAM2: Motion-Appearance Induced Auto-Refining Prompts for Video Camouflaged Object Detection
by: Zhang, Xin, et al.
Published: (2025)

TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles
by: Shoouri, Sara, et al.
Published: (2026)

Unsupervised Cardiac Video Translation Via Motion Feature Guided Diffusion Model
by: Deb, Swakshar, et al.
Published: (2025)

Learnable Item Tokenization for Generative Recommendation
by: Wang, Wenjie, et al.
Published: (2024)

Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection
by: Yang, Nan, et al.
Published: (2025)

Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage
by: Hoque, Shahinul, et al.
Published: (2026)

LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation
by: Jiang, Wentao, et al.
Published: (2024)

Learnable Community-Aware Transformer for Brain Connectome Analysis with Token Clustering
by: Yang, Yanting, et al.
Published: (2024)

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
by: Jin, Yang, et al.
Published: (2024)

ToSA: Token Selective Attention for Efficient Vision Transformers
by: Singh, Manish Kumar, et al.
Published: (2024)

Context-Aware Token Selection and Packing for Enhanced Vision Transformer
by: Zhang, Tianyi, et al.
Published: (2024)

VideoOrion: Tokenizing Object Dynamics in Videos
by: Feng, Yicheng, et al.
Published: (2024)

FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling
by: Guan, Dawei, et al.
Published: (2026)

STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding
by: Chen, Zhifei, et al.
Published: (2025)

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
by: Chen, Yi, et al.
Published: (2024)

MOVE: Motion-Guided Few-Shot Video Object Segmentation
by: Ying, Kaining, et al.
Published: (2025)

Optimality of Motion Camouflage Under Escape Uncertainty
by: Gaspard, Mallory E.
Published: (2024)

DNACHUNKER: Learnable Tokenization for DNA Language Models
by: Kim, Taewon, et al.
Published: (2026)

TinyDrop: Tiny Model Guided Token Dropping for Vision Transformers
by: Wang, Guoxin, et al.
Published: (2025)