:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Zhang, Qin, Jing, Peiyu, Yu, Hong-Xing, Ding, Fangqiang, Nie, Fan, Wang, Weimin, Du, Yilun, Zou, James, Wu, Jiajun, Shuai, Bing
Format:	Preprint
Published:	2026
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2603.19607
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Seeking Physics in Diffusion Noise
by: Tang, Chujun, et al.
Published: (2026)

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
by: Gu, Jing, et al.
Published: (2025)

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
by: Song, Tingyu, et al.
Published: (2025)

Ctrl-VI: Controllable Video Synthesis via Variational Inference
by: Duan, Haoyi, et al.
Published: (2025)

milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing
by: Ding, Fangqiang, et al.
Published: (2023)

EvoLM: In Search of Lost Language Model Training Dynamics
by: Qi, Zhenting, et al.
Published: (2025)

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
by: Yu, Zhaojian, et al.
Published: (2024)

VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
by: Ma, Wentao, et al.
Published: (2025)

How good nnU-Net for Segmenting Cardiac MRI: A Comprehensive Evaluation
by: Gunawardhana, Malitha, et al.
Published: (2024)

ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation
by: Li, Hongjie, et al.
Published: (2024)

Generalizable Reasoning through Compositional Energy Minimization
by: Oarga, Alexandru, et al.
Published: (2025)

SedarEval: Automated Evaluation using Self-Adaptive Rubrics
by: Fan, Zhiyuan, et al.
Published: (2025)

M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction
by: Fan, Junqiao, et al.
Published: (2025)

DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents
by: Zhao, Yilun, et al.
Published: (2023)

PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor
by: Pan, Qianjun, et al.
Published: (2026)

Reasoning with Sampling: Your Base Model is Smarter Than You Think
by: Karan, Aayush, et al.
Published: (2025)

Grounding Video Models to Actions through Goal Conditioned Exploration
by: Luo, Yunhao, et al.
Published: (2024)

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
by: Luo, Zekai, et al.
Published: (2025)

Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation
by: Liu, Jinlin, et al.
Published: (2024)

RadarGen: Automotive Radar Point Cloud Generation from Cameras
by: Borreda, Tomer, et al.
Published: (2025)

RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud
by: Pan, Zhijun, et al.
Published: (2023)

VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model
by: Li, Xinhao, et al.
Published: (2024)

VideoGen-Eval: Agent-based System for Video Generation Evaluation
by: Yang, Yuhang, et al.
Published: (2025)

Design of A Low-Latency and Parallelizable SVD Dataflow Architecture on FPGA
by: Du, Fangqiang, et al.
Published: (2025)

BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation
by: Andreou, Nefeli, et al.
Published: (2024)

The Case against Evaluative Realism
by: Dan LÓPEZ DE SA
Published: (2006)

HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation
by: Zhang, Bingzi, et al.
Published: (2026)

RealWonder: Real-Time Physical Action-Conditioned Video Generation
by: Liu, Wei, et al.
Published: (2026)

Graph-based Semantic Calibration Network for Unaligned UAV RGBT Image Semantic Segmentation and A Large-scale Benchmark
by: Fan, Fangqiang, et al.
Published: (2026)

Temporal Realism Evaluation of Generated Videos Using Compressed-Domain Motion Vectors
by: Cakiroglu, Mert Onur, et al.
Published: (2025)

BotEval: Facilitating Interactive Human Evaluation
by: Cho, Hyundong, et al.
Published: (2024)

VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
by: Yin, Yufei, et al.
Published: (2025)

Learning Iterative Reasoning through Energy Diffusion
by: Du, Yilun, et al.
Published: (2024)

ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images
by: Ding, Fangqiang, et al.
Published: (2024)

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar
by: Ding, Fangqiang, et al.
Published: (2024)

An Integrated Statistical‐Physical‐Machine Learning Framework: Quantifying Human‐Induced Terrestrial Water Storage Loss
by: Yifan Huang, et al.
Published: (2025)

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions
by: Qin, Bowen, et al.
Published: (2025)

Thinking with Spatial Code for Physical-World Video Reasoning
by: Chen, Jieneng, et al.
Published: (2026)

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism
by: Chandna, Bhavik, et al.
Published: (2026)

A2Eval: Agentic and Automated Evaluation for Embodied Brain
by: Zhang, Shuai, et al.
Published: (2026)