:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Qi, Zelu, Shi, Ping, Wang, Shuqi, Zhang, Chaoyang, Zhao, Fei, Ying, Zefeng, Pan, Da, Yang, Xi, He, Zheqi, Dai, Teng
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2501.08545
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model
by: Qi, Zelu, et al.
Published: (2025)

Research on Audio-Visual Quality Assessment Dataset and Method for User-Generated Omnidirectional Video
by: Zhao, Fei, et al.
Published: (2025)

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o
by: Tong, Tony Cheng, et al.
Published: (2024)

Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs
by: Liu, Xuannan, et al.
Published: (2025)

ISSE: An Instruction-Guided Speech Style Editing Dataset And Benchmark
by: Chen, Yun, et al.
Published: (2025)

MusicScore: A Dataset for Music Score Modeling and Generation
by: Lin, Yuheng, et al.
Published: (2024)

MSRBench: A Benchmarking Dataset for Music Source Restoration
by: Zang, Yongyi, et al.
Published: (2025)

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models
by: Yao, Xincheng, et al.
Published: (2026)

Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark
by: Liu, Ying, et al.
Published: (2025)

V2V: Scaling Event-Based Vision through Efficient Video-to-Voxel Simulation
by: Lou, Hanyue, et al.
Published: (2025)

CamI2V: Camera-Controlled Image-to-Video Diffusion Model
by: Zheng, Guangcong, et al.
Published: (2024)

Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs
by: Lv, Zheqi, et al.
Published: (2025)

EasyV2V: A High-quality Instruction-based Video Editing Framework
by: Mai, Jinjie, et al.
Published: (2025)

Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric
by: Zhang, Zhichao, et al.
Published: (2024)

RealCam-Vid: High-resolution Video Dataset with Dynamic Scenes and Metric-scale Camera Movements
by: Zheng, Guangcong, et al.
Published: (2025)

Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method
by: He, Peisong, et al.
Published: (2024)

EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
by: Li, Runjia, et al.
Published: (2025)

Benchmarking Continuous Dynamic Multi-Objective Optimization: Survey and Generalized Test Suite
by: Shao, Chang, et al.
Published: (2026)

Benchmark^2: Systematic Evaluation of LLM Benchmarks
by: Qian, Qi, et al.
Published: (2026)

CellFMCount: A Fluorescence Microscopy Dataset, Benchmark, and Methods for Cell Counting
by: Mohammed, Abdurahman Ali, et al.
Published: (2025)

GPT-generated Text Detection: Benchmark Dataset and Tensor-based Detection Method
by: Qazi, Zubair, et al.
Published: (2024)

A Layered Swarm Optimization Method for Fitting Battery Thermal Runaway Models to Accelerating Rate Calorimetry Data
by: Bhatnagar, Saakaar, et al.
Published: (2024)

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
by: Yuan, Shenghai, et al.
Published: (2025)

FedNC: A Secure and Efficient Federated Learning Method with Network Coding
by: Shi, Yuchen, et al.
Published: (2023)

QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots
by: Wu, Sheng, et al.
Published: (2025)

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion
by: Lv, Zheqi, et al.
Published: (2025)

58‐2: Objective Metrics and Theoretical Model for Evaluating the Spatial Reality Reproduction Performance of Head‐Mounted Display
by: Liang Gu, et al.
Published: (2025)

Subjective and Objective Quality-of-Experience Evaluation Study for Live Video Streaming
by: Zhu, Zehao, et al.
Published: (2024)

CL-VISTA: Benchmarking Continual Learning in Video Large Language Models
by: Guo, Haiyang, et al.
Published: (2026)

T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation
by: Chen, Yubin, et al.
Published: (2025)

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation
by: Jin, Song, et al.
Published: (2025)

RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method
by: Yan, Ming, et al.
Published: (2024)

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
by: He, Zheqi, et al.
Published: (2024)

Quality-Diversity Optimization as Multi-Objective Optimization
by: Lin, Xi, et al.
Published: (2026)

Edge-aware Hard Clustering Graph Pooling for Brain Imaging
by: Zhu, Cheng, et al.
Published: (2023)

Controlling of Crystal Facets by Dysprosium‐Modified WO3/Carbon Nanofibers Enhance the Flexible Supercapacitor Performance
by: Kaiyan Shi, et al.
Published: (2024)

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
by: Pan, Yaning, et al.
Published: (2025)

Music Source Restoration
by: Zang, Yongyi, et al.
Published: (2025)

Exploring SAIG Methods for an Objective Evaluation of XAI
by: Miró-Nicolau, Miquel, et al.
Published: (2026)

ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate
by: Yan, Ming, et al.
Published: (2025)