:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Zhou, Yujin, Wen, Pengcheng, Chen, Jiale, Yin, Boqin, Zhu, Han, Ji, Jiaming, Dai, Juntao, Chan, Chi-Min, Han, Sirui
Format:	Preprint
Veröffentlicht:	2026
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2602.08346
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs
von: Wen, Pengcheng, et al.
Veröffentlicht: (2025)

Not Just the Destination, But the Journey: Reasoning Traces Causally Shape Generalization Behaviors
von: Wen, Pengcheng, et al.
Veröffentlicht: (2026)

SafeMT: Multi-turn Safety for Multimodal Language Models
von: Zhu, Han, et al.
Veröffentlicht: (2025)

When Slower Isn't Truer: Inverse Scaling Law of Truthfulness in Multimodal Reasoning
von: Fang, Sitong, et al.
Veröffentlicht: (2025)

AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs
von: Zhu, Han, et al.
Veröffentlicht: (2026)

Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning
von: Bai, Hongbo, et al.
Veröffentlicht: (2026)

J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge
von: Chan, Chi-Min, et al.
Veröffentlicht: (2025)

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning
von: Chan, Chi-Min, et al.
Veröffentlicht: (2026)

SafeLawBench: Towards Safe Alignment of Large Language Models
von: Cao, Chuxue, et al.
Veröffentlicht: (2025)

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
von: Zhou, Jiayi, et al.
Veröffentlicht: (2024)

LegalReasoner: Step-wised Verification-Correction for Legal Judgment Reasoning
von: Shi, Weijie, et al.
Veröffentlicht: (2025)

Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback
von: Ji, Jiaming, et al.
Veröffentlicht: (2025)

Think Before You Prune: Selective Self-Generated Calibration for Pruning Large Reasoning Models
von: Xiang, Yang, et al.
Veröffentlicht: (2025)

SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning
von: Wang, Lichao, et al.
Veröffentlicht: (2026)

Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection
von: Yakun, Cui, et al.
Veröffentlicht: (2025)

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning
von: Zhong, Han, et al.
Veröffentlicht: (2025)

Rewarding How Models Think Pedagogically: Integrating Pedagogical Reasoning and Thinking Rewards for LLMs in Education
von: Lee, Unggi, et al.
Veröffentlicht: (2026)

L-MARS: Legal Multi-Agent Workflow with Orchestrated Reasoning and Agentic Search
von: Wang, Ziqi, et al.
Veröffentlicht: (2025)

Think Twice: Branch-and-Rethink Reasoning Reward Model
von: Jiao, Yizhu, et al.
Veröffentlicht: (2025)

LRAS: Advanced Legal Reasoning with Agentic Search
von: Zhou, Yujin, et al.
Veröffentlicht: (2026)

Mitigating Deceptive Alignment via Self-Monitoring
von: Ji, Jiaming, et al.
Veröffentlicht: (2025)

When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning
von: Xiang, Yang, et al.
Veröffentlicht: (2026)

GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning
von: Fu, Jiale, et al.
Veröffentlicht: (2024)

Variance Reduction via Resampling and Experience Replay
von: Han, Jiale, et al.
Veröffentlicht: (2025)

Online Auction Design Using Distribution-Free Uncertainty Quantification with Applications to E-Commerce
von: Han, Jiale, et al.
Veröffentlicht: (2024)

A Robust Multi-Item Auction Design with Statistical Learning
von: Han, Jiale, et al.
Veröffentlicht: (2023)

Mechanism Design for Quality-Preserving LLM Advertising
von: Han, Jiale, et al.
Veröffentlicht: (2026)

HoneyImage: Verifiable, Harmless, and Stealthy Dataset Ownership Verification for Image Models
von: Zhu, Zhihao, et al.
Veröffentlicht: (2025)

Improving Vision-language Models with Perception-centric Process Reward Models
von: Min, Yingqian, et al.
Veröffentlicht: (2026)

What's on Your Plate? Inferring Chinese Cuisine Intake from Wearable IMUs
von: Yin, Jiaxi, et al.
Veröffentlicht: (2025)

Beyond Surface Structure: A Causal Assessment of LLMs' Comprehension Ability
von: Han, Yujin, et al.
Veröffentlicht: (2024)

Process Reward Models That Think
von: Khalifa, Muhammad, et al.
Veröffentlicht: (2025)

Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving
von: Cao, Chuxue, et al.
Veröffentlicht: (2025)

Measuring Hong Kong Massive Multi-Task Language Understanding
von: Cao, Chuxue, et al.
Veröffentlicht: (2025)

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
von: Tang, Zecheng, et al.
Veröffentlicht: (2026)

Reward Generalization in RLHF: A Topological Perspective
von: Qiu, Tianyi, et al.
Veröffentlicht: (2024)

PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference
von: Ji, Jiaming, et al.
Veröffentlicht: (2024)

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning
von: Ding, Yuyang, et al.
Veröffentlicht: (2025)

ThinkPilot: Steering Reasoning Models via Automated Think-prefixes Optimization
von: Li, Sunzhu, et al.
Veröffentlicht: (2025)

VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment
von: Chen, Jiawei, et al.
Veröffentlicht: (2026)