Enregistré dans:
| Auteurs principaux: | Wu, Haoyuan, Ming, Rui, Gao, Jilong, Zhao, Hangyu, Chen, Xueyi, Yang, Yikai, Zheng, Haisheng, He, Zhuolun, Yu, Bei |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2505.12723 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving
par: Wu, Haoyuan, et autres
Publié: (2025)
par: Wu, Haoyuan, et autres
Publié: (2025)
Divergent Thoughts toward One Goal: LLM-based Multi-Agent Collaboration System for Electronic Design Automation
par: Wu, Haoyuan, et autres
Publié: (2025)
par: Wu, Haoyuan, et autres
Publié: (2025)
Efficient OpAmp Adaptation for Zoom Attention to Golden Contexts
par: Wu, Haoyuan, et autres
Publié: (2025)
par: Wu, Haoyuan, et autres
Publié: (2025)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
par: Wu, Haoyuan, et autres
Publié: (2024)
par: Wu, Haoyuan, et autres
Publié: (2024)
Architect of the Bits World: Masked Autoregressive Modeling for Circuit Generation Guided by Truth Table
par: Wu, Haoyuan, et autres
Publié: (2025)
par: Wu, Haoyuan, et autres
Publié: (2025)
One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient
par: Ming, Rui, et autres
Publié: (2025)
par: Ming, Rui, et autres
Publié: (2025)
ChatEDA: A Large Language Model Powered Autonomous Agent for EDA
par: He, Zhuolun, et autres
Publié: (2023)
par: He, Zhuolun, et autres
Publié: (2023)
Circuit Representation Learning with Masked Gate Modeling and Verilog-AIG Alignment
par: Wu, Haoyuan, et autres
Publié: (2025)
par: Wu, Haoyuan, et autres
Publié: (2025)
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA
par: Pu, Yuan, et autres
Publié: (2024)
par: Pu, Yuan, et autres
Publié: (2024)
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings
par: Qin, Jiajun, et autres
Publié: (2025)
par: Qin, Jiajun, et autres
Publié: (2025)
Group Sequence Policy Optimization
par: Zheng, Chujie, et autres
Publié: (2025)
par: Zheng, Chujie, et autres
Publié: (2025)
Corporate Climate Risk and Greenwashing Behaviour: Evidence From China
par: Jilong Chen, et autres
Publié: (2026)
par: Jilong Chen, et autres
Publié: (2026)
Towards Family-Grouped Hierarchical Federated Learning on Sub-5KB Models: A Feasibility Study of Privacy-Preserving ECG Monitoring for Ultra-Resource-Constrained Wearables
par: Wu, Hangyu
Publié: (2026)
par: Wu, Hangyu
Publié: (2026)
Understanding Reference Policies in Direct Preference Optimization
par: Liu, Yixin, et autres
Publié: (2024)
par: Liu, Yixin, et autres
Publié: (2024)
X-Light: Cross-City Traffic Signal Control Using Transformer on Transformer as Meta Multi-Agent Reinforcement Learner
par: Jiang, Haoyuan, et autres
Publié: (2024)
par: Jiang, Haoyuan, et autres
Publié: (2024)
Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning
par: Qin, Kai, et autres
Publié: (2025)
par: Qin, Kai, et autres
Publié: (2025)
No Preference Left Behind: Group Distributional Preference Optimization
par: Yao, Binwei, et autres
Publié: (2024)
par: Yao, Binwei, et autres
Publié: (2024)
Axis-Aligned Relaxations for Mixed-Integer Nonlinear Programming
par: Zhu, Haisheng, et autres
Publié: (2026)
par: Zhu, Haisheng, et autres
Publié: (2026)
Improving Fairness of Large Language Models in Multi-document Summarization
par: Li, Haoyuan, et autres
Publié: (2025)
par: Li, Haoyuan, et autres
Publié: (2025)
RePO: Understanding Preference Learning Through ReLU-Based Optimization
par: Wu, Junkang, et autres
Publié: (2025)
par: Wu, Junkang, et autres
Publié: (2025)
Compiler Optimization Testing Based on Optimization-Guided Equivalence Transformations
par: Wu, Jingwen, et autres
Publié: (2025)
par: Wu, Jingwen, et autres
Publié: (2025)
Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment
par: Wang, Jialu, et autres
Publié: (2026)
par: Wang, Jialu, et autres
Publié: (2026)
From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models
par: Zhu, Mingkang, et autres
Publié: (2025)
par: Zhu, Mingkang, et autres
Publié: (2025)
Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding
par: Li, Haoyuan, et autres
Publié: (2025)
par: Li, Haoyuan, et autres
Publié: (2025)
Group Preference Optimization: Few-Shot Alignment of Large Language Models
par: Zhao, Siyan, et autres
Publié: (2023)
par: Zhao, Siyan, et autres
Publié: (2023)
Reverse Preference Optimization for Complex Instruction Following
par: Huang, Xiang, et autres
Publié: (2025)
par: Huang, Xiang, et autres
Publié: (2025)
Sign-Guided Bipartite Graph Hashing for Hamming Space Search
par: Wu, Xueyi
Publié: (2024)
par: Wu, Xueyi
Publié: (2024)
2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
par: Li, Shilong, et autres
Publié: (2024)
par: Li, Shilong, et autres
Publié: (2024)
TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization
par: Zhu, Mingkang, et autres
Publié: (2025)
par: Zhu, Mingkang, et autres
Publié: (2025)
ViPO: Visual Preference Optimization at Scale
par: Li, Ming, et autres
Publié: (2026)
par: Li, Ming, et autres
Publié: (2026)
PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization
par: Wu, Jiayi, et autres
Publié: (2024)
par: Wu, Jiayi, et autres
Publié: (2024)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization
par: Xu, Austin, et autres
Publié: (2025)
par: Xu, Austin, et autres
Publié: (2025)
CoSLight: Co-optimizing Collaborator Selection and Decision-making to Enhance Traffic Signal Control
par: Ruan, Jingqing, et autres
Publié: (2024)
par: Ruan, Jingqing, et autres
Publié: (2024)
Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding
par: Li, Kun, et autres
Publié: (2025)
par: Li, Kun, et autres
Publié: (2025)
AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD
par: Xu, Yang, et autres
Publié: (2026)
par: Xu, Yang, et autres
Publié: (2026)
Disentangled Modeling of Preferences and Social Influence for Group Recommendation
par: Ye, Guangze, et autres
Publié: (2025)
par: Ye, Guangze, et autres
Publié: (2025)
High Compressive Strength Branched Polyamide 11 Foams: Reinforcement Effect of Nylon Elastomer and Structural Optimization
par: Xiao Tian, et autres
Publié: (2026)
par: Xiao Tian, et autres
Publié: (2026)
Fragmented Governance in the Belt and Road Initiative: Aligning Policy With SDGs 8 and 9
par: Haisheng Hu, et autres
Publié: (2025)
par: Haisheng Hu, et autres
Publié: (2025)
Direct Multi-Turn Preference Optimization for Language Agents
par: Shi, Wentao, et autres
Publié: (2024)
par: Shi, Wentao, et autres
Publié: (2024)
Quantum Indistinguishable Obfuscation via Quantum Circuit Equivalence
par: Zhang, Yuanjing, et autres
Publié: (2024)
par: Zhang, Yuanjing, et autres
Publié: (2024)
Documents similaires
-
ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving
par: Wu, Haoyuan, et autres
Publié: (2025) -
Divergent Thoughts toward One Goal: LLM-based Multi-Agent Collaboration System for Electronic Design Automation
par: Wu, Haoyuan, et autres
Publié: (2025) -
Efficient OpAmp Adaptation for Zoom Attention to Golden Contexts
par: Wu, Haoyuan, et autres
Publié: (2025) -
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
par: Wu, Haoyuan, et autres
Publié: (2024) -
Architect of the Bits World: Masked Autoregressive Modeling for Circuit Generation Guided by Truth Table
par: Wu, Haoyuan, et autres
Publié: (2025)