Enregistré dans:
| Auteurs principaux: | Le, Tue, Van, Linh Ngo, Le, Trung |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.00066 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Efficient Resource-Constrained Training of Transformers via Subspace Optimization
par: Nguyen, Le-Trung, et autres
Publié: (2025)
par: Nguyen, Le-Trung, et autres
Publié: (2025)
Agnostic Sharpness-Aware Minimization
par: Nguyen, Van-Anh, et autres
Publié: (2024)
par: Nguyen, Van-Anh, et autres
Publié: (2024)
LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection
par: Dao, Bao-Ngoc, et autres
Publié: (2025)
par: Dao, Bao-Ngoc, et autres
Publié: (2025)
Policy Learning for Off-Dynamics RL with Deficient Support
par: Van, Linh Le Pham, et autres
Publié: (2024)
par: Van, Linh Le Pham, et autres
Publié: (2024)
Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning
par: Tran, Quyen, et autres
Publié: (2024)
par: Tran, Quyen, et autres
Publié: (2024)
Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective
par: Le, Minh, et autres
Publié: (2024)
par: Le, Minh, et autres
Publié: (2024)
Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise
par: Luo, Haocheng, et autres
Publié: (2025)
par: Luo, Haocheng, et autres
Publié: (2025)
Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization
par: Luo, Haocheng, et autres
Publié: (2026)
par: Luo, Haocheng, et autres
Publié: (2026)
Optimizing Multi-Stage Language Models for Effective Text Retrieval
par: Trung, Quang Hoang, et autres
Publié: (2024)
par: Trung, Quang Hoang, et autres
Publié: (2024)
Mixture of Experts Meets Prompt-Based Continual Learning
par: Le, Minh, et autres
Publié: (2024)
par: Le, Minh, et autres
Publié: (2024)
Diversity-Aware Agnostic Ensemble of Sharpness Minimizers
par: Bui, Anh, et autres
Publié: (2024)
par: Bui, Anh, et autres
Publié: (2024)
Reinforcement Unlearning via Group Relative Policy Optimization
par: Zaradoukas, Efstratios, et autres
Publié: (2026)
par: Zaradoukas, Efstratios, et autres
Publié: (2026)
GRPOformer: Advancing Hyperparameter Optimization via Group Relative Policy Optimization
par: Guo, Haoxin, et autres
Publié: (2025)
par: Guo, Haoxin, et autres
Publié: (2025)
ToVo: Toxicity Taxonomy via Voting
par: Luong, Tinh Son, et autres
Publié: (2024)
par: Luong, Tinh Son, et autres
Publié: (2024)
Sharpness-Aware Teleportation on Riemannian Manifolds
par: Truong, Tuan, et autres
Publié: (2023)
par: Truong, Tuan, et autres
Publié: (2023)
Optimizing Specific and Shared Parameters for Efficient Parameter Tuning
par: Nguyen, Van-Anh, et autres
Publié: (2025)
par: Nguyen, Van-Anh, et autres
Publié: (2025)
Sharpness-Aware Data Generation for Zero-shot Quantization
par: Hoang-Anh, Dung, et autres
Publié: (2025)
par: Hoang-Anh, Dung, et autres
Publié: (2025)
Explicit Eigenvalue Regularization Improves Sharpness-Aware Minimization
par: Luo, Haocheng, et autres
Publié: (2025)
par: Luo, Haocheng, et autres
Publié: (2025)
An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning
par: Tran, Quyen, et autres
Publié: (2022)
par: Tran, Quyen, et autres
Publié: (2022)
AAC: Admissible-by-Architecture Differentiable Landmark Compression for ALT
par: Le, An T., et autres
Publié: (2026)
par: Le, An T., et autres
Publié: (2026)
Constrained Group Relative Policy Optimization
par: Girgis, Roger, et autres
Publié: (2026)
par: Girgis, Roger, et autres
Publié: (2026)
Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training
par: Mroueh, Youssef, et autres
Publié: (2025)
par: Mroueh, Youssef, et autres
Publié: (2025)
Selective Off-Policy Reference Tuning with Plan Guidance
par: Le, Duc Anh, et autres
Publié: (2026)
par: Le, Duc Anh, et autres
Publié: (2026)
Amortized Molecular Optimization via Group Relative Policy Optimization
par: Javaid, Muhammad bin, et autres
Publié: (2026)
par: Javaid, Muhammad bin, et autres
Publié: (2026)
Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects
par: Hoang, Tai, et autres
Publié: (2025)
par: Hoang, Tai, et autres
Publié: (2025)
Consensus Group Relative Policy Optimization for Text Generation
par: Ichihara, Yuki, et autres
Publié: (2026)
par: Ichihara, Yuki, et autres
Publié: (2026)
Hybrid Cross-domain Robust Reinforcement Learning
par: Van, Linh Le Pham, et autres
Publié: (2025)
par: Van, Linh Le Pham, et autres
Publié: (2025)
Tree SAE: Learning Hierarchical Feature Structures in Sparse Autoencoders
par: Cao, Tue M., et autres
Publié: (2026)
par: Cao, Tue M., et autres
Publié: (2026)
RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts
par: Truong, Tuan, et autres
Publié: (2025)
par: Truong, Tuan, et autres
Publié: (2025)
Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation
par: He, Xixiang, et autres
Publié: (2026)
par: He, Xixiang, et autres
Publié: (2026)
Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
par: Li, Gengsheng, et autres
Publié: (2026)
par: Li, Gengsheng, et autres
Publié: (2026)
Enhancing Robustness of Offline Reinforcement Learning Under Data Corruption via Sharpness-Aware Minimization
par: Xu, Le, et autres
Publié: (2025)
par: Xu, Le, et autres
Publié: (2025)
Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer
par: Nguyen, Minh Hoang, et autres
Publié: (2025)
par: Nguyen, Minh Hoang, et autres
Publié: (2025)
NGRPO: Negative-enhanced Group Relative Policy Optimization
par: Nan, Gongrui, et autres
Publié: (2025)
par: Nan, Gongrui, et autres
Publié: (2025)
Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic
par: Zhou, Hongyi, et autres
Publié: (2026)
par: Zhou, Hongyi, et autres
Publié: (2026)
Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models
par: Nguyen, Manh, et autres
Publié: (2025)
par: Nguyen, Manh, et autres
Publié: (2025)
Adaptive Two-Phase Finetuning LLMs for Japanese Legal Text Retrieval
par: Trung, Quang Hoang, et autres
Publié: (2024)
par: Trung, Quang Hoang, et autres
Publié: (2024)
Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization
par: Sane, Soham
Publié: (2025)
par: Sane, Soham
Publié: (2025)
DPFAGA-Dynamic Power Flow Analysis and Fault Characteristics: A Graph Attention Neural Network
par: Le, Tan, et autres
Publié: (2025)
par: Le, Tan, et autres
Publié: (2025)
DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning
par: Van, Linh Le Pham, et autres
Publié: (2025)
par: Van, Linh Le Pham, et autres
Publié: (2025)
Documents similaires
-
Efficient Resource-Constrained Training of Transformers via Subspace Optimization
par: Nguyen, Le-Trung, et autres
Publié: (2025) -
Agnostic Sharpness-Aware Minimization
par: Nguyen, Van-Anh, et autres
Publié: (2024) -
LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection
par: Dao, Bao-Ngoc, et autres
Publié: (2025) -
Policy Learning for Off-Dynamics RL with Deficient Support
par: Van, Linh Le Pham, et autres
Publié: (2024) -
Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning
par: Tran, Quyen, et autres
Publié: (2024)