Gespeichert in:
| Hauptverfasser: | He, Shwai, Ge, Tao, Sun, Guoheng, Tian, Bowei, Wang, Xiaoyang, Yu, Dong |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2410.13184 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
What Matters in Transformers? Not All Attention is Needed
von: He, Shwai, et al.
Veröffentlicht: (2024)
von: He, Shwai, et al.
Veröffentlicht: (2024)
Demystifying When Pruning Works via Representation Hierarchies
von: He, Shwai, et al.
Veröffentlicht: (2026)
von: He, Shwai, et al.
Veröffentlicht: (2026)
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning
von: Li, Ming, et al.
Veröffentlicht: (2024)
von: Li, Ming, et al.
Veröffentlicht: (2024)
Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning
von: Li, Ming, et al.
Veröffentlicht: (2024)
von: Li, Ming, et al.
Veröffentlicht: (2024)
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
von: Wang, Xiaoyang, et al.
Veröffentlicht: (2025)
von: Wang, Xiaoyang, et al.
Veröffentlicht: (2025)
SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning
von: He, Yexiao, et al.
Veröffentlicht: (2024)
von: He, Yexiao, et al.
Veröffentlicht: (2024)
98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router
von: Liu, Xunzhuo, et al.
Veröffentlicht: (2026)
von: Liu, Xunzhuo, et al.
Veröffentlicht: (2026)
Mixture of Routers
von: Zhang, Jia-Chen, et al.
Veröffentlicht: (2025)
von: Zhang, Jia-Chen, et al.
Veröffentlicht: (2025)
WebRouter: Query-specific Router via Variational Information Bottleneck for Cost-sensitive Web Agent
von: Li, Tao, et al.
Veröffentlicht: (2025)
von: Li, Tao, et al.
Veröffentlicht: (2025)
SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning
von: Wang, Yiting, et al.
Veröffentlicht: (2025)
von: Wang, Yiting, et al.
Veröffentlicht: (2025)
Fair Diagnosis: Leveraging Causal Modeling to Mitigate Medical Bias
von: Tian, Bowei, et al.
Veröffentlicht: (2024)
von: Tian, Bowei, et al.
Veröffentlicht: (2024)
Scaling Synthetic Data Creation with 1,000,000,000 Personas
von: Ge, Tao, et al.
Veröffentlicht: (2024)
von: Ge, Tao, et al.
Veröffentlicht: (2024)
Towards counterfactual fairness through auxiliary variables
von: Tian, Bowei, et al.
Veröffentlicht: (2024)
von: Tian, Bowei, et al.
Veröffentlicht: (2024)
Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling
von: Ran, Junfeng, et al.
Veröffentlicht: (2025)
von: Ran, Junfeng, et al.
Veröffentlicht: (2025)
Making Large Language Models Efficient Dense Retrievers
von: Lei, Yibin, et al.
Veröffentlicht: (2025)
von: Lei, Yibin, et al.
Veröffentlicht: (2025)
DMON: A Simple yet Effective Approach for Argument Structure Learning
von: Sun, Wei, et al.
Veröffentlicht: (2024)
von: Sun, Wei, et al.
Veröffentlicht: (2024)
CP-Router: An Uncertainty-Aware Router Between LLM and LRM
von: Su, Jiayuan, et al.
Veröffentlicht: (2025)
von: Su, Jiayuan, et al.
Veröffentlicht: (2025)
Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts
von: He, Shwai, et al.
Veröffentlicht: (2025)
von: He, Shwai, et al.
Veröffentlicht: (2025)
OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning
von: Bao, Zhenghua, et al.
Veröffentlicht: (2026)
von: Bao, Zhenghua, et al.
Veröffentlicht: (2026)
Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL
von: Yao, Zhewei, et al.
Veröffentlicht: (2025)
von: Yao, Zhewei, et al.
Veröffentlicht: (2025)
GMTRouter: Personalized LLM Router over Multi-turn User Interactions
von: Xie, Encheng, et al.
Veröffentlicht: (2025)
von: Xie, Encheng, et al.
Veröffentlicht: (2025)
A Simple and Effective Pruning Approach for Large Language Models
von: Sun, Mingjie, et al.
Veröffentlicht: (2023)
von: Sun, Mingjie, et al.
Veröffentlicht: (2023)
Language Bias in LVLMs: From In-Depth Analysis to Simple and Effective Mitigation
von: Chen, Yangneng, et al.
Veröffentlicht: (2026)
von: Chen, Yangneng, et al.
Veröffentlicht: (2026)
Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
von: Chen, Yilong, et al.
Veröffentlicht: (2025)
von: Chen, Yilong, et al.
Veröffentlicht: (2025)
Revisiting Federated Fine-Tuning: A Single Communication Round is Enough for Foundation Models
von: Wang, Ziyao, et al.
Veröffentlicht: (2024)
von: Wang, Ziyao, et al.
Veröffentlicht: (2024)
AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering
von: Zhang, Zheyuan, et al.
Veröffentlicht: (2025)
von: Zhang, Zheyuan, et al.
Veröffentlicht: (2025)
Yuan 2.0-M32: Mixture of Experts with Attention Router
von: Wu, Shaohua, et al.
Veröffentlicht: (2024)
von: Wu, Shaohua, et al.
Veröffentlicht: (2024)
Scaling Mobile Agent Systems: From Capability Density to Collective Intelligence
von: He, Bowei
Veröffentlicht: (2026)
von: He, Bowei
Veröffentlicht: (2026)
LoRA-Squeeze: Simple and Effective Post-Tuning and In-Tuning Compression of LoRA Modules
von: Vulić, Ivan, et al.
Veröffentlicht: (2026)
von: Vulić, Ivan, et al.
Veröffentlicht: (2026)
Mario at EXIST 2025: A Simple Gateway to Effective Multilingual Sexism Detection
von: Tian, Lin, et al.
Veröffentlicht: (2025)
von: Tian, Lin, et al.
Veröffentlicht: (2025)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction
von: Jain, Akriti, et al.
Veröffentlicht: (2024)
von: Jain, Akriti, et al.
Veröffentlicht: (2024)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models
von: Ji, Ke, et al.
Veröffentlicht: (2025)
von: Ji, Ke, et al.
Veröffentlicht: (2025)
Layerwise Recurrent Router for Mixture-of-Experts
von: Qiu, Zihan, et al.
Veröffentlicht: (2024)
von: Qiu, Zihan, et al.
Veröffentlicht: (2024)
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
von: Sun, Guoheng, et al.
Veröffentlicht: (2025)
von: Sun, Guoheng, et al.
Veröffentlicht: (2025)
NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation
von: Wang, Xiaoyang, et al.
Veröffentlicht: (2021)
von: Wang, Xiaoyang, et al.
Veröffentlicht: (2021)
Instruction Matters: A Simple yet Effective Task Selection for Optimized Instruction Tuning of Specific Tasks
von: Lee, Changho, et al.
Veröffentlicht: (2024)
von: Lee, Changho, et al.
Veröffentlicht: (2024)
LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models
von: Sun, Yizheng, et al.
Veröffentlicht: (2025)
von: Sun, Yizheng, et al.
Veröffentlicht: (2025)
RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
von: Chen, Shuhao, et al.
Veröffentlicht: (2024)
von: Chen, Shuhao, et al.
Veröffentlicht: (2024)
Simple and Effective Input Reformulations for Translation
von: Yu, Brian, et al.
Veröffentlicht: (2023)
von: Yu, Brian, et al.
Veröffentlicht: (2023)
XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser
von: Cheng, Xianfu, et al.
Veröffentlicht: (2024)
von: Cheng, Xianfu, et al.
Veröffentlicht: (2024)
Ähnliche Einträge
-
What Matters in Transformers? Not All Attention is Needed
von: He, Shwai, et al.
Veröffentlicht: (2024) -
Demystifying When Pruning Works via Representation Hierarchies
von: He, Shwai, et al.
Veröffentlicht: (2026) -
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning
von: Li, Ming, et al.
Veröffentlicht: (2024) -
Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning
von: Li, Ming, et al.
Veröffentlicht: (2024) -
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
von: Wang, Xiaoyang, et al.
Veröffentlicht: (2025)