Gespeichert in:
| Hauptverfasser: | Yang, Jingpu, Han, Zehua, Xiang, Mengyu, Wang, Helin, Huang, Yuxiao, Fang, Miao |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2402.14849 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Enhancing Rare Codes via Probability-Biased Directed Graph Attention for Long-Tail ICD Coding
von: Chen, Tianlei, et al.
Veröffentlicht: (2025)
von: Chen, Tianlei, et al.
Veröffentlicht: (2025)
Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
von: Zhao, Minda, et al.
Veröffentlicht: (2026)
von: Zhao, Minda, et al.
Veröffentlicht: (2026)
PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning
von: Zou, Jiaru, et al.
Veröffentlicht: (2024)
von: Zou, Jiaru, et al.
Veröffentlicht: (2024)
Graph-enhanced Large Language Models in Asynchronous Plan Reasoning
von: Lin, Fangru, et al.
Veröffentlicht: (2024)
von: Lin, Fangru, et al.
Veröffentlicht: (2024)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
von: Noukhovitch, Michael, et al.
Veröffentlicht: (2024)
von: Noukhovitch, Michael, et al.
Veröffentlicht: (2024)
Group Representational Position Encoding
von: Zhang, Yifan, et al.
Veröffentlicht: (2025)
von: Zhang, Yifan, et al.
Veröffentlicht: (2025)
Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models
von: Miao, Tongyuan, et al.
Veröffentlicht: (2025)
von: Miao, Tongyuan, et al.
Veröffentlicht: (2025)
CasualSynth: Generating Structurally Sound Synthetic Data
von: Cheng, Zehua, et al.
Veröffentlicht: (2026)
von: Cheng, Zehua, et al.
Veröffentlicht: (2026)
Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation
von: He, Zhenyu, et al.
Veröffentlicht: (2024)
von: He, Zhenyu, et al.
Veröffentlicht: (2024)
Scaling Bidirectional Spans and Span Violations in Attention Mechanism
von: Kim, Jongwook, et al.
Veröffentlicht: (2025)
von: Kim, Jongwook, et al.
Veröffentlicht: (2025)
Understanding Emergent Abilities of Language Models from the Loss Perspective
von: Du, Zhengxiao, et al.
Veröffentlicht: (2024)
von: Du, Zhengxiao, et al.
Veröffentlicht: (2024)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve
von: Qu, Yuxiao, et al.
Veröffentlicht: (2024)
von: Qu, Yuxiao, et al.
Veröffentlicht: (2024)
Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
von: Liu, Xiao, et al.
Veröffentlicht: (2024)
von: Liu, Xiao, et al.
Veröffentlicht: (2024)
AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents
von: Kim, Hojoon, et al.
Veröffentlicht: (2026)
von: Kim, Hojoon, et al.
Veröffentlicht: (2026)
AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features
von: Zhu, Xudong, et al.
Veröffentlicht: (2025)
von: Zhu, Xudong, et al.
Veröffentlicht: (2025)
Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings
von: Liu, Shikun, et al.
Veröffentlicht: (2025)
von: Liu, Shikun, et al.
Veröffentlicht: (2025)
Parameter-Efficient Fine-Tuning for Foundation Models
von: Zhang, Dan, et al.
Veröffentlicht: (2025)
von: Zhang, Dan, et al.
Veröffentlicht: (2025)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models
von: Cheng, Jiale, et al.
Veröffentlicht: (2024)
von: Cheng, Jiale, et al.
Veröffentlicht: (2024)
Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs
von: Feng, Guangyu, et al.
Veröffentlicht: (2026)
von: Feng, Guangyu, et al.
Veröffentlicht: (2026)
BiSup: Bidirectional Quantization Error Suppression for Large Language Models
von: Zou, Minghui, et al.
Veröffentlicht: (2024)
von: Zou, Minghui, et al.
Veröffentlicht: (2024)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models
von: Cheng, Jiale, et al.
Veröffentlicht: (2024)
von: Cheng, Jiale, et al.
Veröffentlicht: (2024)
CaRT: Teaching LLM Agents to Know When They Know Enough
von: Liu, Grace, et al.
Veröffentlicht: (2025)
von: Liu, Grace, et al.
Veröffentlicht: (2025)
POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration
von: Qu, Yuxiao, et al.
Veröffentlicht: (2026)
von: Qu, Yuxiao, et al.
Veröffentlicht: (2026)
Understanding Token Probability Encoding in Output Embeddings
von: Cho, Hakaze, et al.
Veröffentlicht: (2024)
von: Cho, Hakaze, et al.
Veröffentlicht: (2024)
Encoding Agent Trajectories as Representations with Sequence Transformers
von: Tsiligkaridis, Athanasios, et al.
Veröffentlicht: (2024)
von: Tsiligkaridis, Athanasios, et al.
Veröffentlicht: (2024)
The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models
von: Flamant, Cedric, et al.
Veröffentlicht: (2026)
von: Flamant, Cedric, et al.
Veröffentlicht: (2026)
Do LLMs Encode Functional Importance of Reasoning Tokens?
von: Singh, Janvijay, et al.
Veröffentlicht: (2026)
von: Singh, Janvijay, et al.
Veröffentlicht: (2026)
CNSight: Evaluation of Clinical Note Segmentation Tools
von: Surana, Risha, et al.
Veröffentlicht: (2025)
von: Surana, Risha, et al.
Veröffentlicht: (2025)
Maximizing Asynchronicity in Event-based Neural Networks
von: Hao, Haiqing, et al.
Veröffentlicht: (2025)
von: Hao, Haiqing, et al.
Veröffentlicht: (2025)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
von: Chen, Guoxuan, et al.
Veröffentlicht: (2024)
von: Chen, Guoxuan, et al.
Veröffentlicht: (2024)
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
von: Qu, Yuxiao, et al.
Veröffentlicht: (2025)
von: Qu, Yuxiao, et al.
Veröffentlicht: (2025)
SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression
von: Zhang, Jing, et al.
Veröffentlicht: (2024)
von: Zhang, Jing, et al.
Veröffentlicht: (2024)
From Pruning to Grafting: Dynamic Knowledge Redistribution via Learnable Layer Fusion
von: Pei, Zehua, et al.
Veröffentlicht: (2024)
von: Pei, Zehua, et al.
Veröffentlicht: (2024)
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations
von: Lugoloobi, William, et al.
Veröffentlicht: (2026)
von: Lugoloobi, William, et al.
Veröffentlicht: (2026)
HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation
von: Chen, Yuhan, et al.
Veröffentlicht: (2024)
von: Chen, Yuhan, et al.
Veröffentlicht: (2024)
RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems
von: Qu, Yuxiao, et al.
Veröffentlicht: (2025)
von: Qu, Yuxiao, et al.
Veröffentlicht: (2025)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling
von: Limisiewicz, Tomasz, et al.
Veröffentlicht: (2024)
von: Limisiewicz, Tomasz, et al.
Veröffentlicht: (2024)
Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization
von: Foroutan, Negar, et al.
Veröffentlicht: (2025)
von: Foroutan, Negar, et al.
Veröffentlicht: (2025)
Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts
von: Koishekenov, Yeskendir, et al.
Veröffentlicht: (2025)
von: Koishekenov, Yeskendir, et al.
Veröffentlicht: (2025)
GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification
von: Khamis, Ahmed Khaled
Veröffentlicht: (2026)
von: Khamis, Ahmed Khaled
Veröffentlicht: (2026)
Ähnliche Einträge
-
Enhancing Rare Codes via Probability-Biased Directed Graph Attention for Long-Tail ICD Coding
von: Chen, Tianlei, et al.
Veröffentlicht: (2025) -
Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
von: Zhao, Minda, et al.
Veröffentlicht: (2026) -
PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning
von: Zou, Jiaru, et al.
Veröffentlicht: (2024) -
Graph-enhanced Large Language Models in Asynchronous Plan Reasoning
von: Lin, Fangru, et al.
Veröffentlicht: (2024) -
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
von: Noukhovitch, Michael, et al.
Veröffentlicht: (2024)