Salvato in:
| Autori principali: | He, Chaoqun, Luo, Renjie, Hu, Shengding, Zhao, Yuanqian, Zhou, Jie, Wu, Hanghao, Zhang, Jiajie, Han, Xu, Liu, Zhiyuan, Sun, Maosong |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2404.07584 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026)
di: Shi, Qundong, et al.
Pubblicazione: (2026)
States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
di: Chen, Junhao, et al.
Pubblicazione: (2024)
di: Chen, Junhao, et al.
Pubblicazione: (2024)
Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition
di: Huang, Yufei, et al.
Pubblicazione: (2024)
di: Huang, Yufei, et al.
Pubblicazione: (2024)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
di: Cheng, Zhili, et al.
Pubblicazione: (2025)
di: Cheng, Zhili, et al.
Pubblicazione: (2025)
Predicting Emergent Abilities with Infinite Resolution Evaluation
di: Hu, Shengding, et al.
Pubblicazione: (2023)
di: Hu, Shengding, et al.
Pubblicazione: (2023)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
di: He, Chaoqun, et al.
Pubblicazione: (2024)
di: He, Chaoqun, et al.
Pubblicazione: (2024)
Stuffed Mamba: Oversized States Lead to the Inability to Forget
di: Chen, Yingfa, et al.
Pubblicazione: (2024)
di: Chen, Yingfa, et al.
Pubblicazione: (2024)
LEGENT: Open Platform for Embodied Agents
di: Cheng, Zhili, et al.
Pubblicazione: (2024)
di: Cheng, Zhili, et al.
Pubblicazione: (2024)
DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models
di: Zhao, Ranchi, et al.
Pubblicazione: (2024)
di: Zhao, Ranchi, et al.
Pubblicazione: (2024)
A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules
di: Luo, Kairong, et al.
Pubblicazione: (2025)
di: Luo, Kairong, et al.
Pubblicazione: (2025)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
di: Zhang, Xinrong, et al.
Pubblicazione: (2024)
di: Zhang, Xinrong, et al.
Pubblicazione: (2024)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
di: Hu, Jinyi, et al.
Pubblicazione: (2024)
di: Hu, Jinyi, et al.
Pubblicazione: (2024)
Densing Law of LLMs
di: Xiao, Chaojun, et al.
Pubblicazione: (2024)
di: Xiao, Chaojun, et al.
Pubblicazione: (2024)
$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens
di: Zhang, Xinrong, et al.
Pubblicazione: (2024)
di: Zhang, Xinrong, et al.
Pubblicazione: (2024)
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction
di: He, Chaoqun, et al.
Pubblicazione: (2026)
di: He, Chaoqun, et al.
Pubblicazione: (2026)
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models
di: Song, Chenyang, et al.
Pubblicazione: (2024)
di: Song, Chenyang, et al.
Pubblicazione: (2024)
FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation
di: He, Zheqi, et al.
Pubblicazione: (2025)
di: He, Zheqi, et al.
Pubblicazione: (2025)
MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs
di: Zhao, Chenchen, et al.
Pubblicazione: (2025)
di: Zhao, Chenchen, et al.
Pubblicazione: (2025)
Matrix Fejér-Riesz type theorem for a union of an interval and a point
di: Sun, Shengding, et al.
Pubblicazione: (2025)
di: Sun, Shengding, et al.
Pubblicazione: (2025)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
di: Hu, Jinyi, et al.
Pubblicazione: (2023)
di: Hu, Jinyi, et al.
Pubblicazione: (2023)
STExplore: An Integrated Online Platform for Comprehensive Analysis and Visualization of Spatial Transcriptomics Data
di: Yongtian Wang, et al.
Pubblicazione: (2025)
di: Yongtian Wang, et al.
Pubblicazione: (2025)
On the strength of Burer's lifted convex relaxation to quadratic programming with ball constraints
di: Kılınç-Karzan, Fatma, et al.
Pubblicazione: (2024)
di: Kılınç-Karzan, Fatma, et al.
Pubblicazione: (2024)
LiCoEval: Evaluating LLMs on License Compliance in Code Generation
di: Xu, Weiwei, et al.
Pubblicazione: (2024)
di: Xu, Weiwei, et al.
Pubblicazione: (2024)
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
di: Song, Tingyu, et al.
Pubblicazione: (2025)
di: Song, Tingyu, et al.
Pubblicazione: (2025)
Representation Learning for Natural Language Processing
di: Liu, Zhiyuan, et al.
Pubblicazione: (2020)
di: Liu, Zhiyuan, et al.
Pubblicazione: (2020)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
di: Hu, Shengding, et al.
Pubblicazione: (2024)
di: Hu, Shengding, et al.
Pubblicazione: (2024)
Fusion-Eval: Integrating Assistant Evaluators with LLMs
di: Shu, Lei, et al.
Pubblicazione: (2023)
di: Shu, Lei, et al.
Pubblicazione: (2023)
AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs
di: Li, Shangzhan, et al.
Pubblicazione: (2025)
di: Li, Shangzhan, et al.
Pubblicazione: (2025)
GraphEval: A Lightweight Graph-Based LLM Framework for Idea Evaluation
di: Feng, Tao, et al.
Pubblicazione: (2025)
di: Feng, Tao, et al.
Pubblicazione: (2025)
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
di: Xiong, Miao, et al.
Pubblicazione: (2023)
di: Xiong, Miao, et al.
Pubblicazione: (2023)
MM-Eval: A Hierarchical Benchmark for Modern Mongolian Evaluation in LLMs
di: Zhang, Mengyuan, et al.
Pubblicazione: (2024)
di: Zhang, Mengyuan, et al.
Pubblicazione: (2024)
Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values
di: Yao, Jing, et al.
Pubblicazione: (2025)
di: Yao, Jing, et al.
Pubblicazione: (2025)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs
di: Huang, Yuxiang, et al.
Pubblicazione: (2025)
di: Huang, Yuxiang, et al.
Pubblicazione: (2025)
H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
di: Gao, Cheng, et al.
Pubblicazione: (2025)
di: Gao, Cheng, et al.
Pubblicazione: (2025)
SAGE-Eval: Evaluating LLMs for Systematic Generalizations of Safety Facts
di: Yueh-Han, Chen, et al.
Pubblicazione: (2025)
di: Yueh-Han, Chen, et al.
Pubblicazione: (2025)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory
di: Xiao, Chaojun, et al.
Pubblicazione: (2024)
di: Xiao, Chaojun, et al.
Pubblicazione: (2024)
A Microgravity Simulation Experimental Platform For Small Space Robots In Orbit
di: Luo, Hang, et al.
Pubblicazione: (2025)
di: Luo, Hang, et al.
Pubblicazione: (2025)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices
di: Zhao, Weilin, et al.
Pubblicazione: (2023)
di: Zhao, Weilin, et al.
Pubblicazione: (2023)
HKCanto-Eval: A Benchmark for Evaluating Cantonese Language Understanding and Cultural Comprehension in LLMs
di: Cheng, Tsz Chung, et al.
Pubblicazione: (2025)
di: Cheng, Tsz Chung, et al.
Pubblicazione: (2025)
MiniCPM4: Ultra-Efficient LLMs on End Devices
di: MiniCPM Team, et al.
Pubblicazione: (2025)
di: MiniCPM Team, et al.
Pubblicazione: (2025)
Documenti analoghi
-
UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
di: Shi, Qundong, et al.
Pubblicazione: (2026) -
States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
di: Chen, Junhao, et al.
Pubblicazione: (2024) -
Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition
di: Huang, Yufei, et al.
Pubblicazione: (2024) -
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
di: Cheng, Zhili, et al.
Pubblicazione: (2025) -
Predicting Emergent Abilities with Infinite Resolution Evaluation
di: Hu, Shengding, et al.
Pubblicazione: (2023)